关注并星标
从此不迷路
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
作者:Edison_G
看到 ChatGPT 的华丽诞生,心情很复杂,既高兴、惊喜,也感到恐慌。高兴和惊喜的是没有预料到这么快就见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。恐慌的是 ChatGPT 几乎可以高质量地完成 NLP 中的大多数任务,逐渐认识到很多 NLP 的研究方向遇到了极大挑战。
转自《机器之心SOTA模型》
看看本周新进展
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video
近年来,语言、视觉和多模态的预训练有了很大的融合。该研究提出了 mPLUG-2,一个新的统一的多模态预训练的模块化设计范式。它可以灵活地选择不同的模块来完成包括文本、图像和视频在内的所有模态的不同理解和生成任务。mPLUG-2 在 30 多个下游任务中取得SOTA,包括图像-文本和视频-文本理解和生成等多模态任务,以及纯文本、纯图像和纯视频理解等单模态任务;同时 mPLUG-2 在具有挑战性的 MSRVTT 视频质量保证和视频字幕任务中,以更小的模型规模和数据规模显示了 48.0 的最高准确率和 80.3 的 CIDEr 的新的最先进的结果。
获取资源:
https://sota.jiqizhixin.com/project/mplug-2
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
大规模多模态生成模型在文本到图像和文本到视频的生成方面创造了里程碑。它在音频领域的应用仍然滞后,主要在于缺乏高质量文本 - 音频对的大规模数据集,以及对长时间连续音频数据建模的复杂性。该研究提出文本到音频的生成系统 Make-An-Audio,可将任意模态的自然语言描述(如文本、音频、图像、视频等)作为输入,输出符合描述的音频音效。其用 distill-then-reprogram 引入伪提示增强,通过无语言的音频,以数量级的概念组合缓解了数据的稀缺性;同时用谱图自动编码器来预测自我监督的音频表现。
获取资源:
https://sota.jiqizhixin.com/project/make-an-audio
Dreamix: Video Diffusion Models are General Video Editors
文本驱动的图像和视频扩散模型实现了前所未有的生成真实性。谷歌提出 Dreamix,将文本条件视频扩散模型(VDM)应用于视频编辑。Dreamix 可基于文本描述对视频进行编辑、更改视频的对象。Dreamix 可使文本条件 VDM 保持对输入视频的高保真度。关键思路有两点:不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺寸和添加噪声仅保留低时空信息;通过微调原始视频上的生成模型来进一步提升对原始视频的保真度。
获取资源:
https://sota.jiqizhixin.com/project/dreamix
Noise2Music: Text-conditioned Music Generation with Diffusion Models
该研究介绍 Noise2Music,训练了一系列扩散模型,以从文本提示生成高质量的 30 秒音乐剪辑。该研究包含两种类型的扩散模型,一种是生成器模型,它生成以文本为条件的中间表示,另一种是级联模型,它生成以中间表示和可能的文本为条件的高保真音频,它们被连续训练和利用以生成高保真音乐。生成的音频不仅能够忠实地反映文本提示的关键元素,如流派、节奏、乐器、情绪和时代,而且超越了提示的细粒度语义。
获取资源:
https://sota.jiqizhixin.com/project/noise2music
TEXTure: Text-Guided Texturing of 3D Shapes
该研究提出 TEXTure,一种以文本为指导生成、编辑和转移 3D 形状的纹理的新方法。应用预训练深度到图像扩散模型,通过迭代从不同视角绘制 3D 模型。为解决深度到图像模型在生成过程中,随机性对整个 3D 对象进行纹理处理时导致的不一致,该研究将渲染图像动态定义为三个渐进状态的 trimap 分区,并提出新的扩散采样过程。广泛评估表明,TEXTure 在生成、传输和编辑纹理方面表现出色,并进一步缩小了 2D 图像生成和 3D 纹理之间的差距。
获取资源:
https://sota.jiqizhixin.com/project/texture
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery
现代生成式模型的优势在于它们能够通过基于文本的提示进行控制。典型的 "硬 "提示是由可解释的词和标记组成的,必须由人类手工制作。该研究提出一种通过有效的基于梯度的优化来稳健地优化硬文本提示的方法,为文本到图像和文本到文本的应用自动生成了基于硬文本的提示语。在文本到图像的设置中,该方法为扩散模型创建了硬提示,允许 API 用户轻松生成、发现、混合和匹配图像概念,而无需事先了解如何提示模型。在文本到文本的设置中,该研究表明硬提示可以被自动发现,从而有效地调整 LMs 进行分类。
Zero-shot Image-to-Image Translation
大规模文本到图像生成模型已显示出其合成多样化和高质量图像的显著能力。然而用户难以通过完美文本提示,准确描述输入图像中的每个视觉细节。现有模型可在某些区域引入理想的变化,但它们往往会极大地改变输入内容,并使得不需要的区域出现意想不到的变化。该研究提出 pix2pix-zero,这是一种图像到图像的转换方法,可在没有手动提示的情况下保留原始图像的内容,通过使用现有的预训练文本到图像的扩散模型,而无需对编辑方向进行额外训练。
获取资源:
https://sota.jiqizhixin.com/project/pix2pix-zero
Multimodal Chain-of-Thought Reasoning in Language Models
大型语言模型(LLMs)通过思想链(CoT)提示,生成中间推理链作为推断答案的依据,现有研究在语言模式下与 LLMs 隔离,使得 LLMs 难以部署。该研究提出 Multimodal-CoT,在一个解耦的训练框架中加入了视觉特征。该框架将理由生成和答案推理分成两个阶段。通过将视觉特征纳入这两个阶段,该模型能够生成有助于答案推理的有效理由。借助 Multimodal-CoT,10 亿参数的语言模型在 ScienceQA 基准上比之前最先进的 LLM(GPT-3.5)高出 16%(75.17%->91.68%),甚至超过了人类的表现。
获取资源:
https://sota.jiqizhixin.com/project/multimodal-cot
Avalanche: A PyTorch Library for Deep Continual Learning
持续学习是指从非平稳的数据流中学习的问题,这是一个可持续的、高效的深度神经网络训练的基本问题。然而,假设模型的架构和数据是固定的,深度学习库只为离线训练提供基元。该研究开源 Avalanche,提供了大量预定义的基准和训练算法,易于扩展和模块化,同时支持广泛的连续学习场景。
获取资源:
https://sota.jiqizhixin.com/project/avalanche
Mixture of Diffusers for scene composition and high resolution image generation
扩散方法已被证明对生成图像非常有效,同时可以对文本提示进行调节。然而,这些方法在试图生成特定的图像组合时比较困难。该研究提出 Mixture of Diffusers,用于场景合成和高分辨率图像生成。其建立在现有扩散模型之上的算法,以提供对图像组合更详细控制。其通过协调作用于画布不同区域的几个扩散过程,它可以生成更大的图像,其中每个物体和风格的位置都由一个单独的扩散过程控制。
获取资源:
https://sota.jiqizhixin.com/project/mixture-of-diffusers
MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
视频对象分割 (VOS) 旨在整个视频剪辑序列中分割出特定对象。然而,由于现有数据集中的目标对象通常相对突出、占主导地位和孤立,因此很少研究复杂场景下的 VOS。为了重新审视 VOS 并使其更适用于现实世界,该研究收集名为复杂视频对象分割 (MOSE) 的新 VOS 数据集,以研究复杂环境中的跟踪和分割对象。MOSE 包含来自 36 个类别的 2149 个视频片段和 5200 个对象,具有 43w+ 个高质量对象分割掩码,涵盖拥挤和遮挡对象的复杂场景。
获取资源:平台收录新数据集:2023/02/04
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐
🔗
本文来自微信公众号“计算机视觉研究院”(ID:ComputerVisionGzq)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。