7 Papers | 超越GPT 3.5的小模型；对ChatGPT摸底考试

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

作者：Edison_G

本周论文包括2D 图像脑补 3D 人体；亚马逊发布超越 GPT 3.5 的小模型等研究。

转自《机器之心》

Structure and Content-Guided Video Synthesis with Diffusion Models
EVA3D: Compositional 3D Human Generation from 2D Image Collections
Multimodal Chain-of-Thought Reasoning in Language Models
Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
Toolformer: Language Models Can Teach Themselves to Use Tools
Looped Transformers as Programmable Computers
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

论文 1：Structure and Content-Guided Video Synthesis with Diffusion Models

作者：Patrick Esser 、 Johnathan Chiu 等
论文地址：https://arxiv.org/pdf/2302.03011.pdf

摘要：近日，曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」，该模型通过应用文本 prompt 或参考图像指定的任何风格，可将现有视频转化为新视频。

具体来说，Gen-1 支持几种编辑模式：

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。

2、故事板。将模型变成完全风格化和动画的渲染。

3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。

4、渲染。通过应用输入图像或 prompt，将无纹理渲染变成逼真的输出。

5、定制化。通过自定义模型以获得更高保真度的结果，释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中，展示了 Gen-1 如何丝滑地更改视频风格，来看几个示例。

比如将「街道上的人」变成「粘土木偶」，只需要一行 prompt：

推荐：从文本生成图像，再到给视频加特效，下一个 AIGC 爆发点要出现了吗？

论文 2：EVA3D: Compositional 3D Human Generation from 2D Image Collections

作者：Fangzhou Hong 等
论文地址：https://arxiv.org/abs/2210.04888

摘要：在 ICLR 2023 上，南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染，近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上，三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达，实现了高分辨率（512x256）的三维人体生成，并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案，代码已开源。

推荐：2D 图像脑补 3D 人体，衣服随便搭，还能改动作。

论文 3：Multimodal Chain-of-Thought Reasoning in Language Models

作者：Zhuosheng Zhang 等
论文地址：https://arxiv.org/abs/2302.00923

摘要：众所周知，ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的，我们看到很多研究也在紧随其后紧追慢赶，但是，与 ChatGPT 相比，他们的新研究效果到底有多好？近日，亚马逊发布的一篇论文提出了包含视觉特征的 Multimodal-CoT，该架构在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

下图为 Multimodal CoT 两阶段过程：使用文本（问题 + 上下文）和视觉特征来产生逻辑依据。

推荐：超越 GPT 3.5 的小模型来了！

论文 4：Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

作者：Chengwei Qin 等
论文地址：https://arxiv.org/pdf/2302.06476.pdf

摘要：ChatGPT 真的是「通才」吗？单拎出哪项能力都能完胜其他模型吗？哪些任务是 ChatGPT 擅长的，哪些不是？为了系统地探索这些问题，南洋理工大学博士生 Chengwei Qin、斯坦福大学计算机科学助理教授杨笛一等人进行了大量实验。

该研究主要比较了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任务下的 zero-shot 学习性能。

推荐：ChatGPT 真的是「通才」吗？杨笛一等人给它来了个摸底考试。

论文 5：Toolformer: Language Models Can Teach Themselves to Use Tools

作者：Timo Schick 等
论文地址：https://arxiv.org/pdf/2302.04761v1.pdf

摘要：在自然语言处理任务中，大型语言模型在零样本和少样本学习方面取得了令人印象深刻的结果。然而，所有模型都存在固有的局限性，往往只能通过进一步扩展来部分解决。具体来讲，模型的局限性包括无法访问最新信息、会对事实产生「信息幻觉」、低资源语言理解困难、缺乏进行精确计算的数学技能等等。

解决这些问题的一种简单方法就是给模型配备外部工具，如搜索引擎、计算器或日历。然而，现有方法通常依赖于大量的人工注释，或将工具的使用限制在特定的任务设置下，使得语言模型与外部工具的结合使用难以推广。为了打破这种瓶颈，近期 Meta AI 提出了一种称为 Toolformer 的新方法，使得语言模型学会「使用」各种外部工具。如下为 Toolformer 的典型预测。

推荐：语言模型自己学会用搜索引擎了？Meta AI 提出 API 调用自监督学习方法 Toolformer。

论文 6：Looped Transformers as Programmable Computers

作者：Angeliki Giannou 等
论文地址：https://arxiv.org/pdf/2301.13196.pdf

摘要：在本文中，作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。作者通过对 Attention 进行逆向工程来模拟基本计算块来做到这一点，例如对输入序列的编辑操作、非线性函数、函数调用、程序计数器和条件分支。作者的论文证明了使用单个循环或递归将 Transformer 的输出序列连接回其输入的重要性，从而避免对深度模型的需要。如下为用作实现小型指令集计算机构建块的三个 Transformer 块的示意图。

推荐：作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。

论文 7：AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

作者：Haohe Liu 等
论文地址：https://arxiv.org/abs/2301.12503

摘要：给出一段文字，人工智能就可以生成音乐，语音，各种音效，甚至是想象的声音，比如黑洞和激光枪。最近由英国萨里大学和帝国理工学院联合推出的 AudioLDM，在发布之后迅速火遍国外，一周内在推特上收获了近 300 次的转发和 1500 次的点赞。在模型开源第二天，AudioLDM 就冲上了 Hugging Face 热搜榜第一名，并在一周内进入了 Hugging Face 最受喜欢的前 40 名应用榜单（共约 25000），也迅速出现了很多基于 AudioLDM 的衍生工作。

推荐：开源模型、单卡训练，带你了解爆火的文本指导音频生成技术 AudioLDM。

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

扫码关注

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

往期推荐

🔗