随着ChatGPT的爆火,AIGC概念也被众人推向争论的最高峰。
细数人工智能生成内容的发展历史,就不得不提到Stable Diffusion这个重要节点。
Stable Diffusion效果
那么Stable Diffusion究竟代表着什么呢?
它的背后有着哪些推手呢?
#01
Stable Diffusion?
Stable Diffusion 是一种潜在的文本到图像扩散模型。
它能够在给定任何文本输入的情况下生成逼真的图像,使数十亿人能够在几秒钟内创造出令人惊叹的艺术。
通俗地讲就是,将文字变成图片。
例如输入:十几岁的半亚裔男孩,英俊,可爱,短波浪发,对称脸,中特写,80 年代,乌托邦,彩绘”的文字内容——
Stable Diffusion生成图1
Stable Diffusion就会生成这样一张符合文字描述的图片。
输入的内容不同,它所生成的图片也会随之进行改变。
比如改成,骑着马的宇航员。
Stable Diffusion生成图2
此外,它还支持通过包含或省略的元素的文本提示从头开始生成新图像的能力。
有着如此强大的功能的Stable Diffusion,
背后又有哪些我们所不知道的创意团队呢?
#02
机器学习:CompVis
最初的 Stable Diffusion 模型是与CompVis和RunwayML合作创建的。
就其诞生而言,Runway 的首席研究科学家 Patrick Esser 与慕尼黑路德维希马克西米利安大学的学者共同撰写了最初的研究论文。
CompVis是Computer Vision and Learning LMU Munich的缩写,即慕尼黑路德维希马克西米利安大学计算机视觉与学习研究小组(前身为海德堡大学计算机视觉小组)。
CompVis团队
该小组由 Björn Ommer 教授领导的团队在计算机视觉和机器学习方面进行基础研究,
并一直在探索它们在数字人文和生命科学等不同领域的应用。
Björn Ommer
他们对图像和视频理解的各个方面都很感兴趣——机器学习方法可以教会机器推理和理解视觉数据。
值得一提的是,他们研究了视觉合成的生成方法、可解释 AI 的可逆深度模型、深度度量和表示学习以及自我监督学习范例。
这些也为数字人文或神经科学中的视觉分析等应用奠定了基础。
#03
AI驱动:RunwayML
另外一家创意推手则是Runway,它成立于 2018 年,多年来一直致力于开发人工智能驱动的视频编辑软件。
Runway效果
它的工具被 TikTokers 和 YouTubers 以及主流电影和电视工作室使用。
然而却很少有人知道,在2021年,它和CompVis共同创建了突破性的文本到图像模型 Stable Diffusion。
Runway团队
他们相信,应用于视听内容的深度学习技术将永远改变艺术、创造力和设计工具。
Runway 的联合创始人(左起)Anastasis Germanidis, Alejandro Matamala-Ortiz 和 Cristóbal Valenzuela
Runway三位创始人相识于纽约大学艺术学院,在那里他们因对使用数字工具进行设计的共同兴趣而结下了不解之缘。
他们合作进行了机器学习研究,该研究很快演变成 Runway,成立于 2018 年。
有着移民身份的他们(Valenzuela 和 Matamala-Ortiz 来自智利,Germanidis 来自希腊)似乎在人员组成上也会偏向有着同样身份的员工。
许多 Runway 客户都是个人创意人员,他们每月至少支付 12 美元才能使用该软件。
Stephen Colbert晚间秀
但它也被企业客户使用,例如 CBS 与Stephen Colbert (斯蒂芬·科拜尔)的晚间秀和好莱坞的视觉效果团队的视频编辑,亦或者是 New Balance 的运动鞋设计辅助。
Valenzuela 表示, 从长远来看,他设想构建一套 Adobe 风格的 AI 原生视频编辑软件工具和梦幻般的应用程序。
“你会出现在每部电影中,”他在 11 月的一次采访中说。
“想象一下你正在看电影,你是电影的主角:你的声音、你的身体、你的脸。”
Runway功能1
Valenzuela 在 11 月初告诉福布斯,该公司之所以能够快速扩大其产品,是因为它在今年夏天变得流行之前就在生成 AI 领域积累了领先优势。
“为了这场马拉松,我们已经训练了四年,”他提到。
Valenzuela 说:“我们研究基础人工智能模型,构建基础设施以使用这些模型,然后构建应用程序。”
Runway功能2
除了撰写最初的论文,Runway 随后还帮助构建了 Stable Diffusion 的原始版本,并将该技术应用到其设计软件的功能中。
“ Stable Diffusion 在我们发明之前并不存在,”Valenzuela在 11 月表示。
#04
数据集:LAION
有了人工智能技术之后则需要对AI进行训练,而这又需要大量的数据支持。
Stable Diffusion 的基础数据集是 LAION 5b 的 2b 英语语言标签子集,即 LAION 创建的互联网通用爬虫。
而LAION-5B则是目前最大的、可免费访问的多模态数据集。
LAION-5B
组建CompVis的Björn Ommer 教授也提到了LAION。
“现在有大数据集是从互联网上抓取的,公开可用。我们使用了这些,主要是 LAION 数据集,这些数据集包含数十亿张我们可以训练的图像。”
LAION 数据集
LAION 是一个在 Internet 上收集图像文本对的非营利组织。
然后,它根据语言、分辨率、带有水印的可能性和预测的审美分数等因素将它们组织成数据集,例如审美视觉分析 (AVA) 数据集,其中包含从 1 到 10 评级的照片。
LAION 又是从另一个名为 Common Crawl 的非营利组织获得这些图像文本对的。
Common Crawl LOGO
Common Crawl 提供对其网络爬网数据存储库的开放访问,以实现对网络信息的民主化访问。
它通过每月抓取数十亿网页并将它们作为公开可用的数据集发布来实现这一点。
一旦收集和组织了这些图像文本对的数据集,就可以对 AI 模型进行训练。训练过程教会人工智能在图像中的视觉结构、构图和任何可辨别的视觉数据之间建立联系,以及它如何与伴随的文本相关联。
“因此,在花费大量时间训练这些模型之后,当训练最终完成时,你就有了一个强大的模型,可以在文本和图像之间进行转换,”Ommer 说。
文本到图像生成器开发的下一步称为 Diffusion 扩散。
Diffusion 扩散
在这个过程中,高斯或“随机”视觉噪声被逐渐添加到图像中,而 AI 则在逐渐变得“嘈杂”的图像的每次迭代中接受训练。
然后这个过程被逆转,人工智能被教导从随机像素开始构建一个在视觉上与原始训练图像相似的图像。
“一千次添加一点点噪音的最终产品看起来就像你从电视机上拔下天线电缆,”Ommer 解释道。
#05
模型发布:Hugging Face
一个新事物的诞生必然离不开它的正式发布,而这与Hugging Face息息相关。
Hugging Face 是一家美国公司,即开发使用机器学习构建应用程序的工具。
Hugging Face LOGO
它由Clément Delangue、Julien Chaumond和Thomas Wolf在2016年共同创立的。
三人都是来自法国的创业者和技术专家,曾经在知名科技公司工作过,并有丰富的自然语言处理和机器学习经验。
Hugging Face界面
Hugging Face最著名的是其为自然语言处理应用程序构建的 Transformers 库,以及允许用户共享机器学习模型和数据集的平台。
通过在Hugging Face上发布Stable Diffusion模型和使用手册,进一步提高了Stable Diffusion的知名度和用户使用率,从而为其迅速成为互联网网民的宠爱对象注入了强大的推力。
#06
现状:Stable Diffusion
由各方推动的Stable Diffusion,如今更是不断被挖掘出新的玩法。
有用Stable Diffusion做游戏的。
Tales of Syn
例如,Tales of Syn是一款采用经典Fallout游戏风格的等距角色扮演游戏。
不同之处在于它利用了 Stable Diffusion 和 ChatGPT 的强大功能来创建游戏资产、背景、角色模型和对话。
Tales of Syn角色动态
在角色创建方面,Hackmans试图找到一种方法将 Stable Diffusion 生成的图像转换为 3D 模型。
这些角色应该符合游戏世界的风格,并在整个流程中保持一致。
有将Stable Diffusion与主流设计软件链接的。
Stability for Blender
例如,Stability AI 的官方插件允许 Blender 艺术家使用现有的项目和文本描述来创建新的图像、纹理和动画。
Stability for Blender 是完全免费的,不需要任何额外的软件,甚至不需要专用的 GPU 即可运行。
甚至还有用Stable Diffusion将脑电波转化为极其准确的图像的。
脑电波转化图像
大阪大学前沿生物科学研究生院的研究员 Yu Takagi 和 Shinji Nishimoto提到,如果数据使用得当,并且训练这些模型的便利性可以使无障碍领域受益。
这样人们就可以准确地表达自己的内心世界,并以新的方式进行交流,他们完全赞成。
#07
拥抱可能性:AIGC
‘I've seen the goal of my research never wanting to replace human beings, human intelligence or the like.’
Björn Ommer从不认为自己的研究目标是取代人类心智,这也是目前绝大多少AIGC公司的共同愿景。
AIGC作品一览
Runway的首席研究科学家Patrick Esser则认为,“人们可以追求的想法太多了。这并不是说我们的想法用完了,我们几乎没有时间跟进所有的想法。通过开源我们的模型,有更多的人可以探索可能性的空间。”
在不破坏人性的基础上,通过开源来促进人机共创,拥抱人工智能的快速更迭。
这似乎才是AIGC的最终奥义。
本文来自微信公众号“OF COURSE想当然”(ID:ofcourse_cn)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。