2022年就要结束了,本年度对我个人来说最重要的事情,就是亲眼见证了AI绘画崛起的全过程。本文就简单总结和回顾一下今年AI技术的进展,以及本公众号今年的主要内容。(全文共5000字,感谢您的阅读)
我认为AIGC是自2000年以来IT技术行业最重要的一个进展,远比2010年的移动互联网爆发要更重要。
先简单回顾一下AI绘画的发展简史。
在2021年,VQGAN(视觉生成模型)+CLIP(算法)的结合使用让AI绘画踏入新阶段,真正实现了较高质量的“输入文字生成图像”。这两种机器学习算法彼此独立,前者擅长根据原有图像生成相似的图像,而后者能够给图像与文字的匹配程度打分。两个算法互相配合,多次迭代后,便能生成一张符合使用者输入文字的最佳图像。
2022年,扩散生成模型(Diffusion Model)凭借更出色的生成结果取代了对抗生成网络(GAN),成为图像生成领域更偏爱的算法。由此衍生出了Clip + Guided Diffusion、Dall E2、Stable Diffusion等新的算法,以及基于这些算法搭建的AI画作生成平台Disco Diffusion、Dall·E2、Midjourney和Stable Diffusion。
3月Disco Diffusion开始出圈
Disco Diffusion的初始作品是一张灯塔,象征着给行业照亮了前行之路。并且普及或者说定义了后来AI绘图的很多概念,例如提示语Prompts、迭代步数、作品风格、参考艺术家、动画、他让很多没有美术基础的人第一次看到自己也能创作出优美的作品。但Disco Diffusion的缺点也是显而易见的,速度慢、需要在浏览器中的Colab上面对代码操作。
4月Midjourney开始内测
Midjourney的出现以作品的生成速度震惊了使用者,同时直观的操作界面、可迭代的进化功能,全公开的作品展示库、艺术家风格库,如同一个个宝藏库让每一个AI爱好者的学习热情都被点燃。人们也意识到AI创作的第一个门槛好的Prompts被迈过,而对艺术家、艺术风格的理解变得更为重要。
4月Dall-E2开始内测,DALL-E为艺术家萨尔瓦多·达利(Salvador Dali)和机器人瓦力(WALL-E)的合成词。DALL-E 2实现了更高分辨率和更低延迟,可以生成更真实和更准确的画像,分辨率更是提高了4倍!语义理解能力和最终的绘画效果更是超出了当时人们想象的最高度,以至由于对各种风险的担忧,迟迟不愿完全开放。
8月Stable Diffusion内测
2022年7月底8月初,功能强大的AI绘画平台Stable Diffusion开始分4波邀请内测。每天产生上千万张图片,并迅速升级迭代,最终于8月20日完全开放网页版服务,随后8月22日开源代码,整个AI届被引爆,各类在线绘图网站纷纷引入,很多网站在其基础上二次开发,任何人都可以在本地计算机部署,单独训练独有的模型。向量图形编辑器、原型设计工具Figma以及图像处理软件Photoshop等等都引入了AI绘图插件。
全行业爆发。
2022年6月11日,《经济学人》杂志选择用Midjourney生成的AI绘图作为当期杂志的封面,AI绘画由此进入主流媒体视野。2022年8月底,由AI生成的画作《空间歌剧院(Théâtre D'opéra Spatial)》在美国一个数字艺术类美术比赛中获得第一名。AI绘画进入社交媒体热议、版权争论渐起。各行各业都卷入进来,不仅仅是纯绘画,包括平面设计、建筑设计、服装设计、鞋类设计、室内设计师、影视动漫等等一切与图像创作相关的行业都开始进入这个领域。
11月ChatGPT横空出世
这是OpenAI训练的一个名为ChatGPT的超级对话模型,以对话方式进行交互,持续性的回答用户提出的各种问题。不论是日常聊天,解决技术问题,还是修改代码,编写提示语,只要你想到的都可以试试,而他不会的问题会直接告诉你,或者提示你如何修改问题才能获得正确的答案。你可以把它当做一个超级智能的搜索引擎助手,随时帮你解决各种困难。
完全可以类比一下2000年互联网爆发时对整个社会的全方位影响,2022年的AI技术爆发也一定会带来对社会全方位的影响。
站在2022年初,没有多少人能预料到这一年会有这么大的进展,但站在2022年末,我想更多的人已经毫不怀疑Ai技术的爆发已经或即将改变整个互联网行业。
从内容的生产、信息的传播、商业社会的渗透、各行业生产流程的重塑,不论是质量和效率都将有巨大的飞跃。
文生文、文生图、文生音乐、文生视频、文生3D,都已取得了长足的进步,技术层面当然还会有巨大的进展,但在产品层面无疑才刚刚开始。
回想我们站在2000年时根本想象不到后来会产生如此多的丰富产品,同样现在也无法想象AI技术会从产品层面带来哪些新鲜的体验。更重要的是目前AI行业处于一个非常好的发展环境中,与2000年相比,用户的接受程度要更快,付费意愿也更强烈,成熟的付费环境也有助于各个创业公司将精力投入在产品研发上,市场也会更快的给好产品定价和奖赏。现在也已经不是画大饼的时代,以往很多公司习惯于产品先画个大饼,技术跟在应用后面追,现在是技术跑在了应用前面,快速迭代的技术进步推着产品加速跟上。
目前国内流行的二次元头像生成、各个创业公司二次开发的AI绘画应用,都还属于产品的初级形态,暂时都还停留在内容生产、用户个人娱乐阶段。国外的应用稍微靠前一些,在室内设计、游戏角色设计、游戏动画设计、视频创作方面都有了一些很好的行业应用方向。当然国外近期的热点应用和国内类似,也是拥挤在微调模型,为用户生成自训练模型、生成个性化头像这一个应用点。毕竟Lensa软件的火爆吸引了大量圈外人的注意力,可以算AI技术的第一次破圈。但头像生成是一个太小的方向,这么多公司都拥挤在微调模型生成头像这个狭窄的领域,好奇心过后,潮水必然退却。用户需求必然还会往更广的方向探索,明年也更希望看到文本生成图像方面有更多的产品形态,行业应用。
随着AI技术的普及,内容生产可能会发生以下变化:
-
生产效率提高:AI可以帮助人类完成大量繁琐的工作,如数据处理、文本生成、图像生成等,提高内容生产的效率。
-
内容种类更多:AI可以帮助人类快速生成各种类型的内容,包括文字、图片、音视频、3D、VR等,使得内容种类更加丰富。
-
内容质量提高:AI可以帮助人类快速生成高质量的内容,例如文本生成技术可以生成流畅的逻辑性更强的文字,图像生成技术可以生成逼真的图片等,使得内容质量更加优秀。
-
内容生产门槛降低:AI可以帮助人类快速生成内容,使得内容生产的门槛降低,让更多的人可以参与内容生产。
-
实时内容生产:AI可以帮助人类快速生成内容,使得实时内容生产成为可能。例如,在新闻事件发生后,AI可以帮助快速生成新闻报道、图片、视频等内容,使得实时获取信息更加方便。
-
在游戏实时画面生产方面,AI可以帮助快速生成流畅的画面,提高游戏体验。例如,可以使用AI文本生成图像技术来生成游戏场景,使得游戏场景更加逼真。此外,AI还可以帮助快速生成游戏角色、道具、动画等内容,使得游戏更加丰富。
-
在VR交互式内容生产方面,AI可以帮助快速生成交互式内容,使得VR体验更加逼真。例如,可以使用AI文本生成图像技术来生成VR场景,使得VR场景更加逼真。此外,AI还可以帮助快速生成VR角色、道具、动画等内容,使得VR体验更加丰富。
-
这里提到的实时内容生产不是预先生成内容,而是根据玩家的指令,实时产生对应的场景、装备、交互效果。头号玩家中的场景将离我们更近,那不是幻想,而是可预见的未来。
-
一个简单的类别,CAD技术催生了各种行业辅助设计软件,产生了一个巨大的市场,各种行业CAD软件层出不穷。AI技术也会催生各种行业辅助设计生产程序,重塑目前的各行业内容生产方式。
-
如果再考虑AI生产文本、音乐等等技术,几乎没有一个行业不受影响。
这个公众号从4月开始全过程记录了个人学习AI绘画的每一步,包括三大主流AI绘画程序的全方位应用技巧,以及后期自训练模型、ChatGPT的一些进展。我想每一个对AI绘画感兴趣的朋友都可以翻翻看,这些文章的绝大多数内容都没有过时,仍旧可以解决很多朋友学习中遇到的问题。
本文来自微信公众号“今说新语”作者:穿行者2049(ID:Bitgenius)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。