研究资讯 | AIGC典型产品盘点

AIGC最近在人工智能领域因爆发出其强大的内容创作潜力和商业价值，而显得格外耀眼。基于前期AIGC介绍基础上，本次小编根据市场公开信息对部分AIGC产品加以整理汇总，仅供读者参考：

Stability AI“Stable Diffusion”模型：英国开源人工智能公司Stability AI 2022年发布了Stable Diffusion的模型，主要用于根据用户输入的文字描述自动生成图像。开发者可以免费下载AI绘画的底层代码来训练自己的模型，但是如果用户在使用AI绘画服务的时候还是要按需付费。目前，Stability AI开发者用户已达到20万以上、消费者用户注册量超过百万，当下公司还在进一步探索商业模式，包括在研发用AI做短视频和动画片。

OpenAI“DALL-E 2”模型：DALL-E 2是OpenAI文本生成图像系统，可以通过自然语言的描述创建现实的图像。在此之前（2021年），OpenAI还推出了一个名为 DALL·E 的 GPT-3 最强应用。DALL-E 2 是在GPT3基础上，可以将文字转换生成更真实、更准确的图像，分辨率提高了 4 倍，最为关键的是 DALL·E-2 还进化出了一项新技能——可以根据文字描述将图像自动 PS，而这种 PS 修改目前还很难被察觉，足够“以假乱真”。

NVIDIA“GauGAN2”模型：该模型由英伟达公司推出，其目标是创造一种混合文字和图像的摄像技术，集成了segmentation mapping, inpainting和text-to-image生成技术，用户可以生成一些在现实生活中并不存在的风景。

Jasper“JasperAI”文字生成工具：Jasper公司以“AI 文字生成”为主打产品，通过其文字生成功能，可以按需编写 TikTok 视频脚本、广告营销文本、电子邮件内容等略显烧脑的重复性工作。AI 文字生成功能一经推出，便给社交媒体、跨海电商、视频制作等多个新兴行业带来了巨大的颠覆力量。

Meta“Make-A-Video”：2022年9月，Meta首次推出Make-A-Video，是Meta内部开发的人工智能系统，可以从给定的文字提示生成短视频。简单来说就是，当用户输入一串文字后，系统会生成16张在时间上有连续性的64X64像素的RGB图片，然后这作品图片将会通过插值模型增加视频的帧数，让前后帧之间的动作更加平滑，之后通过两个超分辨率模型，将图像的像素提升到256×256像素后，再提升到768×768像素，生成高分辨率和帧率的视频。

谷歌“Imagen Video和Phenaki”：2022年10月，谷歌也发布两款文本转视频工具Imagen Video和Phenaki。其中Imagen Video主要强调视频品质，Imagen Video奠基于Google的Imagen文本生成图像人工智能系统上，采用串联扩散模型（Cascaded Diffusion Models，CDM）来产生高分辨率的视频。而Phenaki主打视频长度，可用来创建总长多达数分钟的视频，还能根据一系列的文本，产生有连贯性的多个视频。

IDEA 研究院认知计算与自然语言研究中心“Disco Diffusion”模型：2022年10月，由IDEA CCNL开源了第一个开源中文 Disco Diffusion 模型Taiyi-Diffusion-532M-Nature-Chinese，该模型由 Katherine Crowson's 的无条件扩散模型在自然风景图上微调而来。结合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以实现中文生成各种风格的风景图片。

百度“文心一格”：文心一格是百度旗下的AI艺术和创意辅助平台，由文心大模型提供技术支持，主要面向画师、设计师、艺术家等视觉内容创作者，媒体、作者等文字内容创作者和大众用户等三类用户群体，可根据用户语言描述，创作出不同风格的创意画作，打破人为创意瓶颈。

腾讯AI Lab：除去业内首个AI驱动的多模态虚拟人“艾灵”外，以“绝悟”为代表，腾讯AI Lab基于自己的多模态学习及生成能力在游戏领域进行了全流程的布局。「绝悟」AI通过强化学习的方法来模仿真实玩家，包括发育、运营、协作等指标类别，以及每分钟手速、技能释放频率、命中率、击杀数等具体参数，让AI更接近正式服玩家真实表现，将测试的总体准确性提升到95％。

小冰公司“AI being”虚拟人：具体包括虚拟人（夏语冰等somebody instance、虚拟男友等nobody instance和国家队人工智能裁判与教练系统观君等在垂直场景中工作的虚拟人类）、音频生成（主攻超级语言及歌声，在线歌曲生成平台与歌手歌声合成软件X studio）、视觉创造（毕业作品集《或然世界》、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计）、文本创造（2017年即推出小冰诗集）、虚拟社交、Game AI（Xiaoice Game Studio）等。

DeepMusic（灵动音科技）：公司致力于运用AI技术从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛，为音乐行业提供新的产品体验，提升效率。AIGC产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的 LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。其音乐标注团队已形成了全球最精确的话语歌曲音乐信息库。

本文来自微信公众号“上海市人工智能行业协会”（ID：saia2021）。大作社经授权转载，该文观点仅代表作者本人，大作社平台仅提供信息存储空间服务。