/【雷火UX带你聚焦GDC2021】游戏开发者使用的语音AI:优化叙述过程(Shreyas Nivas)

【雷火UX带你聚焦GDC2021】游戏开发者使用的语音AI:优化叙述过程(Shreyas Nivas)



网易雷火UX用户体验中心编译,转载需注明本公众号
什么是GDC?
GDC是全球最高影响力的游戏开发者会议,每年在旧金山召开一次,已有35届。虽然一周会议的门票售价高达2千美元,仍有多达27000名业界人士现场出席,可见其价值与权威性。GDC重头环节是非赞助类主题演讲,每届主办方平均邀请不足300场,分核心与峰会两大类别。这些演讲人经过主办方及其全球顾问委员会的精心挑选邀请,以高质量和创新性而备受行业认可,一定程度代表游戏行业的当前最高水准与发展趋势。
2020年起,受COVID-19影响,改为线上形式。2021年的GDC大会于7月19日至23日举办。雷火UX共在GDC2021获邀11场演讲,领跑全球。

每年的GDC大会上,全球顶尖的游戏开发者们将齐聚在这里,交流彼此的想法,构想游戏业的未来方向。接下来雷火UX公众号会选择一部分高质量的演讲,陆续为大家进行介绍。旨在通过对这些演讲内容进行学习,了解游戏领域的最新研究热点趋势,并期待与全世界的游戏爱好者一起产生更多创新和灵感的碰撞。

Shreyas Nivas


演讲者信息:
Shreyas是一位技术企业家,目前担任Replica Studios的首席执行官。他的专长是人工智能和深度学习,曾带领团队推出AR/VR、网络和移动领域等方面的产品。他拥有印度理工学院(IIT Kharagpur)航空航天工程学士学位,在软件工程领域拥有多项专利。
演讲内容:
在这篇演讲中,你将了解语音AI技术和工具的最新进展如何显著改善游戏工作室的叙述过程。编剧、制作人和音频工程师可以轻松地使用语音AI技术,在游戏中制作所需的自然声音和人物对话。同时,你将了解语音AI如何帮助你在前期制作中创建角色对话原型,以及为最终的游戏发行或内容更新创造高度完善的配音。语音AI可能是优化工作室画外音和对话制作过程的理想解决方案,同时也可以减少时间和成本。
当我们阅读一本书的时候,比如《指环王》,我们必须要想象书中的这些角色看起来是什么样子的,说起话来是什么感觉的。而作者托尔金的文字非常厉害,可以展现出引人入胜的故事和世界。同理,为了讲述更具魅力的故事,Shreyas的团队认为游戏设计师和叙事专家们应当使用目前能应用的一切工具和技术去帮助自己的故事更具说服力。
01
什么是语音AI技术?

从原始人在石壁上刻下图案开始,视觉方面的技术经过了长时间的研究,已经取得了显著且较为完善的发展了。但是令人感到遗憾的是,长久以来,语音技术并没有像视觉技术一样得到重视。在Shreyas看来,使用语音AI有助于故事的叙述。他认为人们不应该在最后才想到怎么安排声音,但是声音表演确实面临着很多困难。比如,邀请声优进行合作其实是非常耗钱耗时的。因此,很多游戏公司选择使用语音机器人TTS。但Shreyas认为TTS完全就是个氛围破坏者,这会影响游戏开发者售卖自己心爱的故事。


语音AI技术可以很好地解决这个问题。语音AI不仅仅是将普通的文本转换到语音,它有出色的能力表现情绪、语气和风格。即便你手头上只有文档,使用语音AI也可以得到令人满意的高沉浸感语音效果。
02
如何使用语音AI

如何使用语音AI?首先,你需要有一段粗略的故事构想。然后,将需要配音的文字输入AI语音系统,获得AI语音配音。下图是Shreyas团队设计的语音AI软件Replica Studios的设计面板,输入内容后,会产生多种语音AI供以挑选,包括严肃、轻松、暴怒等多种语气。


接着,就可以将筛选好的语音一条一条加入主界面,可以清晰地看到所有的内容都会被整齐地呈现在这个界面。在这个界面里,使用者可以将所有语音按发言顺序播放,确认配音是否都符合场景。目前,一切的流程都非常快速。Shreyas表示,团队正在打造一个更加快速的功能,以实现瞬间进行文字转语音的目标。

如果觉得有不满意的地方,使用者可以进一步修改,比如选择单条语句进行微调。如下图所示,使用者可以选择突出强调一些文本,使语音能更着重地表现某个词,也可以对部分音色进行调整。不过Shreyas解释目前展示的内容都来自于测试版本,现在可以下载的版本并没有这么完整的功能,不过很快就会得到更新。

当完善了所有视觉方面的表现,拥有了高保真度的人物角色,你可能会发现为了实现更高程度的沉浸感,角色的嘴唇动作是需要和所说的话匹配的。如果嘴唇的动作和说话的内容并不匹配,特别是当有特写镜头时,观看者所有的注意力都将会集中在嘴唇上,并怀疑角色并没有真的在说观众听到的内容。
Shreyas的团队意识到这是一个需要修复的问题,并已经制作出可以同步嘴唇动作的插件。近期,团队也将努力实现支持Unity和ROBLOX的版本。至于是如何实现的,使用者需使用安装有指定应用程序的iPhone摄像头,摄像头会扫描使用者的面部,并根据脸部变化和嘴唇动作,实时改变虚拟人物的面部表情。

同时,Replica Studios可以接受音频,也就是说,它可以用使用者的声音来指导AI语音的表现,最后应用到角色身上。AI语音在保持自己音色的同时,尽可能地模仿使用者的声音,比如语气和节奏。目前,视觉方面的调整是实时的,但是用使用者声音指导的AI语音会稍有延迟。

03
总  结 
随着技术发展,不管是看起来还是听起来的,游戏的叙事都得到了很大的进步。Shreyas承认,语音AI目前并没有那么成熟,包括上述的一些内容和功能也还在研发或测试阶段。但他认为,现在的语音AI技术已经足够强大到值得被游戏设计师考虑使用了。甚至对于实现较为完美的语音AI的目标,也并不需要非常久的时间。

Shreyas相信语音AI绝对可以在游戏设计师和叙事专家们的工作中发挥巨大作用。很多大型工作室会在作品前期阶段使用语音AI产品。从游戏叙事的背景来看,这也是个真正的好机会——工作室不必在作品开发后期过多地求助于配音演员,这使得他们获得了额外的空闲时间去尝试故事创意和对话等。对于独立游戏开发者来说,他们可以选择一个更经济实惠、且不会花费太多时间的方式,实现更引人注目的故事叙事水平。这都是以前不能做到的。

除此之外,Shreyas认为语音AI的出现对于配音演员也是有利的。配音演员可以在语音AI的发展中扮演非常重要的角色,他们可以负责为语音AI库提供声音,甚至部分配音演员可以做出3-4个不同角色的声音。Shreyas正在设计具体的利润分享模型,当这些AI声音被世界各地数百万工作室使用,帮助创造这些声音的配音演员可以从中赚取收入。所以在Shreyas看来,语音AI是一场双赢的技术变革。

往期推荐


本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。