【雷火UX带你聚焦GDC2021】语音声控游戏：过去、现在和未来（Jeferson Valadares）

网易雷火UX用户体验中心编译，转载需注明本公众号

什么是GDC？

GDC是全球最高影响力的游戏开发者会议，每年在旧金山召开一次，已有35届。虽然一周会议的门票售价高达2千美元，仍有多达27000名业界人士现场出席，可见其价值与权威性。GDC重头环节是非赞助类主题演讲，每届主办方平均邀请不足300场，分核心与峰会两大类别。这些演讲人经过主办方及其全球顾问委员会的精心挑选邀请，以高质量和创新性而备受行业认可，一定程度代表游戏行业的当前最高水准与发展趋势。

2020年起，受COVID-19影响，改为线上形式。2021年的GDC大会于7月19日至23日举办。雷火UX共在GDC2021获邀11场演讲，领跑全球。

每年的GDC大会上，全球顶尖的游戏开发者们将齐聚在这里，交流彼此的想法，构想游戏业的未来方向。接下来雷火UX公众号会选择一部分高质量的演讲，陆续为大家进行介绍。旨在通过对这些演讲内容进行学习，了解游戏领域的最新研究热点趋势，并期待与全世界的游戏爱好者一起产生更多创新和灵感的碰撞。

Jeferson Valadares

Audio Summit

演讲标题：

Voice Games: Past, Present and Future语音声控游戏：过去、现在和未来

演讲者信息：

Jeferson 是 Doppio 的首席执行官和工作室的联合创始人

随着智能音箱的爆发式增长以及语音声控交互潜力的实现，语音正在成为新的触控方式。这种交互革命也延伸到了游戏中。本次演讲将概述语音声控游戏的历史，讨论智能音箱的爆炸式增长如何推动格式的发展，回顾流行的类型和标题，讨论设计、实施和技术挑战，并讨论未来可以带来哪些东西。

语音交互展望

在开始之前，我来稍微介绍一下我们团队：我们三年前就已经是这个领域的顶级玩家之一，每当有新的东西出来时，我们都会有非常多的创新，然后试图弄清到底什么是语音游戏？有了这个平台后，我们在这个平台上和一些科技公司建立了合作关系，这些公司想在语音上做些什么的时候，一般都会来找我们。而且我们在过去的几年里投资建立了一个非常优秀的团队。

很明显，我们有很多在社交网络、手机、PC、Windows控制台等等其他平台的经验背景，而现在，我们致力于语音交互。当我第一次发觉语音交互的潜力时非常的兴奋，它让我坚信这可能是新的交互接触领域，比如触摸，触摸改变了世界，比如智能手机的出现，触屏、性能、速度等这些因素，对于当时的用户来说，和以前对比就像超自然能力一样，对不对？它真的打开了一个智能手机的世界，并改变了世界。

我们认为语音可以在这些方面迈向下一步，比如操作非常丝滑且快速，根本不需要用户太多的去学习，用户不需要思考“应该点哪里？”只需要点击自己想要点击的位置就可以了。其实语音也是一样的，用户不需要去学习，去想“我的天呐！这什么界面啊？”而只需要说“开门”等等这类想做的事情就行，然后程序接收到命令后就开始运转工作。

游戏中的语音交互实例

什么是语音游戏？每当我说到语音游戏，或者我在这个领域工作时，总会有人说：“噢！你在做音频游戏。”但我想说，并非你们想的那样！一年来已经有了像Dreamcast这样的游戏，这其实是给盲人玩的，针对有视觉障碍的人群，靠音频驱动的控制器来供他们操作。但这不一定就是我说的那样，这也不完全是我所称呼的“噪音游戏”。所谓的“噪音游戏”就是无所谓你做什么，只要发出噪音就行。

举个来自《塞尔达》系列的例子，他们有不同种类的麦克风，我不知道大家是否能注意到，他们有个非常难打的boss，但如果你说些什么他可能就会死亡。例如：进入boss所在区域展开战斗，随着游戏音乐播放，在玩家输入语音后，boss就全部死了。我认为不止这一个游戏有这样的模块，在玩家玩游戏的时候对着麦克风发出一些声音，语言接收器就会识别。这就是我称之的“噪音游戏”。

Voice-Activated是「语音激活」的意思，当你想使用语言的时候总是要做些什么的对吧？很显然也包括音频，它有一些语言组件，而且它并不是一个新的东西，第一个被周知的就是语音国际象棋，来自一个大学的研究项目，它真的是太棒了。用户在下棋的时候，像使用Mayo一样，你会命令棋子去移动。这个游戏的运作方式是通过用户使用命令，而传达到游戏里，游戏执行用户刚发出的命令。

即使在游戏中，比如商业游戏，通过一些努力可以做出更大的成就。在图片中，是一个基于LaserDisc视频的出色的控制台，它的创始人正与AI进行对话。

这真是太酷了，可能听起来很滑稽，但幻想自己是四分卫球员这个想法非常棒，就像身在其中对吧？所以语音元素真的很酷，而且这个技术确实已被移植进去了，当然依然有很多需要去思考的地方，比如核心的思想在哪。

通常当你谈论声音，人们就会认为你是指说话和音频，不需要控制器，例如键盘。还有其他的游戏，比如Dreamcast出品的《Seaman》，通过点击来控制虚拟的鱼，以点击屏幕来吸引它们的注意，所以你不仅是在使用声音。

这个游戏已经有20年了，它的基本界面就在这里，大致就是你说些什么，游戏向你确认，如果电脑错过或者答不出你问的问题，它们就会用其他行为去代替，比如说个笑话。这有很多基础的信息，毕竟这游戏有20年了。

再想想更靠现代的例子，在质量效应中，你可以团队行动，你可以选择和自己喜欢的另外两个队员一起，告诉他们你的指令。这种感觉非常自然，队友听起来也很自然。你也可以开枪，然后说一些咒语，你手里确实有一个控制器，这感觉更像你实实在在拿着一个枪械向你的队友发出号令，这一切都很自然对不对。

关于发出命令，你向队友说出你的指令，但其实游戏的反馈并没有完全按照你说的实行的那么完美，不过能给你一些例如“Nice”或者“谢谢”的这类反馈，也是很有趣而且很自然的事情。

很多时候你说到语音游戏的时候，人们会说：“哦，不就是Alexa游戏或者智能扬声器游戏吗？”。我想说不仅如此，但是不可否认的是有了它们的基础才能推动后面的发展，这些设备真的把声音带到了最前沿，这有一张图表说明了这一点，预计智能扬声器会比电视、智能手机等更快速。部分的原因，可能是它非常的便宜，买Alexa才20块钱，所以对比很复杂的设备如VR或者其他，它们受欢迎也是有原因的。

那么你能用智能扬声器做些什么呢？看看关于游戏的扬声器，你可以做出什么样的游戏呢？可以非常自然的问问题并有非常标准的答案，比如一些冒险游戏里的商店。

另一个很受欢迎的游戏——《Destiny Ghost》。它是一种与Alexa互动的方式，它会帮助玩家玩游戏。Destiny是一个非常庞大的游戏，有很多任务事情去做，玩家通过和虚拟角色说话，它会告诉玩家哪些是当天要做的事情，它会根据玩家所做的事情以及游戏里发生了什么而做出反应。

Alexa有点像游戏的核心，“移动这个令牌”“有事件正在东京发生”等等，这些东西都是通过AI来管理的。

不仅仅是扬声器，越来越多的设备会有屏幕，称之为智能显示器，所以你不仅可以说话还可以触摸。

我们来谈谈音频输入，人们如何以及在哪里使用语音协助呢？比如房间、厨房、卧室、浴室这样的空间，你会通过语音来控制你的一些设备；有时也用在设备上如智能手机或者汽车里，比如X-Box里有个Alexa应用程序。还有就是，当你说了些句子，而并没有实体的存储设备，那么你的句子会被录入云存储，然后再进入你的游戏，就像你让Alexa去Google帮你搜索些什么，Alexa会去查出这个词到底是什么意思，我们称之为智能识别。我们把这一程序运用到游戏里，它会影响到你要做的一些决定。

开发经历回顾与总结

聊聊我们在语音游戏上的经验，这很有意思，关于我们是如何制作游戏以及我们做出的决定。

我们第一个游戏叫“Cross-platform”，它是一款互动式叙事游戏，游戏的开始，你在寒冷中醒来，就像在殖民者的船上，你不能动，这个船上都是AI，你需要和它们对话来知道该做些什么，因为你被冻住了。然后你发现你是船上最后一个人，所以你必须弄清楚发生了什么事情。由于当时Alexa的局限性，我们推迟了在Google上架，我们选择Google是因为他们的程序更好用。所以我们有两种单独的版本并保持进度一致。那时候我们已经有屏幕了，当然那时候的屏幕并不是很好，但我们必须去验证是否真的可以动态调整屏幕，有点像PPT，我们只能在你说了些什么后屏幕出现相应的改变。

从这里可以看出，我们只能改变一些静态图像，做一些动画但并不能精准控制时机，局限性非常大。当然，我们明智的选择了合适的平台，尝试了Alexa（没有背景音，没有后台，不能循环，只能MP3格式），所以我们又找了Google，最后我们还为AI进行了配音。

我们第二个游戏是与Netflix合作完成的，基于一个电视节目，这让我们在视频上有更深的理解。它像一个界面采访一样，你提出问题总是要有一些不同的答案。在这个过程中，我们可以通过喜好来决定做出什么样的质量，也可以使用传统的视频方法，通过文字转语音，增加了多样性。

随着Alexa的发展，更多的网络功能如EM05等被添加，质量飞速提升。所以下一个游戏便是与亚马逊合作的《Pac-Man》，为了庆祝吃豆人成立40周年。我们创造了一个叫Wakanese的假语言，里面的吃豆人就是用这种语言对话，如“Waka”表示往上走，“Wiki”表示往右走，听起来很疯狂但你们肯定喜欢。需要注意的是我们已经在更好的沙盒上运行这个游戏了，这让它看起来更像是游戏。我们使用了完整的声音循环，包括多个图层、SFX等，麦克风的语音控制更多了，同时也找到了更合适的更棒的质量。