Jeferson Valadares
Audio Summit
演讲标题:
Voice Games: Past, Present and Future语音声控游戏:过去、现在和未来
演讲者信息:
Jeferson 是 Doppio 的首席执行官和工作室的联合创始人
随着智能音箱的爆发式增长以及语音声控交互潜力的实现,语音正在成为新的触控方式。这种交互革命也延伸到了游戏中。本次演讲将概述语音声控游戏的历史,讨论智能音箱的爆炸式增长如何推动格式的发展,回顾流行的类型和标题,讨论设计、实施和技术挑战,并讨论未来可以带来哪些东西。
1
语音交互展望
在开始之前,我来稍微介绍一下我们团队:我们三年前就已经是这个领域的顶级玩家之一,每当有新的东西出来时,我们都会有非常多的创新,然后试图弄清到底什么是语音游戏?有了这个平台后,我们在这个平台上和一些科技公司建立了合作关系,这些公司想在语音上做些什么的时候,一般都会来找我们。而且我们在过去的几年里投资建立了一个非常优秀的团队。
很明显,我们有很多在社交网络、手机、PC、Windows控制台等等其他平台的经验背景,而现在,我们致力于语音交互。当我第一次发觉语音交互的潜力时非常的兴奋,它让我坚信这可能是新的交互接触领域,比如触摸,触摸改变了世界,比如智能手机的出现,触屏、性能、速度等这些因素,对于当时的用户来说,和以前对比就像超自然能力一样,对不对?它真的打开了一个智能手机的世界,并改变了世界。
我们认为语音可以在这些方面迈向下一步,比如操作非常丝滑且快速,根本不需要用户太多的去学习,用户不需要思考“应该点哪里?”只需要点击自己想要点击的位置就可以了。其实语音也是一样的,用户不需要去学习,去想“我的天呐!这什么界面啊?”而只需要说“开门”等等这类想做的事情就行,然后程序接收到命令后就开始运转工作。
2
游戏中的语音交互实例
什么是语音游戏?每当我说到语音游戏,或者我在这个领域工作时,总会有人说:“噢!你在做音频游戏。”但我想说,并非你们想的那样!一年来已经有了像Dreamcast这样的游戏,这其实是给盲人玩的,针对有视觉障碍的人群,靠音频驱动的控制器来供他们操作。但这不一定就是我说的那样,这也不完全是我所称呼的“噪音游戏”。所谓的“噪音游戏”就是无所谓你做什么,只要发出噪音就行。
Voice-Activated是「语音激活」的意思,当你想使用语言的时候总是要做些什么的对吧?很显然也包括音频,它有一些语言组件,而且它并不是一个新的东西,第一个被周知的就是语音国际象棋,来自一个大学的研究项目,它真的是太棒了。用户在下棋的时候,像使用Mayo一样,你会命令棋子去移动。这个游戏的运作方式是通过用户使用命令,而传达到游戏里,游戏执行用户刚发出的命令。
即使在游戏中,比如商业游戏,通过一些努力可以做出更大的成就。在图片中,是一个基于LaserDisc视频的出色的控制台,它的创始人正与AI进行对话。
这真是太酷了,可能听起来很滑稽,但幻想自己是四分卫球员这个想法非常棒,就像身在其中对吧?所以语音元素真的很酷,而且这个技术确实已被移植进去了,当然依然有很多需要去思考的地方,比如核心的思想在哪。
通常当你谈论声音,人们就会认为你是指说话和音频,不需要控制器,例如键盘。还有其他的游戏,比如Dreamcast出品的《Seaman》,通过点击来控制虚拟的鱼,以点击屏幕来吸引它们的注意,所以你不仅是在使用声音。
这个游戏已经有20年了,它的基本界面就在这里,大致就是你说些什么,游戏向你确认,如果电脑错过或者答不出你问的问题,它们就会用其他行为去代替,比如说个笑话。这有很多基础的信息,毕竟这游戏有20年了。
再想想更靠现代的例子,在质量效应中,你可以团队行动,你可以选择和自己喜欢的另外两个队员一起,告诉他们你的指令。这种感觉非常自然,队友听起来也很自然。你也可以开枪,然后说一些咒语,你手里确实有一个控制器,这感觉更像你实实在在拿着一个枪械向你的队友发出号令,这一切都很自然对不对。
关于发出命令,你向队友说出你的指令,但其实游戏的反馈并没有完全按照你说的实行的那么完美,不过能给你一些例如“Nice”或者“谢谢”的这类反馈,也是很有趣而且很自然的事情。
很多时候你说到语音游戏的时候,人们会说:“哦,不就是Alexa游戏或者智能扬声器游戏吗?”。我想说不仅如此,但是不可否认的是有了它们的基础才能推动后面的发展,这些设备真的把声音带到了最前沿,这有一张图表说明了这一点,预计智能扬声器会比电视、智能手机等更快速。部分的原因,可能是它非常的便宜,买Alexa才20块钱,所以对比很复杂的设备如VR或者其他,它们受欢迎也是有原因的。
那么你能用智能扬声器做些什么呢?看看关于游戏的扬声器,你可以做出什么样的游戏呢?可以非常自然的问问题并有非常标准的答案,比如一些冒险游戏里的商店。
另一个很受欢迎的游戏——《Destiny Ghost》。它是一种与Alexa互动的方式,它会帮助玩家玩游戏。Destiny是一个非常庞大的游戏,有很多任务事情去做,玩家通过和虚拟角色说话,它会告诉玩家哪些是当天要做的事情,它会根据玩家所做的事情以及游戏里发生了什么而做出反应。
Alexa有点像游戏的核心,“移动这个令牌”“有事件正在东京发生”等等,这些东西都是通过AI来管理的。
不仅仅是扬声器,越来越多的设备会有屏幕,称之为智能显示器,所以你不仅可以说话还可以触摸。
我们来谈谈音频输入,人们如何以及在哪里使用语音协助呢?比如房间、厨房、卧室、浴室这样的空间,你会通过语音来控制你的一些设备;有时也用在设备上如智能手机或者汽车里,比如X-Box里有个Alexa应用程序。还有就是,当你说了些句子,而并没有实体的存储设备,那么你的句子会被录入云存储,然后再进入你的游戏,就像你让Alexa去Google帮你搜索些什么,Alexa会去查出这个词到底是什么意思,我们称之为智能识别。我们把这一程序运用到游戏里,它会影响到你要做的一些决定。
3
开发经历回顾与总结
聊聊我们在语音游戏上的经验,这很有意思,关于我们是如何制作游戏以及我们做出的决定。
我们第一个游戏叫“Cross-platform”,它是一款互动式叙事游戏,游戏的开始,你在寒冷中醒来,就像在殖民者的船上,你不能动,这个船上都是AI,你需要和它们对话来知道该做些什么,因为你被冻住了。然后你发现你是船上最后一个人,所以你必须弄清楚发生了什么事情。由于当时Alexa的局限性,我们推迟了在Google上架,我们选择Google是因为他们的程序更好用。所以我们有两种单独的版本并保持进度一致。那时候我们已经有屏幕了,当然那时候的屏幕并不是很好,但我们必须去验证是否真的可以动态调整屏幕,有点像PPT,我们只能在你说了些什么后屏幕出现相应的改变。
从这里可以看出,我们只能改变一些静态图像,做一些动画但并不能精准控制时机,局限性非常大。当然,我们明智的选择了合适的平台,尝试了Alexa(没有背景音,没有后台,不能循环,只能MP3格式),所以我们又找了Google,最后我们还为AI进行了配音。
我们第二个游戏是与Netflix合作完成的,基于一个电视节目,这让我们在视频上有更深的理解。它像一个界面采访一样,你提出问题总是要有一些不同的答案。在这个过程中,我们可以通过喜好来决定做出什么样的质量,也可以使用传统的视频方法,通过文字转语音,增加了多样性。
随着Alexa的发展,更多的网络功能如EM05等被添加,质量飞速提升。所以下一个游戏便是与亚马逊合作的《Pac-Man》,为了庆祝吃豆人成立40周年。我们创造了一个叫Wakanese的假语言,里面的吃豆人就是用这种语言对话,如“Waka”表示往上走,“Wiki”表示往右走,听起来很疯狂但你们肯定喜欢。需要注意的是我们已经在更好的沙盒上运行这个游戏了,这让它看起来更像是游戏。我们使用了完整的声音循环,包括多个图层、SFX等,麦克风的语音控制更多了,同时也找到了更合适的更棒的质量。
我们正在开发的下一个游戏是《Assistant Web Audio》,类似Google助手,它会通过你说的词而识别组合并说出更自然的语言。流利的麦克风使用会带来更好的满意度,为此我们做了平衡调整。
还有个有趣的东西,我们实际上想方设法做到了,我们用现在的新技术重新做了Cross-platform。
我们很高兴看到这个游戏现在的样子。
在结束之前,再谈谈网络音频。在我们最新的视频里,如图演示了网络群聊的大致情况:
由此可见这真的很酷,声音是游戏互动发展的方式,它能很深的和音频连接并让一切表达的更好,可以运用在很多不同的平台上。希望之后可以给你们看到比现在更棒的版本。
本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。