语音交互 | 用技术带来全新生活

正文字数：1425字

图片总数：共17张

引言：语言是人际交流的最习惯、最自然的方式。语音交互技术是一种综合技术,以语音为基础信息载体，使得机器具有像人一样“能听会说、自然交互、有问必答”的交互能力。语音交互涵盖语义分析和理解、知识构建和自我学习能力、大数据处理和挖掘等一系列新兴技术领域。

语音交互过程包括四部分：语音采集、语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)。语音采集这个过程是完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化；自然语言处理根据语音识别转换后的文本字符或命令完成相应的操作；语音合成则完成文本信息到声音信息的转换。

全双工语音交互感官

Design by:微软

全双工语音交互感官与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，实时生成回应并控制对话节奏，从而使长程语音交互成为可能。

通俗的讲，机器不再单纯被动的接受命令，通过建立预测能力引入预测信息，机器开始学会理解人的意图，给人以积极的反馈和响应，使得机器与人的关系不再是“小受”和“小攻”的关系，而逐渐变成一种伙伴的关系，大大提升了人对于语音交互手段的适应性。

在应用方面，米家生态链Yeelight语音助手是全球首个搭载全双工语音交互感官的智能设备，也是内置微软小冰的首个“双AI”智能设备

此前，在 Yeelight 语音助手的深度评测中，软小冰更像是一个「感性派少女」，主要承担了「侃大山」、「讲故事」等功能。在更新全双工语音交互感官之后，小冰可以完成较长时间的连续对话，而回复的内容和反应速度也更像一个「人」。

微软小冰全球研发负责人周力博士表示，微软的新技术将促进拟人自然度的显著提升，使人们对过去单轮或多轮连续语音交互体验的满意度迅速下降。

Echo Alexa

Design by:亚马逊

亚马逊的语音产品Echo，是一款场景化的语音交互智能硬件。亚马逊的产品团队充分理解了语音交互场景化的潜在优势，并结合自己的电商基因，将Echo打造成了更加智能的私人家庭助理。

Echo内置的LED 灯可以提示Echo是否接收到了语音指令，但不像视觉界面，用户并不能从中理解系统处理语音指令的过程。语音交互需要花费更多的精力判断和预测用户指令所处的情景和上下文关系，并且向用户解释其所处在流程中的什么位置。

Echo Alexa对于自然语言有很强的理解能力。Echo Alexa能够在复杂的背景音中辨别语音指令，这是更加符合真实使用场景的设计。Alexa能够根据情景和上下文关系来判断指令。

指令：设置一个新的倒计时。

Alexa：set the count down to 40minutes，now it begins.

Siri：your counting down is running，9 minutes and 42 seconds are left，do you want to change it？

很明显，相较于Siri，Alexa更加清楚如何完成指令。

Google Assistant

Design by:Google

Google Assistant 从某种角度来说更像是 Google Now 的进化版，他们拥有相似的功能，提供相似的帮助，甚至拥有相同的口令，但是不同的是 Google Assistant 能够更积极地与你对话。

从 Google Now 进化为 Googleg Assistant 之后，后者也在这个层面做了不少努力："Now cards"被"Feed"取代，"Now on Tap"被"Screen Search"取代，可以说，Google Assistant 身上积累了超过 Google 十年的技术积累。

Google Assistant 还包含了大数据、机器学习、自然语义分析等一系列技术，纵观业界，能将这些技术糅合在一起的，除了 Google，难有第二家。虽然 Google Assistant 有一些类似 Amazon Alexa，但是在私人助理方面， Google Assistant 做的更为彻底。