/Technology | 语音交互技术介绍

Technology | 语音交互技术介绍


正文字数:2557字

图片总数:14张

自从1946年第一台电子计算机诞生,尤其是1956年人工智能概念的提出,人机交互方式就成为人类技术进步的重要标志之一。人机交互经过了早期的手工作业阶段、作业控制语言及交互命令语言阶段、图形用户界面(GUI)阶段,目前正在进入由图形交互、触屏交互、语音交互(VUI)等多通道多媒体的智能人机交互阶段,虚拟现实(VR)、增强现实(AR)、语音语义控制等多种技术应用其中。语言,作为人类之间交互的重要方式,自然也被期望成为人类和机器交互的方式。希望通过这篇文章,从技术应用角度,向各位介绍下人机语音交互的技术方案和技术现状。

语音交互的定义

The definition of a voice interaction

语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程:

1、ASR:用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段:训练即通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型;解码,即通过声学和语言模型将语音数据识别成文字。

声学模型可以理解为是发声的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。

2、NLP:用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。

以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。这样,就将用户的意图拆分成机器可以处理的语言。

3、Skill:也即AI时代的APP。Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈。

4、TTS:即语音合成,从文本转换成语音,让机器说话。TTS业内普遍使用两种做法:一种是拼接法,一种是参数法。

拼接法即从事先录制的大量语音中,选择所需的基本发音单位拼接而成。优点是语音的自然度很好,缺点是成本太高,费用成本要上百万。

参数法指使用统计模型来产生语音参数并转化成波形。优点是成本低,一般价格在20万~60万不等,缺点是发音的自然度没有拼接法好。但是随着模型的不断优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多。

人机语音交互框架

Human-computer voice interaction framework

人机语音交互有五个关键处理阶段:

1.机器接收到用户语音后,首先通过语音识别(ASR)将语音(voice)转换为文本(text),并且可保留语速、音量、停顿等语音本身的特征信息。

2.机器通过自然语言理解(NLU)从文本(text)中理解用户意图。

3.机器通过对话管理(DM)决策接下来的动作,并更新对话状态。

4.机器通过自然语言生成(NLG)将决策后的动作生成为回复给用户的文本(text)。

5.最后,机器通过语音合成(TTS)将回复给用户的文本(text)转换为语音(voice),完成一次交互。

人机语音交互技术

Human-computer voice interaction technology


基于语音的人机交互是当前人机交互技术的主要表现形式,结合人机交互过程,可以看出其关键技术主要包括:语音识别、语言处理、语音合成等。

语音识别

语音识别即机器读取人说话的内容,将语音转换为文本。这个过程要提取训练音频中的特征,并结合特征构建和训练声学模型、语言模型。具体的流程如图所示:

在进行语音识别前,为了保证识别效果,语音的首段和尾段可以先通过切除处理,避免干扰后续的处理过程,将一段语音进行分帧。这个语音信号预处理的过程一般称为VAD,语音识别后续的操作都是在VAD截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,这个过程为声学特征提取,常见的有梅尔频率倒谱系数MFCC。另外,如卷积神经网络CNN、CNN-LSTM-DNN等深度神经网络模型在语音特征提取中取得了良好的效果。声学模型是把语音转化为声学表示的输出,即找到给定的语音源于某个声学符号的概率。


自然语言处理

自然语言处理融合了语言学、计算机科学、数学等多学科内容,可分为自然语言理解、自然语言生成、对话管理。语言理解和生成分别指理解用户的语言输入和产生系统的语言输出,直接影响对话系统的性能。对话管理从语言理解获取输入信息,维护对话过程中的系统内部状态,并基于状态生成对话策略,输出至语言生成。当前的自然语言处理技术还只能实现较浅层面的人机交互,对于较为复杂的沟通场景,如多轮对话、上下文联系紧密、逻辑推理、情感表达等,人机交互还不能像人与人沟通那样顺畅自然。

语音合成

目前主流的语音合成技术主要指TTS,即将文字转换为语音。具体实现过程可分为前端文本分析和后端语音合成两部分。文本处理实现将文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。常见的语音合成算法有三种:

(1)拼接法,从事先录制的大量语音中,选择所需的基本单位拼接而成。

(2)参数法,将语音的特征参数如共振峰频、基频等通过统计模型产生,并用波形的方式将这些参数输出。

(3)HMM模型法,建立声道的物理模型,通过这个物理模型产生波形。

语音情感化设计

Human-computer voice interaction technology

在语音交互过程当中除了容错、快速处理用户的指令并且及时反馈,是功能价值。情绪价值更是可以让产品给用户带来短期愉悦体验,提高对产品的情感印象,从而产生情感体验、信赖感、安全感。

语音形象的情绪分类

语音形象情绪动作设计,从情绪上分为消极和积极,从状态上分为大动作和小动作。

消极的情绪有焦虑和冷漠;积极的情绪氛围兴奋和满意。

动作上从无动作到大动作分为默认、思考、聆听、沟通。

车载语音形象的设计

1、拟人化:IPH化、生动、机器人造型、五官明显。

2、扁平图形:特征:扁平线条、图形简单、颜色单调、二维图形。

3、科技、酷炫、未来:不规则的图形,有光感光效以及流动感、色彩丰富的三维图形。



结语

通过这篇文章,我们可以对人机语音交互的全流程有一个整体的了解,并且对每个节点技术有一个概括性的认识,希望对大家有所帮助。

素材来源:1、https://www.woshipm.com/pd/5568891.html

2、https://zhuanlan.zhihu.com/p/92803868

3、https://mp.weixin.qq.com/s/LMMrRseN9Y6KQEs5tW-T2w

版权说明:本文素材来源于网络,如有损害或影响您的合法权益,请积极与我们联系处理



          
编辑EDITOR陈依婷
审核REVIEWER胡世海


          
电话PHONE13871056452
邮箱E-MAIL2028621@qq.com



Follow us|点击名片关注



Information and Interaction Design

本文来自微信公众号“信息与交互设计研究所”(ID:gh_c1cd7847b233)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。