Technology｜多模态交互技术

正文字数：2309字

图片总数：18张

视频时长：12分11秒

多模态交互的概念

The concept of multimodal interaction

所谓“模态”英文是modality，用通俗的话说，就是“感官”，是德国生理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，例如人类有视觉，听觉，触觉，味觉和嗅觉模态。

由学者研究得知，人类感知信息的途径里，通过视觉、听觉、触觉、嗅觉和味觉获取外界信息的比例依次为83%、11%、3.5%、1.5%和1%。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。

视觉和听觉

Visual and auditory

眼睛可以来回观察空间获取信息;耳朵只能单向获取信息，在没有其他功能的帮助下如果想重听前几秒的信息是不可能的。

耳朵接收的信息只能由时间决定，眼睛却很不一样，即使在很短的时间内，眼睛也可以从空间获取大量信息。空间的信息由两个因素决定:①动态还是静态;②三维空间还是二维平面。时间和空间的结合可使信息大大丰富，正如花一分钟看周围的动态事物远比一年看同一个静态页面获取的信息要多。

研究表明，视觉接收的信息量可以达到听觉接收信息的100倍。如果将图像作为信息载体，视觉阅读图片里的信息远超听觉的5倍。

Paralull 是一个与城市环境音景互动的装置，通过侦测识别环境音的特征和能量，匹配最相似的自然声音，在环境恢复平静时搭配抽象的叶片纹理运动释放，进而安抚人们暴露在城市噪音后焦躁的心情。

触觉

Touch

虽然触觉接收的信息量少于视觉和听觉，但它远比视觉、听觉复杂。

触觉是指分布干人们皮肤上的感受器在外界的温度、湿度、压力、振动等刺激下，所引起的冷热、润燥、软硬、动作等反应。我们可以通过触摸感受各种物体，并将触摸到的各种数据记入大脑。

如果没有触觉，那就少了实在和自然的感觉，例如在格斗游戏中无论是敌人被击中或者是自己被击中都没有反应回馈，导致游戏体验缺乏真实感。

虚拟现实控制系统应该尽可能自然地模拟我们与周边环境的交互。同理，未来的人机交互更多发生在物理空间里，人类想要真实地感受实体，增强现实技术需要把虚拟的数字信息转化为触感，因为触感才是我们在真实环境下感受实体的唯一途径。

TTI交互触觉音响系统

嗅觉

Smell

在《超普通心理学》一书中提到:嗅觉是五感中传递唯一不经过丘脑(thalamus)的，而是直接将刺激传到大脑中许多与情感、本能反应相关的腺体。

例如杏仁核(管理各种情绪如愤怒与恐惧、欲望与饥饿感等)、海马体(管理长期记忆、空间感受等)、下丘脑(管理性欲和冲动、生长激素与荷尔蒙的分泌、肾上腺素的分泌等)、脑下垂体(管理各种内分泌激素，也是大脑的总司令)。

因此嗅觉是最直接而且能唤起人类本能行为和情绪记忆的感官。

资生堂嗅觉可视化装置

通过声音传达信息

Convey information through sound

随着人工智能的发展，语音识别技术已得到快速发展，人在表达自己的意图时主要由语言、口音、语法、词汇、语调和语速等决定，而在不同场景下用户的语气也会随着情绪而变化，导致相同的语句可能会有不一样的意图。

智能情绪识别是具备语音交互能力的设备根据用户响应做出反应并进行有意义对话的关键。早在2012年，以色列的初创企业 BeyondVerbal就发明了一系列语音情绪识别算法，可以根据说话方式和音域的变化，分析出愤怒、焦虑、幸福或满足等情绪、心情、态度的细微差别也能被精准检测。至今为止，该算法可以分析出11个类别的400种复杂情绪。

Apple Homepod-欢迎回家

机器除了需要理解用户想表达什么，还需要识别是哪个用户在说话，这时候生物识别领域下的“声纹识别”就能起到关键作用该技术通过语音波形中反映说话人生理和行为特征的语音参数进而分辨出说话人的身份。

声纹识别将成为语音人机交互的最佳身份认证方式，还可以有效减少部分应用场景下的操作流程。例如在下订单环节，如果有了声纹识别作为身份认证方式，那么通过“帮我订昨天晚上一样的外卖”这一句话，就能够完成整个订餐及支付操作。

当有闯入者非法入侵住宅时，如果语音控制系统不限制说话人的身份，每个人都有着智能监控系统的权限，那么闯入者完全可以直接下命令关闭监控系统，这是一件非常危险的事情。声纹识别能有效解决该问题，在不能识别出闯入者身份的前提下当闯入者尝试进行语音交互时，语音控制系统应该进行报警等一系列安防措施，有效保障居民的安全。

通过肢体传达信息

Communicate through your body