/Technology|多模态交互技术

Technology|多模态交互技术


正文字数:2309字

图片总数:18张

视频时长:12分11秒

多模态交互的概念

The concept of multimodal interaction


所谓“模态”英文是modality,用通俗的话说,就是“感官”,是德国生理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官与经验来接收信息的通道,例如人类有视觉,听觉,触觉,味觉嗅觉模态。

由学者研究得知,人类感知信息的途径里,通过视觉、听觉、触觉、嗅觉和味觉获取外界信息的比例依次为83%、11%、3.5%、1.5%和1%。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。



视觉和听觉

Visual and auditory


眼睛可以来回观察空间获取信息;耳朵只能单向获取信息,在没有其他功能的帮助下如果想重听前几秒的信息是不可能的。

耳朵接收的信息只能由时间决定,眼睛却很不一样,即使在很短的时间内,眼睛也可以从空间获取大量信息。空间的信息由两个因素决定:①动态还是静态;②三维空间还是二维平面。时间和空间的结合可使信息大大丰富,正如花一分钟看周围的动态事物远比一年看同一个静态页面获取的信息要多。

研究表明,视觉接收的信息量可以达到听觉接收信息的100倍。如果将图像作为信息载体,视觉阅读图片里的信息远超听觉的5倍。

Paralull 是一个与城市环境音景互动的装置,通过侦测识别环境音的特征和能量,匹配最相似的自然声音,在环境恢复平静时搭配抽象的叶片纹理运动释放,进而安抚人们暴露在城市噪音后焦躁的心情。


触觉

Touch


虽然触觉接收的信息量少于视觉和听觉,但它远比视觉、听觉复杂。

触觉是指分布干人们皮肤上的感受器在外界的温度、湿度、压力、振动等刺激下,所引起的冷热、润燥、软硬、动作等反应。我们可以通过触摸感受各种物体,并将触摸到的各种数据记入大脑。

如果没有触觉,那就少了实在和自然的感觉,例如在格斗游戏中无论是敌人被击中或者是自己被击中都没有反应回馈,导致游戏体验缺乏真实感。

虚拟现实控制系统应该尽可能自然地模拟我们与周边环境的交互。同理,未来的人机交互更多发生在物理空间里,人类想要真实地感受实体,增强现实技术需要把虚拟的数字信息转化为触感,因为触感才是我们在真实环境下感受实体的唯一途径。

TTI交互触觉音响系统

嗅觉

Smell


在《超普通心理学》一书中提到:嗅觉是五感中传递唯一不经过丘脑(thalamus)的,而是直接将刺激传到大脑中许多与情感、本能反应相关的腺体。

例如杏仁核(管理各种情绪如愤怒与恐惧、欲望与饥饿感等)、海马体(管理长期记忆、空间感受等)、下丘脑(管理性欲和冲动、生长激素与荷尔蒙的分泌、肾上腺素的分泌等)、脑下垂体(管理各种内分泌激素,也是大脑的总司令)。

因此嗅觉是最直接而且能唤起人类本能行为和情绪记忆的感官。


资生堂嗅觉可视化装置

通过声音传达信息

Convey information through sound

随着人工智能的发展,语音识别技术已得到快速发展,人在表达自己的意图时主要由语言、口音、语法、词汇、语调和语速等决定,而在不同场景下用户的语气也会随着情绪而变化,导致相同的语句可能会有不一样的意图。

智能情绪识别是具备语音交互能力的设备根据用户响应做出反应并进行有意义对话的关键。早在2012年,以色列的初创企业 BeyondVerbal就发明了一系列语音情绪识别算法,可以根据说话方式和音域的变化,分析出愤怒、焦虑、幸福或满足等情绪、心情、态度的细微差别也能被精准检测。至今为止,该算法可以分析出11个类别的400种复杂情绪。


Apple Homepod-欢迎回家

机器除了需要理解用户想表达什么,还需要识别是哪个用户在说话,这时候生物识别领域下的“声纹识别”就能起到关键作用该技术通过语音波形中反映说话人生理和行为特征的语音参数进而分辨出说话人的身份。

声纹识别将成为语音人机交互的最佳身份认证方式,还可以有效减少部分应用场景下的操作流程。例如在下订单环节,如果有了声纹识别作为身份认证方式,那么通过“帮我订昨天晚上一样的外卖”这一句话,就能够完成整个订餐及支付操作。

当有闯入者非法入侵住宅时,如果语音控制系统不限制说话人的身份,每个人都有着智能监控系统的权限,那么闯入者完全可以直接下命令关闭监控系统,这是一件非常危险的事情。声纹识别能有效解决该问题,在不能识别出闯入者身份的前提下当闯入者尝试进行语音交互时,语音控制系统应该进行报警等一系列安防措施,有效保障居民的安全。


通过肢体传达信息

Communicate through your body


面部表情是表达情感的主要方式。目前大多数的研究集中在6种主要的情感上,即愤怒,悲伤、惊奇、高兴、害怕和厌恶。目前网上已经有很多表情识别的开源项目。

在人机交互上,用户表情识别除了可以用于理解用户的情感反馈,还可以用于对话中发言的轮换管理,例如机器看到用户表情瞬间变为愤怒时,需要考虑流程是否还继续进行。

眼睛是人机交互的研究方向之一,它的注视方向、注视时长、瞳孔扩张收缩以及眨眼频率等等都有不一样的解读。2012年由四个丹麦博士生创立的公司TheEveTribe开发的眼动追踪技术可以通过智能手机或者平板电脑的前置摄像头获取图像,利用计算机视觉算法进行分析。

软件能定位眼睛的位置,估计你正在看屏幕的什么地方,甚至精确到非常小的图标。这项眼动追踪技术未来有望取代手指控制平板电脑或手机。

在人机交互上,眼动追踪技术将帮助计算机知道用户在看哪里,有助于优化整个应用、游戏的导航结构,使整个用户界面更加简洁明了。例如,地图、控制面板等元素在用户没关注时可被隐藏,只有当用户眼球查看边缘时才显示出来,从而增加整个游戏的沉浸式体验。

 ROBBB展体感交互投影,通过体感设备你可以变身行走的霓虹灯,挥动双手泼洒光漆,营造自我的小宇宙。用身体绘画,用情感渲染。色彩渗透空间,虚拟渗透现实。



素材来源:www.bilibili.com

          
编辑EDITOR朱仪
审核REVIEWER彭一航


          
电话PHONE13871056452
邮箱E-MAIL2028621@qq.com



本文来自微信公众号“信息与交互设计研究所”(ID:gh_c1cd7847b233)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。