方案中心 | 让智能机器人变得“无限可能”—人机交互

人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。而人机交互技术是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术。

如今人机交互技术主要发展方向包括以下几个维度，触控交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模式交互以及智能交互等。

　　1. 触控交互

　　目前有四种技术方式能实现触控交互，电阻式触控技术、电容式触控技术、红外触控技术和表面声波触控技术。

　　2. 声控交互

　　语音识别是将音频数据转化为文本或其他计算机可以处理的信息的技术；语音合成就是将一系列的输入文字信号序列经过适当的韵律处理后，送入合成器，产生出具有尽可能丰富表现力和高自然度的语音输出，从而使计算机或相关的系统能够发出像“人”一样自然流利声音的技术。

　　3. 动作交互

　　手势识别，手势可定义为人手或者手和手臂相结合所产生的各种姿态和动作，它分为静态手势（指姿态，单个手形）和动态手势（指动作，由一系列姿态组成），前者对应模型空间里的一个点，后者对应一条轨迹。相应地，可以将手势识别分为静态手势识别和动态手势识别；姿势识别，常用的算法有三类：（1）基于模板匹配的身体姿势识别方法；（2）基于状态空间的身体姿势识别方法；（3）基于语义描述的身体姿势识别方法。

4. 眼动交互

眼动交互利用人工智能技术提高眼动计算的精度和效率，对人的感知和认知状态进行深入理解，构建“人在回路”的智能人机交互框架，实现用户主导的自动化系统、基于人机共生的 AI 系统。常用的几种眼动交互方式主要有驻留时间触发、平滑追随运动、眨眼、眼势。

5. 虚拟现实输入

　　文本输入作为应用中重要的交互技术，为应用提供了重要的交互体验。目前已经开发了多种适用于虚拟现实的文本输入技术，现有的VR文本输入技术主要有实体键盘技术、虚拟键盘技术、新型输入技术（手部输入技术、圆形键盘输入技术、立体输入技术）。

　　6. 多模态交互

　　不同形式的输入组合（例如，语音、手势、触摸、凝视等）被称为多模态交互模式，其目标是向用户提供与计算机进行交互的多种选择方式，以支持自然的用户选择。相比于传统的单一界面，多模态界面可以被定义为多个输入模态的组合。

　　7. 信息无障碍中的智能交互技术
　　

信息无障碍（information accessibility）是一个学科交叉的技术和应用领域，旨在用信息技术弥补残障人士生理和认知能力的不足，让残障人士可以顺畅地与他人、物理世界和信息设备进行交互。

以服务机器人为例，人机交互体现了把人放在首位的目标，人机交互技术进一步提高了人与机器之间的沟通效率，并且给我们的生活各方面都带来了极大的便利。尽管人工智能的发展伴随着一系列的挑战，但是不管是人机交互的发展还是人工智能的革新和进步都可以更好地解放人类自身，促进人类的进步和社会的发展，而我们也应该学会如何构建和谐共生的“人机关系”。

本文来自微信公众号“上海市人工智能行业协会”（ID：saia2021）。大作社经授权转载，该文观点仅代表作者本人，大作社平台仅提供信息存储空间服务。