手势交互技术正在照进现实

正文字数：2772字

图片总数：19张

视频时长：6分6秒

引言：在多模态时代，传统的语音文字交互方式已经不能满足人们的需求。苹果在2011年iPhone 4s发布会上正式推出的siri语音助手，罗永浩在2018年鸟巢发布会上真机演示遇尴尬高喊“理解万岁”，飞书在2020 飞书未来无限大会上推出了飞书妙记功能，语音交互在近年来愈发成熟和易用，走上一个又一个台阶。然而语音交互应用过程中的唤醒词、识别准确率、响应速度等诸多因素均限制着使用场景和人们的接受度。人们始终期待着手势交互作为更易用、更自然的交互方式可以真正应用在生活中。无疑，手势交互的应用将成为下一个设计突破点 ( the Next Big Thing ) 。本文将分享科技公司针对手势识别与交互技术在不同场景下进行的探索。

IDEO在手势交互上的探索

Design by:IDEO

交互｜技术｜设计理论

启用语音的交互存在局限性。当周围有其他人时，有时会很慢，很尴尬，并且需要笨拙的触发短语，例如“Okay，Google”或“Hey，Siri”。值得庆幸的是，对着半空说话不再是我们唯一的或最好的选择。早年间，iPhoneX 就引入了一个可以感知三个维度并记录每个像素深度的摄像头，而 Nest IQ 和亚马逊的 Echo Look 等智能家庭终端现在都有自己的摄像头。结合通过更多训练数据学习和改进的神经网络，这些新相机可以创建场景中人物的点云或深度图、他们的姿势以及他们的移动方式。这些网络可以被训练来识别特定的人，对他们的活动进行分类，并对远处的手势做出反应。神经网络和更好的相机一起为手势设计和基于手势的交互模型开辟了一个全新的空间。

重新对现有的交互方式触觉（触摸）、声音（语音）和视觉（手势）进行思考，什么是更自然的交互方式，答案指向手势交互。在手术室里，外科医生的手是无菌的；她不能翻阅放射学扫描——只有语音和手势可用。如果你正在指挥管弦乐队或进行军事突袭，你无法发出命令，所以我们又回到了手势。

为了验证手势在表达想法中的重要地位，IDEO团队进行了一系列的探索。首先，IDEO团队给两个人一个想法，然后团队要求他们摆出四只手的姿势来表达这个想法。

然后IDEO团队记录故事并使用计算机视觉跟踪人们的手，以研究人们何时自然地使用手势来放大情感或解释概念。

接下来，IDEO团队训练了一个神经网络来识别一小组手势，并使用这些来控制飞利浦 HUE 灯组和 Spotify 站，为办公室创建一个装置。

在最后，IDEO团队在分析结果后，将想法归结为四个手势值得成为新的突破点的原因：

速度：如果要快的话，手势比说话快多了。
距离：如果您需要在房间的另一端进行交流，手势比处理音量更容易。
词汇量方面：如果你没有一千件事要说，手势很管用。给定上下文的手势集越小，就越容易记住。（例如，赞成/反对。）
表现力方面：手势非常适合表达情感的显着性。一位音乐指挥传达了一种悲观和节奏，但也传达了更多如自信、悲伤、渴望等等。

车企在手势交互上的应用

交互｜技术｜HMI

事实是，手势交互正式进入车内，到现在还不到 10 年的时间。其间陆续有车企和供应商将隔空手势引入座舱，但总有批评的声音质疑其华而不实。然而车企和供应商们并没有放缓技术落地的脚步。早在2013 年，科技媒体 Engadget 的一份报告称，谷歌提交了一项专利的申报，内容关于使用手部动作来更有效率地控制汽车。该专利依赖于安装在座舱顶部的深度摄像头和激光扫描仪，来根据驾乘者的手部位置和动作来触发车辆的相关功能。譬如在窗户附近滑动，会自动摇下车窗；用手指向车载收音机，系统会自动提高音量。

宝马的手势控制系统最开始在 2015 年推出的 G11/G12 7 系上首次亮相，这也是隔空手势第一次见于量产车型，供应商为美国德尔福。使用者只需在空气中比划一些预设的手势，中控台上方的 3D 传感区域就可以快速检测和识别手势动作，方便地控制音量或导航等功能。

近年面市的福特 EVOS 上，长达 1.1 米、既能一分为二又能合二为一的屏幕令人印象深刻。为了让使用者更好地用起来这块屏幕，福特 EVOS 的团队还设计了一系列交互手势：

将食指放在嘴唇上比个「嘘」的手势，音乐就会自动暂停。
比个「OK」的手势，音乐就会重新播放。
比个 V 形手势，可以在分屏与全屏之间切换。
比个五指抓取的动作，就可以直接回到的主页面。

其他领域中手势交互的探索

交互｜技术｜移动终端

手势识别技术由简入深大致可以分为三个等级：二维手型识别、二维手势识别、三维手势识别。如果我们只需要满足“播放/暂停”这类最基础的控制，二维层面的手型/手势+单个摄像头捕捉的组合就足以满足需求。像智能电视上播放着流媒体视频的客厅场景，当我们要短暂离开又不想错过内容时，只要做个简单的手势就能让电视暂停播放。

这些隔空操作为模拟的演示效果，此外手势操作在移动终端上得到了很好地落地应用。

谷歌在早年公布的 Project Soli，一项通过运用微型雷达监测空中手势动作的传感技术。通过特殊设计的雷达传感器追踪毫米精确度的高速运动，然后将雷达信号进行处理之后，识别成一系列通用的交互手势。经过持续不断地研发，Soli 雷达实现毫米级大小，所以能够十分方便地塞进手机与可穿戴设备之中。

Project Soli 最著名的落地案例之一就是谷歌发布的 Pixel 系列手机，其借助 Soli 雷达实现了名为 Motion Sense（运动感应）的技术。用户无需接触屏幕，就能通过隔空手势实现一系列操控动作，比如切换音乐、静音手机、调节闹钟声音大小等等。Pixel系列的面部解锁也依靠毫米波，甚至对光线没有任何要求，黑暗中也能完成解锁。

华为在近年来的旗舰手机上大胆应用了几组隔空手势，比如手心朝前五指抓取的动作代表截屏、上下甩手代表纵向滑动等等。应用情况上来看，在多数场景里是有效的，实际情况中，隔空截屏比较常用，需要在光线相对充足的环境中才能实现更高的成功率。

支持微软 Kinect 实现隔空交互的深度感应技术，前后两代可以分别拆解出手势交互的两种主流技术路径：结构光（Structure Light）和光飞时间（Time of Flight），再加上多角成像（Multi-Camera），就构成了手势交互的三个主要视觉技术流派。

展望

prospect

手势既然是以直觉为出发点的交互，设计也需要更加符合人类直觉，容易被记住，容易被使用，容易成为习惯。每次有新技术产品问世的时候，人们总是喜欢讲“未来已来”事实上，让我们褪去浪漫主义的外衣，技术的研发、产品的规划、预期的传达、反馈与迭代实际上是个无比漫长的过程。一步到位只能是美好的愿景，不然研发行为本身也没了意义。