正文字数:3334字
图片总数:14张
引言:在如今数据驱动的人工智能研究中,单一模态数据所提供的信息已经不能满足提升机器认知能力的需求。与人类利用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界类似,机器也需要模拟人类联觉来提升认知水平。同时,随着多模态时空数据的爆发和计算能力的提升,研究者已经提出了大量方法以应对日益增长的多样化需求。但当前的多模态认知计算仍局限于人类表观能力的模仿,缺乏认知层面的理论依据。面对更加复杂的智能任务,认知科学与计算科学的交叉已成必然。
01
多模态认知计算
让机器像人类一样智能地感知周围环境并做出决策,是人工智能的目标之一。在对信息的处理模式上,人类与机器存在巨大差异。为构建模拟人类认知模式的智能系统,英国 Ulster大学的研究者在2003年将“认知计算”(Cognitive Computing) 的概念引入信息领域,重点关注认知科学与传统的视音频,图像,文本等处理之间互相联系的机理和机制, 并且开设了相应的教学课程。
认知神经学研究表明,一类感官刺激可能会作用于其他感官通道,这种现象被称为“联觉”(Synaesthesia)。
2008 年, Li 等人在“Visual Music and Musical Vision”一文中首次将“联觉”引入信息领域, 并从信息度量角度计算多模态数据的关联,尝试性地探讨了多模态认知计算的理论及应用。随着人工智能第三次发展高潮的影响 逐渐深化,多模态认知计算迎来了新的发展机遇,成为航空航天、智能制造、医疗健康等重大领域共同关注的研究课题,对推动我国人工智能战略发展具有重要意义。
02
多模态认知计算的三条主线
正如人类的认知提升离不开对现实世界的联想、推理、归纳与演绎,要想提升机器认知能力,也需从对应的三方面切入:关联、生成、协同,这也是如今多模态分析的三个基本任务。
多模态关联、跨模态生成和多模态协同三个任务处理多模态数据的侧重点不同,但其核心都是要利用尽可能少的数据实现信息量的最大化。
源自不同模态的内容如何在空间、时间和语义层级上关联对应起来?这是多模态关联任务的目标,也是提高信息利用率的前提。
多模态信息在空间、时间和语义层面上的对齐是跨模态感知的基础,多模态检索则是感知在实际生活中的应用,比如依靠多媒体搜索技术,我们可以输入词汇短语来检索视频片段。
受人类跨感官感知机制的启发,AI 研究者已经将可计算模型用于唇读、缺失模态生成等跨模态感知任务当中,还进一步辅助残障群体的跨模态感知。而在将来,跨模态感知的主要应用场景将不再局限于残障人士的感知替代应用上,而是将更多的同人类的跨感官感知相结合,提升人类多感官感知水平。
如今,数字模态内容快速增长,跨模态检索的应用需求也愈加丰富,这无疑为多模态关联学习提出了新的机遇和挑战。
03
机遇与挑战
近年来,深度学习技术已经极大地推动了多模态认知计算在理论和工程上的发展。但如今应用需求愈加多元化,数据迭代速度也在加快,这为多模态认知计算提出了新的挑战,也带来了许多机遇。
我们可以从提升机器认知能力的四个层面来看:
在数据层面,传统的多模态研究将数据的采集和计算分离为两个独立过程,这种方式存在弊端。人类世界由连续模拟信号构成,而机器处理的是离散数字信号,其转换过程必然造成信息变形和丢失。
在信息层面,认知计算的关键是对信息中高级语义的处理,比如视觉中的位置关系、图像的风格、音乐的情感等。目前多模态任务局限于简单目标和场景下的交互,而无法理解深层的逻辑语义或主观语义。例如,机器可以生成一朵花开在草地上的图像,但无法理解花草会在冬天凋谢的常识。
所以,搭建不同模态下复杂逻辑和感受语义信息的通信桥梁,建立特色的机器度量体系是未来多模态认知计算的一大趋势。
在融合机制层面,如何对由异构部件组成的多模态模型进行高质量优化是当前的一个难点。目前的多模态认知计算大多是在统一的学习目标下对模型进行优化,这种优化策略缺乏对模型内部异构组成部分的针对性调整,导致现有的多模态模型存在较大的欠优化问题,需要从多模态机器学习与优化理论方法等多方面切入。
在任务层面,机器的认知学习方式随任务而不同,我们需要设计任务反馈的学习策略,提升多种相关任务的解决能力。
另外,针对当前机器学习从图像、文本等数据中理解世界这种“旁观式”学习方式的弊端,我们可以借鉴认知科学的研究成果,如具身智能(Embodied AI)就是一个有潜力的解决方案:智能体需要与环境进行多模态交互,才能不断进化形成解决复杂任务的能力。
未来,随着感知能力的进一步提升,依托人类认知拓展物理感知边界,实现信息域和认知域的统一是大势所趋。我们将继续深度挖掘跨模态信息检索的应用与价值,不断释放引领数据智能前沿技术落地应用的新动能,为政企、机构内容安全运营与管理保驾护航。
素材来源:https://www.163.com/dy/article/HHILPQGC051193U6.html
http://www.myzaker.com/article/6336bd208e9f091d4452792e
https://baijiahao.baidu.com/s?id=1745115804752473212&wfr=spider&for=pc
https://www.thepaper.cn/newsDetail_forward_18601222
版权说明:本文素材来源于网络,如有损害或影响您的合法权益,请积极与我们联系处理
本文来自微信公众号“信息与交互设计研究所”(ID:gh_c1cd7847b233)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。