本文摘自雷锋网,原文链接:https://www.leiphone.com/category/academic/Z5G3W8dq7O881yRt.html,侵删。
在如今数据驱动的人工智能研究中,单一模态数据所提供的信息已经不能满足提升机器认知能力的需求。与人类利用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界类似,机器也需要模拟人类联觉来提升认知水平。
同时,随着多模态时空数据的爆发和计算能力的提升,研究者已经提出了大量方法以应对日益增长的多样化需求。但当前的多模态认知计算仍局限于人类表观能力的模仿,缺乏认知层面的理论依据。面对更加复杂的智能任务,认知科学与计算科学的交叉已成必然。
近日,西北工业大学的李学龙教授在《中国科学:信息科学》期刊上发表了《多模态认知计算》一文,以“信容”(Information Capacity)为依据,建立了认知过程的信息传递模型,提出了“多模态认知计算能够提高机器的信息提取能力”这一观点,从理论上对多模态认知计算各项任务进行了统一。
李学龙认为,多模态认知计算是实现通用人工智能的关键之一,在”临地安防”(Vicinagearth Security)等领域有广阔的应用前景。本文探索了人类和机器的统一认知模式,对推动多模态认知计算的研究带来启发。
李学龙是西北工业大学教授,关注高维数据的智能获取、处理和管理之间的关系,在“临地安防”(Vicinagearth Security)等应用系统中发挥作用。2011年入选IEEE Fellow,并是首位当选国际人工智能协会(AAAI)执委的大陆学者。
AI 科技评论对《多模态认知计算》一文的要点作了概括,并沿该方向与李学龙教授进行了一次深入对话。
—— 1 ——机器认知能力在于信息利用率
基于信息论,李学龙提出:多模态认知计算能够提高机器的信息提取能力,并从理论上对这一观点进行了建模(如下)。
首先,我们需要明白人类是怎样提取事件信息的。
1948 年,信息论创始人 Shannon 提出“信息熵”的概念来表示随机变量的不确定程度,事件的概率越小,其发生所提供的的信息量越大。也就是说,在一个给定的认知任务 T 中,事件 x 的发生所带来的信息量与事件的概率 p(x) 成反比:
而信息是以各种模态为载体进行传输的,假设事件空间 X 为感知模态(m)、空间(s)、时间(t)上的张量,那么个体从事件空间中获得的信息量可定义为:
人类在某一时空范围内的是注意力有限的(假设为 1),所以当时空事件从单模态转变为多模态时,人类就不需要不断调整注意力,将关注点放在未知事件信息上,以获取最大量的信息:
由此可知,当时空事件包含的模态越多,个体获取的信息量也就越大,认知水平也随之更高。
那么对于机器而言,是否获取到的信息量越大,机器就越接近人类的认知水平?
答案是并非如此。为了度量机器的认知能力,李学龙在“信容”理论的基础上,将机器从事件空间中提取信息的过程表示如下。其中,D 为事件空间 x 的数据量。
由此,机器的认知能力即可定义为从单位数据获取最大信息量的能力,这样一来,人类与机器的认知学习便统一为提高信息利用率的过程。
那么,如何提升机器对多模态数据的利用率进而提升多模态认知计算能力呢?
正如人类的认知提升离不开对现实世界的联想、推理、归纳与演绎,要想提升机器认知能力,也需从对应的三方面切入:关联、生成、协同,这也是如今多模态分析的三个基本任务。
多模态认知计算的三条主线
多模态关联、跨模态生成和多模态协同三个任务处理多模态数据的侧重点不同,但其核心都是要利用尽可能少的数据实现信息量的最大化。
源自不同模态的内容如何在空间、时间和语义层级上关联对应起来?这是多模态关联任务的目标,也是提高信息利用率的前提。
多模态信息在空间、时间和语义层面上的对齐是跨模态感知的基础,多模态检索则是感知在实际生活中的应用,比如依靠多媒体搜索技术,我们可以输入词汇短语来检索视频片段。
图注:多模态对齐示意图
受人类跨感官感知机制的启发,AI 研究者已经将可计算模型用于唇读、缺失模态生成等跨模态感知任务当中,
还进一步辅助残障群体的跨模态感知。而在将来,跨模态感知的主要应用场景将不再局限于残障人士的感知替代应用上,而是将更多的同人类的跨感官感知相结合,提升人类多感官感知水平。
如今,数字模态内容快速增长,跨模态检索的应用需求也愈加丰富,这无疑为多模态关联学习提出了新的机遇和挑战。
我们在阅读一段小说情节时,脑海中会自然浮现相应的画面,这是人类跨模态推理和生成能力的体现。
与之类似,在多模态认知计算中,跨模态生成任务的目标是赋予机器生成未知模态实体的能力。从信息论的角度看,这一任务的本质就成了在多模态信息通道内提高机器认知能力的问题,这有两种途径:一是提高信息量即跨模态合成,二是减小数据量即跨模态转换。
跨模态合成任务是在生成新模态实体时对已有信息进行丰富,从而增大信息量。以基于文本生成图像为例,早期主要采用实体关联的方式,对检索库的依赖程度往往很高。如今,图像生成技术以生成对抗网络为主,已经能够生成逼真的高质量图像。但人脸图像生成仍然十分具有挑战性,因为从信息层次上看,即使是微小的表情变化,也有可能传达出非常大的信息量。
同时,将复杂模态转换到简单模态,寻找更加简洁的表达形式,则可以降低数据量,提升信息获取能力。
图注:常见的跨模态转换任务
作为计算机视觉和自然语言处理两大技术结合的典范,跨模态转换可以极大地提升在线检索效率。比如对一段冗长的视频给出简要的自然语言描述,或者给一段视频信息生成与之相关的音频信号灯。
目前主流的两种生成式模型 VAE(变分自编码器)和 GAN (生成对抗网络)各有长短,李学龙认为,VAE 依赖假设条件,而 GAN 可解释性差,二者需合理结合。尤其重要的一点是,多模态生成任务的挑战不仅在于生成质量方面,更多在于不同模态之间的语义及表示鸿沟问题,如何在具有语义鸿沟的前提下进行知识推理是未来需要解决的难点。
在人类认知机制中,归纳和演绎扮演着重要角色,我们可以对看到的、听到的、闻到的、摸到的等多模态感知进行归纳融合、联合演绎,以此来作为决策依据。
同样地,多模态认知计算也要求协调两个或两个以上的模态数据,互相配合完成更加复杂的多模态任务,并提升精度和泛化能力。从信息论的角度看,它的本质是多模态信息之间的相互融合以达到信息互补的目的,是对注意力的优化。
首先,模态融合是为了解决数据格式、时空对齐、噪声干扰等带来的多模态数据的差异问题。目前,机遇规则的融合方式包括串行融合、并行融合和加权融合,基于学习的融合方式则包括注意力机制模型、迁移学习和知识蒸馏。
其次,多模态信息融合完成后就需要对模态信息进行联合学习,以帮助模型挖掘模态数据间的关系,建立起模态与模态间的辅助或互补联系。
通过联合学习,一方面能够提升模态性能,如视觉指导音频、音频指导视觉、深度指导视觉等应用;另一方面可以解决以往单模态难以实现的任务,如复杂情感计算、音频匹配人脸建模、视听觉指导音乐生成等都是未来多模态认知计算的发展方向。
近年来,深度学习技术已经极大地推动了多模态认知计算在理论和工程上的发展。但如今应用需求愈加多元化,数据迭代速度也在加快,这为多模态认知计算提出了新的挑战,也带来了许多机遇。
我们可以从提升机器认知能力的四个层面来看:
在数据层面,传统的多模态研究将数据的采集和计算分离为两个独立过程,这种方式存在弊端。人类世界由连续模拟信号构成,而机器处理的是离散数字信号,其转换过程必然造成信息变形和丢失。
对此,李学龙认为,以光神经网络为代表的智能光电能够带来解决思路,如果能完成多模态数据的感算一体,机器的信息处理效率和智能水平将大大提高。
在信息层面,认知计算的关键是对信息中高级语义的处理,比如视觉中的位置关系、图像的风格、音乐的情感等。目前多模态任务局限于简单目标和场景下的交互,而无法理解深层的逻辑语义或主观语义。例如,机器可以生成一朵花开在草地上的图像,但无法理解花草会在冬天凋谢的常识。
所以,搭建不同模态下复杂逻辑和感受语义信息的通信桥梁,建立特色的机器度量体系是未来多模态认知计算的一大趋势。
在融合机制层面,如何对由异构部件组成的多模态模型进行高质量优化是当前的一个难点。目前的多模态认知计算大多是在统一的学习目标下对模型进行优化,这种优化策略缺乏对模型内部异构组成部分的针对性调整,导致现有的多模态模型存在较大的欠优化问题,需要从多模态机器学习与优化理论方法等多方面切入。
在任务层面,机器的认知学习方式随任务而不同,我们需要设计任务反馈的学习策略,提升多种相关任务的解决能力。
另外,针对当前机器学习从图像、文本等数据中理解世界这种“旁观式”学习方式的弊端,我们可以借鉴认知科学的研究成果,如具身智能(Embodied AI)就是一个有潜力的解决方案:智能体需要与环境进行多模态交互,才能不断进化形成解决复杂任务的能力。(公众号:雷峰网)
AI 科技评论:在人工智能研究中,我们为什么要关注多模态数据和多模态认知计算?多模态数据的增长为模型的性能带来了什么好处和阻碍?
李学龙:谢谢您的问题。我们之所以关注和研究多模态数据,一方面是由于人工智能本质上是依赖数据的,单一模态数据能提供的信息总是非常有限的,而多模态数据在同一任务下可以提供多层次、多视角的信息;另一方面则是因为客观的物理世界就是多模态的,很多实际问题的研究离不开多模态数据,例如以文搜图,听音识物等等。
我们从认知计算的角度来分析多模态问题,是从人工智能的本质出发,通过构建可模拟人类认知模式的多模态分析系统,希望机器像人类一样智能地感知周围环境。
复杂交错的多模态信息也会带来大量噪声和冗余,增加模型学习压力,使得某些情况下多模态数据的性能反而不如单一模态,这就为模型的设计和优化提出了更大的挑战。
AI 科技评论:从信息论的角度看,人类的认知学习与机器的认知学习有何相似之处?关于人类认知机制的研究对于多模态认知计算有怎样的指导意义?如果缺乏对人类认知的了解,多模态认知计算将面临哪些困难?
李学龙:亚里士多德认为人对事物的认识是从感觉开始的,而柏拉图则认为通过感觉得出的不能称为知识。
人类从出生开始就接受大量的外界信息,通过感知、记忆、推理等逐步建立自我认知系统,而机器的学习能力是通过对大量数据的训练来实现的,主要是在找感知和人类知识之间的对应关系。按照柏拉图的观点,机器学到的还不是知识。我们在文中引用了“信容”(Information Capacity)的理论,尝试从信息提取能力入手,去建立人和机器之间的认知联系。
人类通过视、 听、 嗅、 味、 触等多种感知通道将多模态信息传送至大脑,对大脑皮层产生联合刺激。心理学研究发现,多种感官联合作用会产生“多感官整合”、“联觉”(Synaesthesia)、“知觉重组”、“知觉记忆”等认知学习模式,这些人类认知机制为多模态认知计算带来了重大的启发,例如派生出了多模态协同、多模态关联、跨模态生成等典型多模态分析任务,同时也催生了局部共享、长短时记忆、注意力机制等典型机器分析机制。
目前来说,人的认知机理其实并不明确。缺乏人类认知研究的指导,多模态认知计算会陷入数据拟合的陷阱,我们也无法判断模型是否学到了人需要的知识,这也是人工智能目前饱受争议的一点。
AI 科技评论:您从信息论角度提出的“多模态认知计算能够提高机器的信息提取能力”这一观点,在具体的多模态认知计算任务中有何证据支持?
李学龙:这个问题可以从两个方面来回答。第一,多模态信息可以提升单一模态在不同任务中的表现。大量的工作已经验证了,在加入声音信息时,计算机视觉算法的性能会得到显著提升,像目标识别、场景理解等。我们还做过一个环境相机,发现通过融合温度、湿度等传感器的多模态信息,可以提升相机的成像质量。
第二,多模态信息的联合建模为实现更加复杂的智能任务提供了可能,比如,我们曾做过“Listen to the Image”的工作,将视觉信息编码为声音,让盲人“看到”眼前的景象,这也证明了多模态认知计算帮助机器提取更多的信息。
AI 科技评论:在多模态关联任务中,对齐、感知与检索三者之间有什么样的相互联系?
李学龙:这三者的关系本质上来讲是相对比较复杂的,在本篇文章中,我仅给出了一些自己的初步看法。不同模态信息产生关联的前提是它们在共同描述同一个/相似的客观存在,但是这种关联关系却在外界信息冗杂或干扰时存在较难确定的问题,这就需要进行首先对齐不同模态的信息,确定关联对应关系。进而在对齐基础上,实现从一个模态到另一个模态的感知。
这就好比当我们仅看到一个人的唇部运动,能仿佛听到他说的内容。而这种现象的产生也是建立在视素(Viseme)和音素(Phoneme)关联对齐的基础上。在实际生活中,我们也将这种跨模态的感知进一步运用到了诸如检索这样的应用中,通过文字检索商品的图片或视频内容,实现可计算的多模态关联应用。
AI 科技评论:最近非常流行的 DALL-E 等模型是跨模态生成任务的一个例子,它们在文本生成图像任务中表现出色,但其生成图像的语义相关性、可解释性等仍存在很大局限。您认为应当如何解决这个问题?难点在哪?
李学龙:从文本生成图像是一个“想象”的任务,人们看到或听到一句话,理解其中的语义信息,然后依托大脑记忆想象出最符合的场景,产生“画面感”。目前,DALL-E 还处于利用统计学习进行数据拟合的阶段,对大规模数据集进行归纳和总结,这也是目前深度学习最擅长的。
但是,如果真正要学习人的“想象力”,还需要考虑人类的认知模式,达到“高水平”的智能。这就需要神经科学、心理学、信息科学的交叉融合,是挑战也是机遇,近年来很多团队也在这方面做出了顶尖的工作。通过多学科的交叉融合,探索人类认知模式的可计算性理论,也是我们团队努力的方向之一,相信也将为“高水平”的智能带来新的突破。
AI 科技评论:在您的研究工作中,您是如何从认知科学中汲取灵感的?您尤其关注认知科学中的哪些研究?
相关阅读 >>
更多相关阅读请进入《人工智能》频道 >>