1.2.4 多模态数据融合

多模态即信息的多种模式或形态,信息的来源、组织形式都可以称为信息的一种模态(Modality),例如文字、语音、视频等信息常用媒介。多模态机器学习(Multi Modal Machine Learning,MMML)旨在通过机器学习或深度学习的方式使模型获得处理、理解多模态信息的能力,具体而言,可以划分为五个研究方向(61):多模态表示学习、模态转化、模态对齐、多模态融合、协同学习。考虑到与本书的相关性,本节中仅讨论使用深度学习进行多模态融合(Multimodal Fusion)的有关技术。

从2010年开始,随着深度学习的不断发展,图像语音的识别及自然语言的处理工作开始使用深度学习模型。深度学习的多模态融合通常可以概括为三类方法(62)

(1)基于规则的融合方法

基于规则的方法使用独立的深度学习特征抽取工具,获得不同模态数据的特征表示向量,并采取加和、加权求和、拼接、求平均、求最大等基于任务要求所预设的简单规则进行融合。

值得注意的是,随着NAS(Neural Architecture Search)等工作的同步发展,目前基于规则的多模态融合可以通过启发式的方法来自适应地选择最为合适的规则,从而减少训练过程中的人工干预。例如,2019年提出的MFAS(63)探讨了多模态融合过程中,通过NAS的思路自适应搜索合适的模型框架的方法。如图1.2.12所示,图中的上下层分别为对不同模态数据的独立特征抽取模型。左图表示选取多模态模型中的若干层,通过不同的激活函数融合特征,随后用于分类;右图仅分别选择多模态模型中的一层用于分类。

图1.2.12 MFAS所提出的两种基础融合方法示例(64)

容易发现,从独立的多模态模型中选择不同层的特征、使用不同的激活函数、采取不同的拼接手段,都会对融合后特征的分类能力产生影响,而采用NAS的思想能够自适应地找到一个相对合适的融合方法,从而较好地解决该问题。

(2)基于双线性池化(Bilinear Pooling)的融合方法

双线性池化旨在通过计算两个不同模态表示向量的外积,获得两个模态的联合表示空间,在一定程度上将两个稠密向量映射到具有相似意义的联合空间。由于双线性池化计算了两个向量之间的外积,因此多用于文本与图像、图像与语音这两个不同模态间的融合。

与基于规则的融合提供了线性维度增长的新向量不同,双线性池化获得了一个平方形式的矩阵,其信息保持能力远大于前者。对双线性池化结果矩阵的再压缩,线性化为一个新的向量表示,该向量即为双线性池化方法所提供的向量融合结果。

由于对外积的计算需要较大的时间开销,低秩的计算方法成为该方向的一个研究热点。Liu等提出了一个能够融合多个模态的联合计算框架LMF(65),独立地获取每个模态的特征向量,对于每个特定的模态维护一个低秩向量因子,通过该因子快速地实现低秩特征融合,如图1.2.13所示。

图1.2.13 LMF通过维护低秩因子对多个模态进行融合(66)

(3)基于注意力机制(Attention Mechanism)的融合方法

注意力机制在深度学习中一直被广泛用于对因子间的相关性进行动态建模,而注意力同样能通过对不同模态特征的建模对多模态数据特征进行融合。

SAN是一种典型的使用注意力机制对多模态数据进行融合的范例(67),其模型框架如图1.2.14所示。对于图片问答任务,输入图像类型的图片数据,以及文本类型的问题数据,首先通过CNN类的深度模型对图像特征进行提取,每一个维度与通道都部分表征了图像中的信息。为了从这些特征中提取对于问答任务有效的信息,作者通过一维卷积或长短期记忆网络等文本表示模型提取问题中的特征向量。随后,将文本特征作为查询向量(Query),将图像特征视为注意力中的键值向量(Key/Value),使用注意力机制感知图像中对于回答问题更加有效的特征。最后使用加权的方式聚合两部分特征,从而实现对问题的回复文本的产生。

图1.2.14 SAN通过注意力机制对图像与文本特征进行融合(68)

除了传统的注意力机制直接应用外,采用门控单元也可以认为变相计算了注意力值。例如,John Arevalo等提出使用多模态门控单元(69)作为神经网络的内部计算部件,该单元通过学习不同模态如何对结果产生影响,对不同模态的特征输出进行打分,基于分数加权获得最终的表示向量,如图1.2.15所示。

图1.2.15 通过多模态门控单元对不同模态特征进行聚合(70)

值得注意的是,根据不同的设计与使用方法,注意力机制也可以分为软性注意力与硬性注意力、全局注意力或局部注意力等。中国科学技术大学、北京理工大学与微软亚洲研究院联合对深度神经网络中的注意力机制进行了经验性研究(71),发现不同注意力机制在如Transformer、Encoder-Decoder等结构中具有较大的差异性。这说明注意力机制在深度学习中的应用需要根据任务谨慎选择,如果选取了不适合具体任务的注意力类型与参数,可能对分类效果产生负面影响。考虑到这个问题,本书在进行多模态数据融合时,采用了上述基于规则的方法,对独立抽取的不同模态特征向量进行拼接,通过对每组模态的组合训练一个适配器的方式进行模态的融合。