1.4.6 多模态的表示学习

单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量;而多模态表示学习利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征。

联合表示(Joint Representation):将多个模态的信息一起映射到一个统一的多模态向量空间。CLIP和DALL·E使用简单的联合表示,如图1-10左图所示。

协同表示(Coordinated Representations):将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如迁移学习使用协同表示),如图1-10右图所示。

图1-10 多模态中的表示学习

在概率模型中,好的表示可以捕捉所观察到的输入数据的潜在变量的后验分布(可表示为pz|x),其中x为输入数据,z为潜在变量),也可以作为有监督预测器的输入。

表示学习实现了对实体和关系的分布式表示,具有显著提升计算效率、有效缓解数据稀疏、实现异质信息融合三大优势,对于知识库的构建、推理和应用具有重要意义。