多模态机器学习

多模态学习的分类

1.多模态表示学习

单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态表示学习是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。

主要包括两大研究方向：联合表示（Joint Representations）和协同表示（Coordinated Representations）

联合表示：将多个模态的信息一起映射到一个统一的多模态向量空间；
协同表示：负责将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束（例如线性相关）。

2.转化 Translation / 映射 Mapping

转化也称为映射，负责将一个模态的信息转换为另一个模态的信息。

常见的应用包括：

机器翻译（Machine Translation）：将输入的语言A（即时）翻译为另一种语言B。类似的还有唇读（Lip Reading）和语音翻译（Speech Translation），分别将唇部视觉和语音信息转换为文本信息。
图片描述（Image captioning) 或者视频描述（Video captioning)：对给定的图片/视频形成一段文字描述，以表达图片/视频的内容。
语音合成（Speech Synthesis）：根据输入的文本信息，自动合成一段语音信号。

模态间的转换主要有两个难点：

open-ended，即未知结束位，例如实时翻译中，在还未得到句尾的情况下，必须实时的对句子进行翻译；
subjective，即主观评判性，是指很多模态转换问题的效果没有一个比较客观的评判标准，也就是说目标函数的确定是非常主观的。

3.对齐（Alignment）

多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。

时间维度对齐：将一组动作对应的视频流同骨骼图片对齐。类似的还有电影画面-语音-字幕的自动对齐。

空间维度对齐：图片语义分割（Image Semantic Segmentation）：尝试将图片的每个像素对应到某一种类型标签，实现视觉-词汇对齐。

4.多模态融合（Multimodal Fusion）

多模态融合（Multimodal Fusion ）负责联合多个模态的信息，进行目标预测（分类或者回归），属于 MMML 最早的研究方向之一，也是目前应用最广的方向，它还存在其他常见的别名，例如多源信息融合（Multi-source Information Fusion）、多传感器融合（Multi-sensor Fusion)。

按照融合的层次，可以将多模态融合分为 pixel level，feature level 和 decision level 三类，分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。而 feature level 又可以分为 early 和 late 两个大类，代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的 hybrid 方法。

热门的研究方向：

视觉-音频识别（Visual-Audio Recognition）：综合源自同一个实例的视频信息和音频信息，进行识别工作。
多模态情感分析（Multimodal sentiment analysis）：综合利用多个模态的数据（例如下图中的文字、面部表情、声音），通过互补，消除歧义和不确定性，得到更加准确的情感类型判断结果。
手机身份认证（Mobile Identity Authentication）：综合利用手机的多传感器信息，认证手机使用者是否是注册用户。

难点：

如何判断每个模态的置信水平
如何判断模态间的相关性
如何对多模态的特征信息进行降维
如何对非同步采集的多模态数据进行配准等。