学习-多模态机器学习
之前在阅读一篇流量分类领域的论文时,出现了"多模态机器学习"的概念,由于不是很了解,因此花时间进行一次学习。
考虑到本领域的综述依旧没有太大变动 本文结合了不同博文 1 2/论文,增补了一些细节。
1 概念
1.1 模态(Modality)
每一种信息来源的形式都是模态,例如一件物体,它可以被
- 看到
- 闻到
- 听到
- 摸到
- 雷达探测到
- 测温仪测到
以上每一种信息都是一种模态
除此之外,在实际使用中,以下情况也可以成为不同模态(泛化):
- 不同语言的数据集
- 不同视角下的数据集
模态之间大都是异质性的(heterogeneity)
1.2 多模态(Multimodal)
当一个研究问题/数据集包含上述的多种模态时,该问题就被成为多模态问题
1.2.1 多模态的意义
- 可以加强人工智能对周边事物的理解,可以填补由单种信息来源带来的不足
1.2.2 目标
- 它需要具备解释多模态信号的能力。
- 多模态机器学习致力于搭建能够处理和连接多模态信息的模型。
2 研究方向、挑战
- Representation 表征
- Translation 翻译
- Alignment 对齐
- Fusion 融合
- Co-learning 联合学习
2.1 Representation 表征
2.1.1 定义:Representation
A multimodal representation is a representation of data using information from multiple such entities.
2.1.2 困难:结合异质来源数据
例如:
- 如何结合文字和图片?
- 如何结合不同存储方式的内容?
- 如何填补数据缺失?
2.1.3 好表征的性质
- smoothness 平滑
- temporal and spatial coherence 时空一致性
- sparsity 稀疏
- natural clustering 表征自动聚类
- similarity in the representation space should reflect the similarity of the corresponding concepts 在表征空间的相似性应能够反映出表征所对应的概念的相似性
- the representation should be easy to obtain even in the absence of some modalities 即使在某些模态数据缺失的情况下,这种多模态的表征依旧能够轻松获得
- it should be possible to fill-in missing modalities given the observed ones 应能够在给出被观察到的其他模态的数据后,填补出缺失的模态数据
2.1.4 处理思路
两大研究方向:
- Joint Representations 联合表示
- Coordinated Representations 协同表示
细分表单:
未完
参考文献
[1] Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述
学习-多模态机器学习
https://tech.jasonczc.cn/2022/machine-learning/learn-multimodal-machine-learning/