学习-多模态机器学习

之前在阅读一篇流量分类领域的论文时,出现了"多模态机器学习"的概念,由于不是很了解,因此花时间进行一次学习。

考虑到本领域的综述依旧没有太大变动 本文结合了不同博文 1 2/论文,增补了一些细节。

1 概念

1.1 模态(Modality)

每一种信息来源的形式都是模态,例如一件物体,它可以被

  • 看到
  • 闻到
  • 听到
  • 摸到
  • 雷达探测到
  • 测温仪测到
    以上每一种信息都是一种模态

除此之外,在实际使用中,以下情况也可以成为不同模态(泛化):

  • 不同语言的数据集
  • 不同视角下的数据集

模态之间大都是异质性的(heterogeneity)

1.2 多模态(Multimodal)

当一个研究问题/数据集包含上述的多种模态时,该问题就被成为多模态问题

1.2.1 多模态的意义

  • 可以加强人工智能对周边事物的理解,可以填补由单种信息来源带来的不足

1.2.2 目标

  • 它需要具备解释多模态信号的能力。
  • 多模态机器学习致力于搭建能够处理和连接多模态信息的模型。

2 研究方向、挑战

  • Representation 表征
  • Translation 翻译
  • Alignment 对齐
  • Fusion 融合
  • Co-learning 联合学习

2.1 Representation 表征

2.1.1 定义:Representation

A multimodal representation is a representation of data using information from multiple such entities.

2.1.2 困难:结合异质来源数据

例如:

  • 如何结合文字和图片?
  • 如何结合不同存储方式的内容?
  • 如何填补数据缺失?

2.1.3 好表征的性质

  • smoothness 平滑
  • temporal and spatial coherence 时空一致性
  • sparsity 稀疏
  • natural clustering 表征自动聚类
  • similarity in the representation space should reflect the similarity of the corresponding concepts 在表征空间的相似性应能够反映出表征所对应的概念的相似性
  • the representation should be easy to obtain even in the absence of some modalities 即使在某些模态数据缺失的情况下,这种多模态的表征依旧能够轻松获得
  • it should be possible to fill-in missing modalities given the observed ones 应能够在给出被观察到的其他模态的数据后,填补出缺失的模态数据

2.1.4 处理思路

两大研究方向:

  • Joint Representations 联合表示
  • Coordinated Representations 协同表示

细分表单:

未完

参考文献

[1] Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

[2] 多模态机器学习MultiModal Machine Learning (MMML)


学习-多模态机器学习
https://tech.jasonczc.cn/2022/machine-learning/learn-multimodal-machine-learning/
作者
CZY
发布于
2022年2月25日
许可协议