Background

红外的特征存在细节弱,纹理弱等特点,而RGB图像则存在光照影响等问题,若是结合两种模态,可以利用红外的温度特性和光照的图像细节,来实现更鲁棒,更具应用的下游任务

Method

AE-Based

通过自编码器来获取特征,进行特征融合和下游任务

  • 修改融合规则
  • 修改模型结果

CNN-Based

CNN结构,获取特征,特征融合和图像增强

  • 优化CNN方法,利用不同模态特性
  • 损失函数,强调多尺度等学习
  • 模型结构,例如GNN等,或者架构搜索(NAS)

GAN-Based

生成图像,判别是否满足融合需求

  • 单一判别器,改进损失等,优化判别器
  • 双判别器,改进注意力等,保障判别器能判别原本的细节等

Transformer-Based

CNN+Transformer的模式来提取特征,进行多尺度的融合等,

Application

Object detection

融合的特征用于检测,检测的像素语义可以回馈融合

Semantic Segmentation

融合特征用于分割,考虑到语义信息和配准等

Data Compatible

存在非理想情况下的数据,例如两种模态没有对齐,配准等,偏向于真实问题的解决

Style Transfer-based Method

利用模态迁移网络(MTN)来转换模态,再生成对应的伪标签,通过空间变换网络(STN)预测空间位移

配准问题可以先解决,也可以不解决,而是融合后取出伪影

Latent Space-based Method

将不同模态迁移到一个与模态无关的空间,再进行配准和融合

Issue & Trends

  • 非对齐和网络攻击
  • 数据集
  • 评估指标
  • 复杂下游应用
  • 模型大小、时间复杂度

Conclusion

总结来说,通用的方法有两个:

  • 损失函数
    • 像素,评估指标,数据特性
  • 模型结构

二者都是适用于对不同模态进行某种特化,得到两种模态的差异特征,来促进融合

众多的模态细节和对细节的学习方法已经被摸索得大差不差,而新的方法说不定是一个角度,Diffusion Model ,Flow Model 甚至 VLLM 或许可以被应用在融合方向,适配更复杂的下游、统一

其次,模型的轻量化或许是个方向,若是融合图像由于视觉方案,一个可在边缘设备上应用的模型势必出现

所以总结下来两个方向:

  • 大一统,解决更多的视觉任务,更大的模型和设计,更多的模态参与,追求更高的性能,挖掘更具突破的特性
  • 实时、轻量化模型,追求边缘设备的计算和应用