Background

红外的特征存在细节弱，纹理弱等特点，而RGB图像则存在光照影响等问题，若是结合两种模态，可以利用红外的温度特性和光照的图像细节，来实现更鲁棒，更具应用的下游任务

Method

AE-Based

通过自编码器来获取特征，进行特征融合和下游任务

修改融合规则
修改模型结果

CNN-Based

CNN结构，获取特征，特征融合和图像增强

优化CNN方法，利用不同模态特性
损失函数，强调多尺度等学习
模型结构，例如GNN等，或者架构搜索（NAS）

GAN-Based

生成图像，判别是否满足融合需求

单一判别器，改进损失等，优化判别器
双判别器，改进注意力等，保障判别器能判别原本的细节等

Transformer-Based

CNN+Transformer的模式来提取特征，进行多尺度的融合等，

Application

Object detection

融合的特征用于检测，检测的像素语义可以回馈融合

Semantic Segmentation

融合特征用于分割，考虑到语义信息和配准等

Data Compatible

存在非理想情况下的数据，例如两种模态没有对齐，配准等，偏向于真实问题的解决

Style Transfer-based Method

利用模态迁移网络（MTN）来转换模态，再生成对应的伪标签，通过空间变换网络（STN）预测空间位移

配准问题可以先解决，也可以不解决，而是融合后取出伪影

Latent Space-based Method

将不同模态迁移到一个与模态无关的空间，再进行配准和融合

Issue & Trends

非对齐和网络攻击
数据集
评估指标
复杂下游应用
模型大小、时间复杂度

Conclusion

总结来说，通用的方法有两个：

损失函数
- 像素，评估指标，数据特性
模型结构

二者都是适用于对不同模态进行某种特化，得到两种模态的差异特征，来促进融合

众多的模态细节和对细节的学习方法已经被摸索得大差不差，而新的方法说不定是一个角度，Diffusion Model ，Flow Model 甚至 VLLM 或许可以被应用在融合方向，适配更复杂的下游、统一

其次，模型的轻量化或许是个方向，若是融合图像由于视觉方案，一个可在边缘设备上应用的模型势必出现

所以总结下来两个方向：

大一统，解决更多的视觉任务，更大的模型和设计，更多的模态参与，追求更高的性能，挖掘更具突破的特性
实时、轻量化模型，追求边缘设备的计算和应用

ReMind

Recent Writing

A Brief Survey of Train-free Methods for Diffusion Models

Diffusion Model Deep understanding

Explorer

Infrared and Visible Image Fusion：From Data Compatibility to Task Adaption