Background
红外的特征存在细节弱,纹理弱等特点,而RGB图像则存在光照影响等问题,若是结合两种模态,可以利用红外的温度特性和光照的图像细节,来实现更鲁棒,更具应用的下游任务
Method
AE-Based
通过自编码器来获取特征,进行特征融合和下游任务
- 修改融合规则
- 修改模型结果
CNN-Based
CNN结构,获取特征,特征融合和图像增强
- 优化CNN方法,利用不同模态特性
- 损失函数,强调多尺度等学习
- 模型结构,例如GNN等,或者架构搜索(NAS)
GAN-Based
生成图像,判别是否满足融合需求
- 单一判别器,改进损失等,优化判别器
- 双判别器,改进注意力等,保障判别器能判别原本的细节等
Transformer-Based
CNN+Transformer的模式来提取特征,进行多尺度的融合等,
Application
Object detection
融合的特征用于检测,检测的像素语义可以回馈融合
Semantic Segmentation
融合特征用于分割,考虑到语义信息和配准等
Data Compatible
存在非理想情况下的数据,例如两种模态没有对齐,配准等,偏向于真实问题的解决
Style Transfer-based Method
利用模态迁移网络(MTN)来转换模态,再生成对应的伪标签,通过空间变换网络(STN)预测空间位移
配准问题可以先解决,也可以不解决,而是融合后取出伪影
Latent Space-based Method
将不同模态迁移到一个与模态无关的空间,再进行配准和融合
Issue & Trends
- 非对齐和网络攻击
- 数据集
- 评估指标
- 复杂下游应用
- 模型大小、时间复杂度
Conclusion
总结来说,通用的方法有两个:
- 损失函数
- 像素,评估指标,数据特性
- 模型结构
二者都是适用于对不同模态进行某种特化,得到两种模态的差异特征,来促进融合
众多的模态细节和对细节的学习方法已经被摸索得大差不差,而新的方法说不定是一个角度,Diffusion Model ,Flow Model 甚至 VLLM 或许可以被应用在融合方向,适配更复杂的下游、统一
其次,模型的轻量化或许是个方向,若是融合图像由于视觉方案,一个可在边缘设备上应用的模型势必出现
所以总结下来两个方向:
- 大一统,解决更多的视觉任务,更大的模型和设计,更多的模态参与,追求更高的性能,挖掘更具突破的特性
- 实时、轻量化模型,追求边缘设备的计算和应用