Key Issue

  • 红外的特性没有被挖掘(更长的波长,更低的敏感性),现有方法对红外的增强只是次优
  • 神经网络的前传会导致高频细节丢失

Motivation

  • 高频细节丢失,那就特化一种图像处理变换来专门提取,多尺度的做特征学习
  • 提升红外图像的深度特征学习能力,可以用CLIP这种大模型来做

Method

  • 浅层特征提取模块
    • 基础卷积
  • 深层特征提取模块
    • Contourlet 变换 + 残差多尺度卷积
  • 高分辨率重建模块

Contourlet Residual

  • 空间自注意力
    • 不重叠窗口做局部自注意力
  • 通道自注意力
    • 不重叠窗口做通道自注意力
  • 空间前馈网络

Contourlet Residual

将特征进行拉普拉斯金字塔分解(Laplacian Pyramid decomposition),得到高频信息

其中,公式含义是做一次高斯滤波下采样(可逆的下采样变化),然后得到一个下采样结果,再上采样到原来的尺寸,并于原来的图像相减,得到没法在上采样时恢复的高频细节信息(因为模糊)

高频部分每一层取出来经过后续处理,低频部分(即每次高斯滤波的结果)继续往下做分解

再将高频信息通过多方向分解(DFB)得到多尺度的特征

通过这个卷积网络得到细节特征,用于后续的重建

Pixel Shuffle

像素重排,先通过卷积上采样倍,通道数提升到,然后进行重排,的得到 的最终图像

  • 轻量高效
  • 有学习有采样

重建之后的图像用于后续的Prompt学习

Prompt Learning

利用CLIP来生成正负对,逻辑上是

  • 先训练得到一个向量输出,与图像特征相近,也就是Prompt
  • 再用这个Prompt来训练重建模块,让重建的特征与这个相近

Prompt是通过设置两个encoder,其中图像encoder是固定的,文本encoder是非固定的,输入一个文本向量,得到一个特征向量,并期望这个特征向量与图像特征向量相似,即得到正向(优质的)、负向(模糊的)的文本描述prompt

再让SR图像与正向的文本向量特征接近,与负向的远离

Conclusion

方法新颖,挖掘了图像特征,效果显著

但是论文混乱,或者行文逻辑差,应该是两种新方法叠一起,前后不搭