Key Issue

Motivation

将特征进行拉普拉斯金字塔分解（Laplacian Pyramid decomposition），得到高频信息

L_{i} (x, y) = X_{i - 1} (x, y) - (G_{i} * h^{T}) (x, y),

其中，公式含义是做一次高斯滤波下采样（可逆的下采样变化），然后得到一个下采样结果，再上采样到原来的尺寸，并于原来的图像相减，得到没法在上采样时恢复的高频细节信息（因为模糊）

高频部分每一层取出来经过后续处理，低频部分（即每次高斯滤波的结果）继续往下做分解

再将高频信息通过多方向分解（DFB）得到多尺度的特征

B_{l, k} (x, y) = (X_{l} * f_{k}) (x, y),

通过这个卷积网络得到细节特征，用于后续的重建

像素重排，先通过卷积上采样 $r$ 倍，通道数提升到 $r^{2} \times C_{o u t}$ ，然后进行重排，的得到 $rH \times r W \times C_{o u t}$ 的最终图像

重建之后的图像用于后续的Prompt学习

利用CLIP来生成正负对，逻辑上是

Prompt是通过设置两个encoder，其中图像encoder是固定的，文本encoder是非固定的，输入一个文本向量，得到一个特征向量，并期望这个特征向量与图像特征向量相似，即得到正向（优质的）、负向（模糊的）的文本描述prompt

再让SR图像与正向的文本向量特征接近，与负向的远离

方法新颖，挖掘了图像特征，效果显著

但是论文混乱，或者行文逻辑差，应该是两种新方法叠一起，前后不搭