顾名思义,是针对RoI的池化操作

其特点是输入尺寸不一致,输出的尺寸一致

感兴趣区域的大小可能不一致,例如在目标检测中物体的大小不一定相同,但是神经网络全连接层要求输入的图片大小相同,所以要将RoI区域转化成大小相同的特征图

Pooling

先把 RoI 中的坐标映射到feature map上,映射规则比较简单,将区域分成固定数量的均匀网格,用每个网格单元中的最大像素作为该网格的输出,即最大池化(Max Pooling),输出目标尺寸的特征图

RoIAlign

是RoI Pooling技术的一种改进,最初在Mask R-CNN中引入,消除量化操作使用双线性插值技术对齐和采样RoI区域的特征图,提高了检测和分割任务的准确性

原理与优势

  • 浮点坐标对齐 与RoI Pooling的坐标进行量化不同,直接采用浮点坐标表示,更加精确
  • 双线性插值 用双线性插值采样作为网格的像素值