顾名思义,是针对RoI的池化操作
其特点是输入尺寸不一致,输出的尺寸一致
感兴趣区域的大小可能不一致,例如在目标检测中物体的大小不一定相同,但是神经网络全连接层要求输入的图片大小相同,所以要将RoI区域转化成大小相同的特征图
Pooling
先把 RoI 中的坐标映射到feature map上,映射规则比较简单,将区域分成固定数量的均匀网格,用每个网格单元中的最大像素作为该网格的输出,即最大池化(Max Pooling),输出目标尺寸的特征图
RoIAlign
是RoI Pooling技术的一种改进,最初在Mask R-CNN中引入,消除量化操作使用双线性插值技术对齐和采样RoI区域的特征图,提高了检测和分割任务的准确性
原理与优势
- 浮点坐标对齐 与RoI Pooling的坐标进行量化不同,直接采用浮点坐标表示,更加精确
- 双线性插值 用双线性插值采样作为网格的像素值