Open rentainhe opened 3 years ago
相关文章:https://zhuanlan.zhihu.com/p/137735486
原图经过CNN的特征提取,得到了一个共有的Feature Map, 这个共有的Feature Map随后进行了两个操作,RPN以及ROI Pooling
两个分数 前景(物体)的分数,背景的分数
四个坐标 针对原图坐标的偏移,记住是原图!
首先我们的Feature Map相对于原图是缩放的,意味着随机取一点,映射到原图上,都会对应一个很小的框,但是这个框显然不能满足我们的需求,所以我们会把框的左上角当做一个anchor点或者框的中心作为anchor点,然后预先定义一系列的框,一般的定义如下:
这里是预先设定好的,共有9种组合,所以k等于9,最后我们的结果是针对这9种组合的,所以有H x W x 9个结果,也就是18个分数和36个坐标,将这些结果经过后处理映射回原图,就得到了我们的候选框,RPN的作用就是预测这些框是否对应物体或者是背景。
相关文章:https://zhuanlan.zhihu.com/p/137735486
前言
总体流程
原图经过CNN的特征提取,得到了一个共有的Feature Map, 这个共有的Feature Map随后进行了两个操作,RPN以及ROI Pooling
具体做法
两个分数 前景(物体)的分数,背景的分数
四个坐标 针对原图坐标的偏移,记住是原图!
关于anchor的理解
首先我们的Feature Map相对于原图是缩放的,意味着随机取一点,映射到原图上,都会对应一个很小的框,但是这个框显然不能满足我们的需求,所以我们会把框的左上角当做一个anchor点或者框的中心作为anchor点,然后预先定义一系列的框,一般的定义如下:
这里是预先设定好的,共有9种组合,所以k等于9,最后我们的结果是针对这9种组合的,所以有H x W x 9个结果,也就是18个分数和36个坐标,将这些结果经过后处理映射回原图,就得到了我们的候选框,RPN的作用就是预测这些框是否对应物体或者是背景。
总结