目标检测领域的滑动窗口算法

对象检测(Object Detection)的目的是”识别对象并给出其在图中的确切位置”,其内容可解构为三部分:

  • 识别某个对象(Classification);
  • 给出对象在图中的位置(Localization);
  • 识别图中所有的目标及其位置(Detection)。

本文将介绍滑动窗口这一方法.

滑动窗口

滑动窗口是这些方法中最暴力的一个.简单来说,就是暴力枚举侯选框的尺寸和位置,每次crop得到一张小图,将每个小图送进后面的分类器进行分类. 早年后面通常会接一个计算量比较小的分类器,比如SVM,随着算力的提升,现在常常后面会接CNN. 滑动窗口演示图

值得一提的是,原始的滑动窗口方法是将每个小图,分别放入后面的分类器.但是实际上,小图和小图之间,是有overlap的,也就是说做了很多重复的计算. 因此一个显然的改进是使用CNN来实现滑动窗口算法, CNN改进的滑动窗口算法

这种方法的优点是比较无脑,实现和理解起来都很简单.缺点是计算量还是比较大.

参考链接