《目标检测》YOLO、SSD简单学习-CFANZ编程社区

上一篇文章写了物体检测的二步走算法的介绍。这里我们看看端到端网络的模型。

R-CNN系列的算法，准确度高，但是处理速度慢。

端到端系列的算法，准确的稍微低，但是处理速度却极大提升。

《目标检测》YOLO、SSD简单学习_卷积

一：YOLO算法
这里不展开细讲，之前学习过的，可参考
https://zhuanlan.zhihu.com/p/32525231

YOLO算法提供的思路是，不需要额外的操作，不需要候选框，全部信息都是可以端到端训练得到。

二：SSD算法（Single Shot MultiBox Detector）

Faster R-CNN系列的算法准确率高，高在哪里？是因为有候选框，且经过微调后都是比较准确的了，只要CNN强大，分类也不是问题，因此整体的准确度高。
YOLO系列很快，快就是因为步骤简单，直接一个网络全部搞定，端到端，很快。

上面分析了YOLO存在的问题，使用整图特征在MM（默认是77）的粗糙网格内回归对目标的定位并不是很精准。那是不是可以结合Region Proposal的思想实现精准一些的定位？SSD结合YOLO的回归思想以及Faster R-CNN的anchor机制做到了这点。

网络结构如下：

使用VGG16为基础，利用前5个卷积层，后面从conv6开始再增加5个卷积，输入图像是300x300，且保留了conv6后面的每一层的特征图（VGG前五层conv后一共存在5个conv，所以后面会输出6个尺度的特征图）。

《目标检测》YOLO、SSD简单学习_SSD_02

上图是SSD的一个框架图，首先SSD获取目标位置和类别的方法跟YOLO一样，都是使用回归，但是YOLO预测某个bbox位置时候是使用的是全图的特征（感觉不太合理），但是SSD预测某个位置使用的是这个位置周围的特征（引入了预设的default box）（感觉更合理一些）。

SSD采用了在不同尺度特征图上的来预测大量的default bounding box的类别和位置信息。default bounding box就是Faster R-CNN中的anchor机制是一样的，都是预先设置的一些不同尺度和长宽比的框，预先设置的目的就是大致确定框范围的意思，后面会经过regressor微调和修正的。
这些不同层的卷积特征图上框，表示了不同尺寸的物体的检测，越靠前的卷积，感受野越小，看到的框也小点，越靠后的卷积，感受野越大，看到的框也大点。

我们仔细看下detector && classifier

这里融合了anchor的思想和YOLO的思想。

《目标检测》YOLO、SSD简单学习_卷积_03