0
点赞
收藏
分享

微信扫一扫

《目标检测》YOLO、SSD简单学习


上一篇文章写了物体检测的二步走算法的介绍。这里我们看看端到端网络的模型。

R-CNN系列的算法,准确度高,但是处理速度慢。

端到端系列的算法,准确的稍微低,但是处理速度却极大提升。

《目标检测》YOLO、SSD简单学习_卷积

一:YOLO算法
这里不展开细讲,之前学习过的,可参考
https://zhuanlan.zhihu.com/p/32525231

YOLO算法提供的思路是,不需要额外的操作,不需要候选框,全部信息都是可以端到端训练得到。

二:SSD算法(Single Shot MultiBox Detector)

Faster R-CNN系列的算法准确率高,高在哪里?是因为有候选框,且经过微调后都是比较准确的了,只要CNN强大,分类也不是问题,因此整体的准确度高。
YOLO系列很快,快就是因为步骤简单,直接一个网络全部搞定,端到端,很快。

上面分析了YOLO存在的问题,使用整图特征在MM(默认是77)的粗糙网格内回归对目标的定位并不是很精准。那是不是可以结合Region Proposal的思想实现精准一些的定位?SSD结合YOLO的回归思想以及Faster R-CNN的anchor机制做到了这点。

网络结构如下:

使用VGG16为基础,利用前5个卷积层,后面从conv6开始再增加5个卷积,输入图像是300x300,且保留了conv6后面的每一层的特征图(VGG前五层conv后一共存在5个conv,所以后面会输出6个尺度的特征图)。

《目标检测》YOLO、SSD简单学习_SSD_02

上图是SSD的一个框架图,首先SSD获取目标位置和类别的方法跟YOLO一样,都是使用回归,但是YOLO预测某个bbox位置时候是使用的是全图的特征(感觉不太合理),但是SSD预测某个位置使用的是这个位置周围的特征(引入了预设的default box)(感觉更合理一些)。

SSD采用了在不同尺度特征图上的来预测大量的default bounding box的类别和位置信息。default bounding box就是Faster R-CNN中的anchor机制是一样的,都是预先设置的一些不同尺度和长宽比的框,预先设置的目的就是大致确定框范围的意思,后面会经过regressor微调和修正的。
这些不同层的卷积特征图上框,表示了不同尺寸的物体的检测,越靠前的卷积,感受野越小,看到的框也小点,越靠后的卷积,感受野越大,看到的框也大点。

我们仔细看下detector && classifier

这里融合了anchor的思想和YOLO的思想。

《目标检测》YOLO、SSD简单学习_卷积_03


《目标检测》YOLO、SSD简单学习_卷积_04


《目标检测》YOLO、SSD简单学习_卷积_05

SSD结合了YOLO中的回归思想和Faster R-CNN中的anchor机制,使用全图各个位置的多尺
度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster R-CNN一样比较精准。SSD在VOC2007上mAP可以达到72.1%,速度在GPU上达到58帧每秒。


举报

相关推荐

0 条评论