一、DETR简述
Transformers 是一种深度学习架构,近年来越来越受欢迎。它们依赖于一种称为注意力的简单而强大的机制,它使人工智能模型能够有选择地关注其输入的某些部分,从而更有效地推理。Transformer 已广泛应用于处理顺序数据的问题,特别是在自然语言处理 (NLP) 任务中,例如语言建模和机器翻译,并且还扩展到了各种任务,例如语音识别,符号数学, 和强化学习。但是,也许令人惊讶的是,计算机视觉还没有被 Transformer 革命席卷而来。
为了帮助弥合这一差距,我们正在发布检测变压器 (DETR),一种重要的目标检测和全景分割新方法。与以前的对象检测系统相比,DETR 完全改变了架构。它是第一个成功地将 Transformer 集成为检测管道中的核心构建块的对象检测框架。
DETR 与最先进的方法的性能相匹配,例如在具有挑战性的 COCO 对象检测数据集上完善且高度优化的 Faster R-CNN 基线,同时还大大简化和精简了架构。
DETR通过将常见的 CNN 与 Transformer 架构相结合,直接(并行)预测最终的检测集。在训练期间,二分匹配唯一地分配具有地面真值框的预测。没有匹配的预测应该产生“无对象”类预测。
DETR 提供了一种更简单、更灵活的管道架构,需要更少的启发式方法。使用基本架构块,推理可以归结为 50 行简单的 Python 代码。此外,由于 Transformer 已被证明是一个强大的工具,可以显着提高其他领域的模型性能,我们相信额外的性能提升和训练效率将通过额外的调整成为可能。
二、重新定义目标检测任务
DETR 将对象检测任务转换为 image-to-set 问题。给定一张图像,模型必须预测所有存在的对象的无序集合(或列表),每个对象由其类表示,以及围绕每个对象的紧密边界框。
这种配方特别适用于变形金刚。我们将卷积神经网络 (CNN) 与从图像中提取局部信息的卷积神经网络 (CNN) 与 Transformer 编码器-解码器架构相连接,该架构将图像作为一个整体进行推理,然后生成预测。
传统的计算机视觉模型通常使用复杂的、部分手工制作的管道,该管道依赖于自定义层来定位图像中的对象,然后提取特征。DETR 用更简单的神经网络取代了这一点,该网络为该问题提供了真正的端到端深度学习解决方案。
传统的两阶段检测系统,例如 Faster R-CNN,通过过滤大量粗略候选区域来预测对象边界框,这些候选区域通常是 CNN 特征的函数。每个选定的区域都用于细化步骤,其中包括在该区域定义的位置裁剪 CNN 特征,对每个区域进行独立分类,并细化其位置。最后,应用非最大抑制步骤来删除重复框。DETR 通过利用标准的 Transformer 架构来执行传统上特定于对象检测的(可能不可微分的)操作,从而简化了检测管道。
DETR 框架包括一个基于集合的全局损失,它通过二分匹配强制进行独特的预测,以及一个 Transformer 编码器-解码器架构。给定一组固定的学习对象查询,DETR 推理对象的关系和全局图像上下文以直接并行输出最终的预测集。以前使用诸如循环神经网络之类的架构进行对象检测的尝试要慢得多且效率较低,因为它们是按顺序而不是并行进行预测的。
Transformers 的自注意力机制允许 DETR 对图像以及预测的特定对象执行全局推理。例如,模型可能会查看图像的其他区域,以帮助对边界框中的对象做出决定。它还可以根据图像中对象之间的关系或相关性进行预测。例如,如果 DETR 预测图像包含站在海滩上的人,它就知道部分被遮挡的对象更有可能是冲浪板。相比之下,其他检测模型孤立地预测每个对象。
我们还展示了该管道可以扩展到相关任务,例如全景分割,其旨在分割不同的前景对象,同时从背景中标记所有像素。DETR 以真正统一的方式处理前景项目(如动物或人)和背景项目(如天空或草)。
三、在coco2017上的评估结果
Model | Backbone | AP | AP small | AP medium | AP large | FPS |
---|---|---|---|---|---|---|
Detr | Resnet-50 | 42.0 | 20.5 | 45.8 | 61.1 | 28 |
Detr-DC5 | Resnet-50 | 43.3 | 22.5 | 47.3 | 61.1 | 12 |
Detr | Resnet-101 | 43.5 | 21.9 | 48.0 | 61.8 | 20 |
Detr-DC5 | Resnet-101 | 44.9 | 23.7 | 49.5 | 62.3 | 10 |
我们报告了 coco 2017 验证集的平均精度(AP)。 所有模型都经过 500 个 epoch 的训练,时间是在 V100 上使用 torchscript 和批量大小为 1 获得的。
四、相关资源链接
源代码和预训练模型:
GitHub - facebookresearch/detr: End-to-End Object Detection with TransformersEnd-to-End Object Detection with Transformers. Contribute to facebookresearch/detr development by creating an account on GitHub.https://github.com/facebookresearch/detr 相关论文地址:
https://arxiv.org/pdf/2005.12872.pdfhttps://arxiv.org/pdf/2005.12872.pdf