0
点赞
收藏
分享

微信扫一扫

【计算机视觉】计算机视觉与模式识别关于目标检测的学术速递[10.25]

检测相关(5篇)

【1】 Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection

标题:解耦DETR:改进端到端目标检测的空间解缠定位和分类

https://arxiv.org/abs/2310.15955

DETR的引入代表了对象检测的新范式。然而,它的解码器使用共享查询和交叉注意层进行分类和框定位,导致次优结果。我们观察到,视觉特征图中的不同感兴趣区域适合执行查询分类和框本地化任务,即使是同一对象。显著区域为分类提供了重要信息,而它们周围的边界更有利于盒回归。不幸的是,这两个任务之间的这种空间错位极大地阻碍了DETR的训练。因此,在这项工作中,我们专注于在DETR中解耦本地化和分类任务。为了实现这一目标,我们引入了一个新的设计方案,称为空间解耦DETR(SD-DETR),其中包括一个任务感知的查询生成模块和一个解开特征学习过程。我们精心设计了任务感知查询的初始化过程,并在解码器中划分了交叉注意块,以允许任务感知查询匹配不同的视觉区域。同时,我们还观察到存在高分类置信度和精确定位的预测错位问题,因此我们提出了对齐损失来进一步指导空间解耦的DETR训练。通过大量的实验,我们证明了我们的方法在MSCOCO数据集相比以前的工作取得了显着的改善。例如,我们将条件DETR的性能提高了4.5 AP。通过在空间上解开这两个任务,我们的方法克服了错位的问题,大大提高了性能的DETR目标检测。

【2】 Query-adaptive DETR for Crowded Pedestrian Detection

标题:用于拥挤行人检测的查询自适应DETR

https://arxiv.org/abs/2310.15725

DEtection TRansformer (DETR) 及其变体 (DETRs) 已成功应用于拥挤的行人检测,取得了可喜的性能。 然而我们发现,在不同程度的拥挤场景下,必须手动调整DETR的查询数量,否则性能会出现不同程度的下降。 在本文中,我们首先分析了当前的两种查询生成方法,并总结了设计自适应查询生成方法的四个准则。 然后,我们提出基于排名的自适应查询生成(RAQG)来缓解该问题。 具体来说,我们设计了一个排名预测头,可以预测编码器生成的最低置信度正训练样本的排名。 基于预测的排名,我们设计了一种自适应选择方法,可以自适应地选择编码器产生的粗略检测结果来生成查询。 此外,为了更好地训练排名预测头,我们提出了软梯度 L1 损失。 Soft Gradient L1 Loss的梯度是连续的,可以粒度地描述损失值与模型参数更新值之间的关系。 我们的方法简单有效,可以插入任何 DETR 中,使其在理论上具有查询自适应性。 在 Crowd human 数据集和 Citypersons 数据集上的实验结果表明,我们的方法可以自适应地生成 DETR 查询并取得有竞争力的结果。 特别是,我们的方法在 Crowd human 数据集上实现了最先进的 39.4% MR。

【3】 Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection

标题:利用以视觉为中心的多模式专业知识进行3D目标检测

https://arxiv.org/abs/2310.15670

目前的研究主要致力于通过从基于LiDAR或多模态的同行(专家)转移的知识来提高仅摄像头的3D物体检测器(学徒)的准确性。然而,LiDAR和相机功能之间存在领域差距,加上时间融合中固有的不兼容性,严重阻碍了基于蒸馏的学徒增强的有效性。受单模态蒸馏成功的激励,一个学徒友好的专家模型将主要依赖于相机功能,同时仍然实现与多模态模型相当的性能。为此,我们引入VCD,一个框架,以改善只有摄像头的学徒模型,包括一个学徒友好的多模态专家和时间融合友好的蒸馏监督。多模态专家VCD-E采用与仅摄像机学徒相同的结构,以减轻特征差异,并在重建3D场景之前利用LiDAR输入作为深度,实现与其他异构多模态专家相当的性能。此外,一个细粒度的基于几何的蒸馏模块的目的是单独纠正场景中的每个对象的运动失调。通过这些改进,我们的摄像机专用学徒VCD-A以63.1%的NDS得分在nuScenes上创造了新的最先进水平。

【4】 GUPNet++: Geometry Uncertainty Propagation Network for Monocular 3D Object Detection

标题:GUPNet++:用于单目三维目标检测的几何不确定性传播网络

https://arxiv.org/abs/2310.15624

几何在单目3D目标检测中起着重要的作用。它可以通过使用物体的物理尺寸与图像平面中的2D投影之间的透视投影来估计物体深度,这可以将数学先验引入深度模型。然而,该投影过程也引入了误差放大,其中估计高度的误差被放大并反映到投影深度中。它会导致不可靠的深度推断,也会损害训练的稳定性。为了解决这个问题,我们提出了一种新的几何不确定性传播网络(GUPNet++)通过建模几何投影的概率方式。这确保了深度预测是有界的,并且与合理的不确定性相关联。引入这样的几何不确定性的意义是双重的:(1)。它在训练过程中对几何投影的不确定性传播关系进行建模,提高了端到端模型学习的稳定性和效率。(二)、它可以被导出为高度可靠的置信度,以指示3D检测结果的质量,从而实现更可靠的检测推断。实验表明,该方法不仅获得了(国家的最先进的)SOTA性能在基于图像的单目3D检测,但也表现出优越性的效率与简化的框架。

【5】 Salient Object Detection in RGB-D Videos

标题:RGB-D视频中的显著目标检测

https://arxiv.org/abs/2310.15482

鉴于深度感测采集设备的广泛采用,RGB-D视频和相关数据/媒体在日常生活的各个方面获得了相当大的吸引力。因此,在RGB-D视频中进行显著对象检测(SOD)是一种非常有前途和不断发展的途径。尽管这一领域的潜力,超氧化物歧化酶在RGB-D视频仍然有些不足的探索,与RGB-D超氧化物歧化酶和视频超氧化物歧化酶(VSOD)传统上孤立地研究。为了探索这一新兴领域,本文做出了两个主要贡献:数据集和模型。一方面,我们构建了RDVS数据集,这是一个新的RGB-D VSOD数据集,具有逼真的深度,其特点是场景的多样性和严格的逐帧注释。我们通过全面的属性和面向对象的分析来验证数据集,并提供训练和测试分割。此外,我们还介绍了DCTNet+,这是一个为RGB-D VSOD量身定制的三流网络,重点是RGB模态,并将深度和光流作为辅助模态。为了追求有效的特征增强、细化和融合以实现精确的最终预测,我们提出了两个模块:多模态注意模块(MAM)和细化融合模块(RFM)。为了增强RFM中的交互和融合,我们设计了一个通用交互模块(UIM),然后集成整体多模态注意路径(HMAP),以便在到达RFM之前改进多模态低级别功能。在伪RGB-D视频数据集上与我们的RDVS一起进行的综合实验突出了DCTNet+在17个VSOD模型和14个RGB-D SOD模型上的优越性。在伪RGB-D视频数据集和真实RGB-D视频数据集上进行了消融实验,以证明各个模块的优点以及引入真实深度的必要性。我们的代码和RDVS数据集将在https://github.com/kerenfu/RDVS/上提供。

举报

相关推荐

0 条评论