目录
论文地址:
https://arxiv.org/abs/2104.00403
代码地址:
https://github.com/MCG-NJU/TREG(尚未上传)
主要创新点:
本文建立目标模板和搜索图像的两个之间的关系,并用目标特征增强后的结果提升回归的精度。由于采取了局部(local)和密集匹配,目标的上下文的特征能够增强目标的相关信息,能够更好的定位bbox和处理一些目标形变。同时,还设计了一个简单的online更新机制提升实时的外观变化和几何形变的鲁棒性。
一、 动机
无锚跟踪器提供了一个有效的回归机制,但是这种回归不够精准。
二、 主要贡献
① 提出了一种精确的无锚跟踪器,通过专门设计一个目标转换回归分支(TREG)。对目标模板和搜索区域中元素之间的成对关系进行建模的优点使得TREG能够保持精确的边界信息并有效地处理对象变化。
② 通过建立一个基于置信度的模板队列,我们提出了一个简单的在线目标更新机制,使得跟踪器能够灵活地处理物体随时间的外观变化和几何变形。
③ 在包括VOT2018,VOT2019,LaSOT,TrackingNet,OTB,GOT10k,UAV123和NFS在内的八个基准数据集上,TREG优于流行的最先进的实时跟踪器,特别是在LaSOT上实现了0.640的成功率,同时以约30 FPS的实时速度运行。
三、 主要内容
TRGE整体架构:
TRGE由提取共同特征的主干、提取特定任务特征的分类特征提取器和回归特征提取器、定位目标中心和估计精确目标包围盒的多尺度分类模块和基于目标感知变换器的回归模块组成。其中UP Layer由两个卷积层和两个用来产生高分辨率特征的上采样层组成。分类头和回归头由一个卷积层和两个可变形卷积层组成。
用于回归的在线目标感知转换器(Online Target-aware Transformer for Regression)架构:
(a)目标感知变换器将搜索区域特征和池化后的目标特征作为输入,产生转换后的回归特征。两个核大小为1 × 1 × 1的三维Conv,分别对目标特征进行处理分别生成key值和value值。类似地,另一个核大小为1 × 1的2D Conv来处理搜索区域特征以产生query值。“⊗”表示矩阵乘法,“⊕”表示逐元素求和。‘Norm’表示按1/(t × h × w)的比例缩放。(2)在线模板更新机制通过维护一个大小为7的目标模板队列来实现,该队列由3个静态目标特征和4个基于分类置信度自适应选择的可靠在线目标更新特征组成。静态目标是通过对给定目标执行增强来获取的。在线目标存储器每n帧更新一次。在线样本栏将保留n个带有分类分数的目标特征。然后通过最大化来自样本栏的置信度得分来选择适当的在线目标。
Target transformed regression:
目标感知特征转换定义为:
Xi表示搜索区域中的位置,j是用特征表示tj列举目标模板中所有可能位置的索引。k索引目标队列中的模板,Ωk指定查询的目标模板中的特征单元。函数ω计算位置j处目标信号的表示,并作为值元素。成对函数A(tj,xi)描述了tj和xi之间的关系。A(tj,xi)的实现形式如下:
其中θ 函数将xi编码为query元素,φ 函数将tj编码为key元素。目标感知信息聚合是一种加权和。然后,加权和被缩放1/N以执行归一化。N是我们的目标队列中元素的总数,N为t × h × w,t是模板的数量,h和w是模板的大小。特别是,归一化因子1/(t × h × w)不是用Softmax函数代替。原因在于背景中的一些位置和搜索区域的干扰物与目标具有低相关性,而Softmax函数会放大这种噪声影响,因为查询和所有关键字之间的注意力权重之和总是1。此外,W表示特征变换,使查询的特征与xi的形状相同。yi是具有原始特征和检索表示的简单平均的目标变换表示。
如图3、目标感知变换器以搜索区域特征和ROI池化后的目标特征作为输入,其中搜索区域特征的空间尺寸为88 × 88,目标尺寸为5 × 5。函数φ和ω分别通过内核大小为1 × 1 × 1的3D卷积层实现。函数θ和W是核大小为1 × 1的2D卷积层。目标感知变压器操作是一个灵活的构建模块,可以很容易地插入到当前的无锚点跟踪器中。在块中只有4个核大小为1的卷积层需要离线训练。此外,我们可以保持一个可变大小的目标队列,它可以很容易地部署用于在线更新。
Online template update:
为了应对连续序列中的目标变化,我们提出了一种用于回归的在线模板更新机制,如图3(b)所示。在线方案的一个固有问题是被跟踪的对象可能不精确。追踪器因此被混淆并且倾向于漂移。在使用在线目标和静态目标之间进行权衡对于精确回归至关重要。因此,维护包括3个静态目标和4个在线目标的在线目标模板队列。通过对给定模板执行数据扩充来获取静态目标。在线目标存储器每n帧更新一次,其中n是更新间隔。由于跟踪的目标是不稳定的,我们设计了一种基于置信度的更新策略,自适应地选择可靠的目标模板。当在样本栏中的在线目标中预测到具有最大置信度的对象时,其模板将被添加到目标队列中。
四、 实验结果
基线:
DiMP和FCOT
离线训练数据集:
LaSOT, Track-ingNet, GOT-10k, COCO
评测数据集:
VOT2018, VOT2019 LaSOT, TrackingNet,UAV123, GOT10k, OTB100 NFS
30fps
在线训练:
对数据进行了增强,对第一帧进行了平移、旋转、模糊生产了15 个初始在线训练样本,用于在线分类。选择了3个样本作为静态目标(用于在线目标队列)。静态的由第一帧变换增强生成,动态的取每n帧中得分最高的 。