Mask-Free Video Instance Segmentation-CFANZ编程社区

（3）MaskFreeVIS是第⼀个获得⾼性能分割结果的⽆掩模VIS⽅法。MaskFreeVIS在不使⽤视频或注释的情况下，在具有挑战性的YTVIS2019基准上实现了42.5%的AP。我们的⽅法进⼀步扩展到更⼤的主⼲⽹，在没有视频掩码注释的情况下，在swing-l主⼲⽹上实现了55.3%的掩码AP。

三、方法

3.1 时间掩码一致性

视频描述了场景的连续变化。物体和背景移动、变形、被遮挡，经历光照变化、运动模糊和噪声，从⽽导致⼀系列通过逐渐变换⽽密切相关的不同图像。

场景中的⼀个⼩区域要么属于⼀个物体，要么属于背景。该区域投影对应的像素在每一帧中应该具有相同的掩膜预测，因为它们属于相同的底层物理对象或背景区域。然⽽，视频中的动态变化导致了实质性的外观变化，作为⼀种⾃然的数据增强形式。因此，对应于相同基础对象区域的像素在时间变化下应该具有相同的掩膜预测，这⼀事实提供了⼀个强⼤的约束，即时间掩膜⼀致性，可⽤于掩膜监督。

利用时间掩膜一致性约束的困难来自于在视频帧之间建立可靠对应的关系。

3.2 时间KNN-patch Loss

时间KNN-patchLoss(TK-Loss)是基于⼀种简单⽽灵活的跨帧对应估计。建⽴了1-k对应关系。这包括传统的⼀对⼀对应(K=1)，其中存在⼀个独特的定义良好的匹配。然⽽，这也允许我们在遮挡情况下处理不存在对应关系(K=0)的情况，在同⽣区域情况下处理⼀对多(K≥2)的情况。在发现多个匹配的情况下，由于它们的外观相似，这些最常属于相同的底层对象或背景。通过更密集的监督，这进⼀步有利于我们的mask⼀致性⽬标。⽅法如图，包含四个主要步骤。

（1）候选Patch提取

设X pt 表⽰在第 t 帧中以空间位置 p=(x,y)为中⼼的N × N ⽬标图像 Patch 。我们的⽬标是在第 t ´帧

中找到⼀组对应的位置 S p t → t ´ = {tpi}i ，表⽰相同的⽬标区域。⾸先在半径R 内选择候选位置 p ，使 kp − pk ≤R。这种带窗⼝的块搜索利⽤了相邻帧的空间邻近性，以避免穷尽的全局搜索。为了快速实现，并⾏地对所有⽬标图像块X pt 执⾏加窗搜索。

（2）时间knn匹配

通过简单的距离计算对候选补丁进⾏匹配，L2norm是最有效的补丁匹配指标。我们选择了patch距离最⼩的前K个匹配dt→tp→p。最后，通过强制执⾏⼀个最⼤的patch距离D作为dt→tp→p来去除低置信度的匹配对于每个位置p，从集合Spt→t→p→i}i进⾏匹配。

（3）一致性损失

设Mpt∈[0,1]表⽰⼀个对象的预测⼆进制实例掩码，在帧t中的位置p处求值。为了确保时间掩码⼀致性约束，对Spt→t}中⼀个时空点(p,t)与其估计的对应点之间的掩码预测不⼀致进⾏惩罚。

掩码的⼀致性是⽤

只有在两个预测都准确地表⽰背景 (Mpt=Mp-t-=0)或前景 (Mpt=Mp-t-=1) 时才会达到其最⼩值零。因此，⽬标不仅促进两个掩码预测达到相同的概率值Mpt=Mp-t- ，⽽且还承诺⼀定的前景或背

景预测。

（4）循环管连接

以循环的⽅式计算整个管的时间损失。起始帧连接到结束帧，这在时间上最遥远的两个帧之间引⼊了直接的⻓期掩码⼀致性。全管时间TK-Loss由式给出

循环损耗实现了类似的性能，但⼤⼤减少了实验部分验证的内存使用

3.3 训练MaskFreeVIS

（1）联合时空正则化

为了训练MaskFreeVIS，除了⽤于时间掩码⼀致性的temporal-poralKNN-patchLoss外，我们还利⽤现有的空间弱分割损失来联合强制帧内⼀致性。为了探索来⾃图像边界框和像素颜⾊的空间弱监督信号，我们利⽤具有代表性的Box投影损失Lproj和成对损失Lpair来代替监督掩码学习损失。投影损失Lproj强制对象掩模在图像的~x轴和~y轴上的投影p0与它的地真盒掩模⼀致。对于具有T帧的时间管，我们同时优化管as的所有预测帧掩模

D为骰⼦损失，p0为x/y轴⽅向的投影函数，Mpt和Mbt分别为第t帧下预测的实例掩码及其GT掩码。为清晰起⻅，这⾥省略了对象实例索引。另⼀⽅⾯，成对损失Lpair限制了单帧的空间相邻像素。对于具有颜⾊相似性>σ像素的位置p0i和p0j像素，强制其预测的掩膜标签⼀致，如下式:

空间损失与权重因⼦λ pair : 相结合

优化视频分割的整体时空⽬标Lseg 被总结为 :

（2）基于transformer的方法的集成

现有的关于无监督分割损失的⼯作与单阶段或两阶段检测器相耦合，并且仅解决单幅图像的情况。然⽽，最先进的VIS⽅法是基于变压器的。这些⼯作通过集合预测进⾏对象检测，其中在评估损失时，预测的实例掩码需要与掩码标注匹配。为了将⽆遮罩VIS训练与变压器相结合，⼀个关键的修改是在实例序列匹配步骤中。

作为初步尝试，⾸先从估计的实例掩码中产⽣边界框预测。然后，我们使⽤VIS⽅法中使⽤的顺序匹配成本函数。为了计算整个序列的匹配代价，在帧间平均每个单独的边界框的L1损失和⼴义IoU损失。然⽽，我们观察到帧平均的匹配结果很容易受到单个离群帧的影响，特别是在弱分割设置下，导致训练期间的不稳定和性能下降。时空盒掩码匹配没有使⽤前述的帧级匹配，⽽是凭经验找到了时空盒-掩码匹配，以在弱分割设置下产⽣实质性的改进。我们⾸先将每个预测实例掩码转换为边界框掩码，并将ground-truth盒转换为盒掩码。然后，我们分别从ground-truth盒掩码序列和预测盒掩码序列中随机采样等量的点。与Mask2Former不同，我们只采⽤骰⼦IoU损失来计算序列匹配成本。交叉熵累积了每个像素的误差，导致⼤⼩物体之间的值不平衡。相⽐之下，IoU损失是标准化的每个对象，导致⼀个平衡的度量。在消融实验中，研究了⽆掩模 VIS设置下不同的实例序列匹配策略。

（3）基于图像的MaskFreeVIS预训练

⼤多数VIS模型都是从COCO实例分割数据集上预训练的模型初始化的。为了完全消除掩模监督，我们仅使⽤无监督在COCO上预训练MaskFreeVIS。我们在单帧上采⽤空间⼀致性损失来代替Mask2Former中原始的GT掩码损失，同时基于相同的图像COCO培训设置。因此，我们在实验中提供了两种训练设置，⼀种是在训练过程中同时去除图像和视频蒙版，另⼀种是采⽤COCO蒙版注释预训练的权值。在这两种情况下，都没有使⽤视频掩模注释。

四. 数据集

在⼤规模的 YouTube-VIS2019和2021 上进⾏实验。 YTVIS2019 包括 2883 个视频， 131k注释对象实例，属于 40 个类别。为了处理更复杂的情况，YTVIS2021 更新了 YTVIS2019 ，增加了 794 个培训视频和129 个验证视频，包括更多令⼈困惑的运动轨迹轨迹。还在OVIS 上进⾏训练和评估， OVIS 是遮挡学习的VIS 基准。 OVIS 由覆盖 25 个类别的实例掩模组成，分别有607 个、 140 个和 154 个视频⽤于训练、有效和测试。

BDD100KMOTS进⼀步报道了⼤规模⾃动驾驶基准BDD100KMOTS 的 Mask-FreeVIS 结果。该数据集标注了154 个视频 (30,817 张图像 ) ⽤于训练， 32 个视频(6,475张图像 ) ⽤于验证， 37 个视频 (7,484 张图像 ) ⽤于测试。

五.消融实验

六. 结果

将MaskFreeVIS 与最先进的完全 / 弱监督⽅法在基准YTVIS2019/2021 、 OVIS， BDD100KMOTS 上进⾏⽐较。我们将MaskFreeVIS 集成到四种代表性⽅法上，在强基线上获得⼀致的⼤收益。

七. 结论

MaskFreeVIS是第⼀个在训练过程中不需要任何掩码注释的竞争性VIS⽅法。强有⼒的结果导致了⼀个显著的结论: 掩膜标签不是⾼性能 VIS 的必要条件。我们的关键组件是⽆监督的时间KNN-patchLoss ，它通过利⽤时间掩膜⼀致性约束取代了传统的视频掩膜损失。我们的⽅法⼤⼤减少了在四个⼤规模基准上完全监督和弱监督VIS 之间⻓期存在的差距。因此， MaskFreeVIS 为研究⼈员和实践者提供了许多标签⾼效VIS 的机会。