0x0. 摘要
这篇文章提出了两种新的方法,用于检测短篇社交媒体视频帖子中的***语义不一致,这些方法基于***对比学习(CL)和屏蔽语言建模(MLM)。由于缺乏大规模的公共数据用于多模态数据集的错误信息检测,作者从Twitter收集了16万个视频帖子,并利用自我监督学习来学习视觉和文本联合数据的表达式。
0x1. 引言与相关工作
随着时代和技术的发展,信息以及错误信息在各种平台上肆意传播,实际上,Vosoughi等人[1]在2018年发现,与包含真实事实的帖子相比,含有虚假信息的社交媒体帖子传播得更快,接触到的人也更多。随着短视频时代的到来,以及如TikTok、Instagram和微博等短视频时间媒体平台的出现,各种各样的信息包括错误信息实现了更快的传播。
然而对于解决社交媒体视频帖子中文本与视频内容信息不一致的问题存在两方面的挑战:a)有效地学习视频和文本的联合表示;b)缺乏一个大型的、标记的数据集来进行语义匹配。作者为了解决数据问题,从Twitter上收集了**16万**个社交媒体视频帖子,作为一个大型的自监督训练库,并引入了一个新的测试数据集,包括401个专业注释的视频,作为未来无监督和自监督错误信息检测方法的黄金标准。
有大量关于检测多模式语义不一致的文献。 Luo等人[2]利用大型预训练对比模型CLIP[3]的高效性,对基于检索的错误信息进行分类。虽然基于十亿参数规模模型的方法可以很强大,但许多用户没有机会获得训练这种模型所需的计算或数据。 最近,有几种方法被提出来用于检测图像和文本语义的差异。 Singhal等人[4]利用学习到的联合嵌入空间,但是需要数据中的标记阳性和阴性,并且专门限制在新闻领域。Pan等人[5]和Mayank等人[6]明确关注文本描述,使用基于知识图谱的方法检测假新闻。 Tan等人[7]和Fung等人[8]专注于使用文本、图像和知识元素提取检测合成的新闻。虽然这些方法在存在配对和未配对的语义图像和文本的大型标记数据集的情况下是可行的,但它们不能很好地转移到更复杂和稀疏标记的视频领域。
在视频/文本领域,Shang等人[9]使用TikTok视频中的视频、au-dio、文本和元数据,通过融合预训练模型的特征来检测误导性COVID-19视频帖子。 然而,Shang等人并没有利用表征学习的力量,他们的方法需要严格的监督,导致在低资源领域的泛化问题。 McCrae等人[10]从一个新闻帖子中提取视频、文本和命名的实体信息,并利用随机排列的数据进行前言任务学习,监督一个基于LSTM的模型。不幸的是,由于该方法在每个关键帧通过连接直接融合了视频和文本,而没有学习视频和文本的联合模型,该模型无法建立复杂的联合表征。
在本文中,介绍了McCrae等人的一个扩展,它通过利用自我监督的表征学习,解决了表面联合表征的问题。通过利用自我监督的表征学习 在对比学习和遮蔽语言的形式下,解决了联合表征的表面问题。模型来对视频和语言进行联合建模。
0x2. 方法
对于错误信息检测的整体流程如下图。 给定一个由视频和相应的文本描述组成的视频帖子,首先使用预训练的模型来提取视频和文本特征。 对于文本特征,s∈R768,作者使用BERT,在MLM任务上进行了预训练。 对于视频特征,v= (v1,…vn) vi∈R512,将每秒10帧的视频分成32个片段,并使用S3D对活动识别进行预训练,在每个视频片段提取一个视频特征。 作者探索了2种不同的方法来模拟视频-语言联合表示和检测错误信息。
0x2.1 Constrastive Learning(CL)
第一种方法使用对比学习来建立视频和文本的表征空间,如下图所示。首先使用一个**Transformer encoder** [14]来收集视频特征vi∈R512中的所有信息。 使用Transformer可以进行长程表征学习,而不是LSTM,后者存在许多遗忘问题。 将转化器编码器的输出h1…n通过平均池化并汇集起来,得到一个视频特征vall。
获得的视频特征的维度是512维,而文本特征的维度是768维,通过下面公式操作,将两种特征转化为统一维度P。
用余弦损失函数来对vall和s进行计算,具体公式如下。给定两个特征vall和s及其标签y,0代表匹配,1代表不匹配,余弦嵌入损失Lcos鼓励匹配样本之间的余弦距离小于余弦,未匹配的样本大于余弦。
为了进行错误信息检测,作者将v’all和s’串联起来,然后通过MLP进行对错误信息侦查。其中运用了双向交叉熵损失LBEC,具体公式如下。
0x2.2 Masked Language Modeling(MLM)
第二种方法,如下图所示,使用**BERT中提出的Masked Lan-guage Modeling(MLM)**的一个变体来模拟视频和文本的联合分布。 作者训练一个Transformer,以接近每个文本标记在其文本背景和视频中的最大对数可能性。
为了对数据进行建模,与BERT一样,作者使用WordPiece对文本描述中的每个词进行标记,词汇量为30522,并使用学习过的文本嵌入法进行嵌入,得到标记嵌入t1…m∈R768。 使用一个2层MLP将我们的视频特征v1…n投射到相同的维度R768上。进一步在序列的末尾附加一个学习过的分类令牌[CLS]∈R768,以通过编码提取所有视频-文本信息。然后,用一个特殊的令牌[MASK]随机替换文本令牌,每个令牌的概率为45%。 构建整个输入嵌入序列为:
接下来,将学到的positional embeddings添加到的输入嵌入序列中,以捕捉视频和文本中的时间顺序。然后,在输入嵌入序列上应用一个具有隐藏维度768、前馈维度1024和12层的Transfomer,以接收隐藏状态h1…(n+m+1) ∈ R768,最后将其投射到词汇量大小为R30522的维度。在训练过程中,要求模型重建被替换的原始文本标记,以学习每个词在社交媒体视频帖子的上下文中的分布。作者使用交叉熵重建作为的掩码语言建模损失,LMLM。
变换器输出的最后一个隐藏状态hn+m+1是[CLS]标记的相应输出。 进一步在hn+m+1上应用分类头,并使用与2.1节相同的方法计算二元交叉熵损失。 最终损失Lall是我们的屏蔽语言建模损失和二进制交叉熵损失的平均值。
0x3. 实验
由于缺乏公开可用的标记数据集,作者使用Twitter API收集我们自己的数据集。在2021年的时间范围内收集了16万条英文推文,并由Twitter提供语言标签。 这些推文包含长度从1秒到10分钟不等的视频,平均长度为44秒,以及一个简短的文本描述。**为了生成弱监督标签,将收集到的16万条推文中的所有视频和文本描述视为匹配的视频和文本对。通过将一个视频的文本描述与数据集中的另一个文本描述随机对调,创造了不匹配的、语义不一致的视频和文本对。 这种随机互换的程序可能会产生错误的信息,包括音调/主题的转变、交流/物体的不匹配和其他问题,但也可能产生假阳性。**该数据集被分成平衡的训练/验证/测试部分,分别为128k/16k/16k样本。
为了与以前的工作进行比较,作者在训练集上使用视频片段的第一帧作为其图像输入,对CLIP进行了微调,并实现了McCrae等人的模型,没有Facebook帖子反应的输入。作者通过在我们的随机交换数据集上训练和测试来评估所有的方法。如下表所示,在明确的视频和文本联合建模的情况下,文章所提出的两种方法在准确性上都比McCrae等人的方法要好8%∼35%。
为了衡量模型在野外(现实世界)对错误信息的表现,作者创建了一个有标签的推文测试集。四位专家注释者被邀请使用从最初的16万条推文的测试部门中抽出的视频和文本对进行标签。 在标注过程中,如果文本描述与视频内容相匹配,则视频和文本对被认为是匹配的,否则就是不匹配的。标记的测试集包含401条推文,其中84条不匹配,317条匹配。 所有模型在这个数据集上的表现都显示在表2中。 从中可以看到Contrastive Learning在准确率上比的方法高出3%,而MLM总体表现最好,在准确率上比Contrastive Learning高出5.23%。 作者推测,使用MLM的模型的测试准确率的提高可能是由于(a)将所有的视频和文本标记送入转化器,使文本标记和视频直接关注对方,以更好地模拟它们的关系;(b)与Lcos的对比学习相比,LMLM使模型对数据集的偏差更有弹性,因为其计算不依赖于匹配/不匹配的随机交换标签。 因此,使用MLM的模型对这种从随机交换的训练数据集到现实生活中的错误信息集的分布变化更加稳健。
在表3中比较了作者提出的带有和不带有表示空间的方法。有表示空间的模型在两个数据集中都比没有表示空间的模型取得了更高的准确性。值得注意的是,表征空间使我们的模型在标记数据集上的准确率提高了5%以上,这表明联合表征训练对野外表现至关重要。
0x4. 总结
在这项工作中,引入了两种新的视频和文本联合建模方法,旨在检测社交媒体视频帖子中的错误信息。 作者提出的新方法与最先进的方法相比,在随机交换和野外数据中都有明显的改进。虽然利用自我监督的多模式联合表征学习已经显示出很大的改进,但实验也证明,它仍然容易受到真实世界虚假信息的复杂错配。未来的工作包括开发更高保真度的联合表征。
0x5. 个人总结
这篇文章是关于misinformation detection中少有的数据涉及了视频的,可能是现在确实太缺乏关于视频的数据集了吧。但是好像作者自己爬的数据集好像并没对外公开,所以数据集还是得自己去收集了。文章所提出了的两种模型实际上只是借助了对比学习和MLM两种经典结构,我觉得是一种炒冷饭的操作,但是实验的效果确实很好。文章中的两个模型框架属于比较简单的,但是文章中对应的框架图画的实在是太随意了,文章中很多细节都没有在对应的图中体现出来。文章最启发我的地方是作者对数据集的处理,通过随机打乱的方式来实现文本信息和视频信息不一致的效果,虽然其中可能存在某些偶然因素,但是这波操作实在是太妙了!