AGQA:一个组合时空推理的基准
目录
摘要
1、视觉事件是时间行为的组合,行为是涉及参与者与对象的空间交互。在开发能够推理组合时空事件的计算机视觉模型时,我们需要能够分析进展和发现缺点的基准。
2、现有的视频答疑基准是有用的,但它们通常会将多个错误源合并为一个准确度指标,并且具有模型可以利用的强烈偏差,因此很难精确定位模型的弱点。
3、我们提出了行动基因组问答(AGQA),这是一个新的组合时空推理基准。AGQA包含9.6K视频的192M 个非平衡问答对。我们还提供了3.9M个问题-答案对的平衡子集,比现有基准大3个数量级,通过平衡答案分布和问题结构类型,将偏差最小化。尽管人类评估人员对86.02%的问题-答案对进行了正确的评分,但最佳模型的准确率仅为47.74%。
4、此外,AGQA引入了多个训练/测试分割,以测试各种推理能力,包括对新组合、间接引用和更多组合步骤的概括。
5、使用AGQA,我们评估了现代视觉推理系统,证明了最好的模型几乎没有比利用语言偏见的非视觉基线表现得更好,并且现有的模型都不能推广到训练期间看不到的新组合。
研究内容
视觉和语言理解的任务,如回答有关视觉输入的问题,可以测试模型的组合推理能力。
图1.我介绍了AGQA:一个新的测试组合时空推理的基准。AGQA包含一个平衡的 3.9M和一个不平衡的192M 问答,与9.6K视频相关。我们设计手工制作的程序,在时空场景图上运行,以生成问题。这些问题明确地测试了模型在多大程度上概括了训练过程中看不到的新组合(组合)、概念的间接引用以及更多的组合步骤。
老生常谈的问答题,
Q(问):“坐在右边的熊在做什么?”
A(答):“站起来”[18]。
一个模型无法回答这样的问题,这并不能让我们对模型的能力有更深入的了解。
由于答案分布的偏差和视觉事件发生的不均匀分布,模型可能会发展出“欺骗”方法,可以在不学习基本的组合推理过程的情况下,表面上猜测答案[37,56]。
为了有效地衡量模型在多大程度上共同构成了对对象、对象关系和时间行为的时空推理,我们需要更新的基准,对问题的构成和问答中概念的分布进行更精细的控制。为了衡量模型是否表现出组合时空推理,我们引入了(AGQA)。
提出的方法(AGQA基准)
图3.
(左:)我们的基准生成过程需要一个以时空场景图为输入的视频数据集。
(中:)我们手工制作程序,通过场景图生成问题和答案。
(右:)我们使用拒绝抽样来平衡生成的问题及其相应的答案,以避免模型可能利用的偏差。
我们的基准生成过程将带有注释的时空场景图的视频[19]作为输入,并生成一个平衡的问答对语料库(图3)。
首先,我们将动作基因组的时空场景图[19]和猜字谜的动作定位[47]整合并增强为符号视频表示。
接下来,我们手工在增强时空场景图上操作程序,并使用概率语法规则生成问题。
然后,我们通过减少答案分布和问题结构类型中的偏差,从而得到一个对“作弊”更稳健的平衡基准。
最后,我们创建了新的评估指标,使我们能够测试模型在多大程度上推广到新的组合、间接引用和更多组合步骤。
增强时空场景图
AGQA是使用在动作基因组的时空场景图上运行的程序生成的。
每个时空场景图都与视频相关联,包含基于视频帧的对象(如food, bottle),以及描述参与者与对象互动的空间关系(如above, behind)和接触关系(如carry, wipe携带、擦拭)[19]。我们用来自字谜数据集的动作(例如 running)来扩充动作基因组的时空场景图,并使用动作开始和结束时的时间戳进行定位[47]。
增强方法:为了使用这些场景图生成问题,我们通过指定动作和关系之间的蕴涵、结合关于动作顺序的先验知识、合并同义注释和删除注意关系来增强它们。
1、有些行为和关系,比如拿毯子和捻毯子,还需要其他关系,比如抱着和触摸。我们用这样的蕴涵关系来扩充场景图,以避免产生退化问题,比如“他们在拿毯子的时候碰到毯子了吗?”
2、我们创建了一些启发式方法,可以调整操作的开始和结束时间,以避免逻辑错误。例如,从某个地方拿枕头的动作通常会在下一个动作后结束,拿着枕头开始。使第一个动作在下一个动作开始之前结束。
3、为了避免生成一个答案的简单问题,我们使用共现统计数据来删除只出现在一个对象类别中的关系(例如关闭灯光)。我们还合并了对类似对象和行为的引用(例如吃三明治和吃一些食物),以便每个概念都由一个短语表示。
4、最后,我们删除了动作基因组注释中的所有注意关系(例如注视),因为我们的人类评估表明,评估人员无法准确辨别参与者的目光。
由此产生的时空场景图具有更清晰、统一和明确的语义。我们最终的本体使用了36个对象、44个关系和157个动作。共有7787个训练场景图和1814个测试场景图。
问题模板
为了从时空场景图中生成问答对,我们手工制作了一套程序,每个程序都与一个模板关联(见图3)。
每个模板都有各种自然语言问题框架,可以由场景图内容填充。例如,模板“他们做了什么<relationship><time><action>?”可能会产生这样的问题:“他们依偎在毯子上后整理了什么?”“他们在把东西放在桌子上之前带了什么?”为了回答这个问题,关联的程序会找到该操作,将某些内容放在一张表上,处理该操作之前的事件,找到关系发生的位置,最后查询对象。
这个生成过程将每个问题与推理技巧和用于回答问题的推理步骤数量相关联。
虽然回答我们的问题所需的一些时空推理技能来自现有语料库,但成功回答AGQA的问题需要现有基准中缺乏的各种新时空推理(见图2)。
图2. AGQA包含各种合成时空推理类型,这些类型在现有的纯视频语料库中不存在,包括动作持续时间、关系和动作之间的交互、动作顺序和逻辑组合。我们专注于需要视觉理解的问题,所以我们没有需要外部知识的问题。
对于每个问题,我们还跟踪其推理类型、语义类和结构。
1、开放式推理问题有许多可能的答案,而二元问题的答案是肯定/否、之前/之后,或指定为问题中两个选项之一(例如,携带或投掷)。
2、一个问题的语义类描述了它的主要主题,一个(1)对象;(2)关系;或(3)动作。
3、AGQA将问题分为五个结构类别:(1)查询所有开放式问题;(2) 为比较而比较(3)选择有两种选择的问题;(4) 验证对问题内容回答是或否的问题;(5)带有逻辑连词的逻辑问题。图4显示了这些类别的问题分布。
图4.我们将AGQA中的每个问题分为三种类别类型。推理类型区分回答问题所需的推理步骤。语义类型根据询问的对象、关系或动作来划分问题。问题结构类型表示问题的形式。我们还比较了AGQA和现有视频问答基准的问题长度分布。
我们手工制作了269个自然语言问题框架,可以从一组28个程序中回答。使用这些程序,我们生成了192M个问答对,超过45M个独立(唯一)问题和174个独立(唯一)答案。
平衡以最小化偏差
众所周知,机器学习模型擅长利用问答数据集中的不平衡[14,17,21]。我们通过平衡每个推理类别的基准答案分布和问题结构的分布来降低夸大的准确度分数。
我们用GQA[17]中描述的方法启发的方法来平衡答案分布。
其次,我们使用拒绝抽样来规范问题结构的分布。我们的模板生成的二进制问题比更难的查询问题多。我们平衡基准,使查询问题至少占基准的50%。我们进一步平衡了二进制答案问题,使得大约15%是比较问题,15%是选择问题,15%是验证问题,5%使用逻辑运算符。这种新的问题结构分布增加了基准测试的难度,并使所需推理技能的分布更加多样化。
我们的平衡程序将AGQA从一组不平衡的192M个问题-答案对减少到一个平衡的基准,有3.9M个问题-答案对。我们在补充资料中提供了详细的算法。
新组合时空分割
通过控制生成的问题集,我们可以衡量模型在不同推理技能、语义类和问题结构中的表现。我们还引入了一组新的训练/测试拆分,以测试特定形式的组合时空推理,这些推理需要推广到新的和更复杂的概念。
新颖的组合Novel compositions:为了测试模型是否能够解开不同的概念,并以新颖的方式将它们结合起来,我们手动选择一组只出现在测试集中的概念对。
间接引用Indirect references:问题中的语义类别可以直接引用(例如blanket, holding, and eating something毯子、拿着和吃东西),也可以间接引用(例如the object they threw, the thing they did to the laptop, and the longest action他们扔的东西、他们对笔记本电脑做的事情,以及最长的动作)。间接引用构成了我们增加组合步骤的核心方法。
更多组合步骤More compositional steps:为了测试模型是否推广到更多组合步骤,我们过滤训练集,以包含更简单的问题≤ M的组合步骤,例如“他们触碰了什么?”然后减少测试集,使其只包含>M个组合步骤的问题,例如“在拿瓶子之前,但在拍照、手机或瓶子之后,他们最后触摸了什么?”
文章贡献
我们贡献了AGQA,这是一个新的真实世界组合时空基准,比现有工作大3个数量级。组合推理是理解视觉事件的基础[31,38],最近被许多论文[49,57,59,13,24]所追求。
数据集
表1.AGQA比所有现有的VideoQA基准要大3个数量级。它包含真实世界的视频和带有动作、对象和关系基础的开放式回答问题。AGQA的问题侧重于视觉理解,不需要常识或对话理解。
结果
评估了三种最新的视频问答模型:PSAC[36]、HME[11]和HCRN[33]。
表2。尽管人类验证了86.02%的答案是正确的,但现代视觉模型在各种不同的推理技能、语义类和问题结构上都存在困难。事实上,HCRN表现的大部分增长来自利用语言偏见,而不是视觉理解。
对于大多数推理类别,HCRN的性能并没有超过其自身的纯语言版本(HCRN w/o vision)1.5%。
不同问题语义类别中的表现。对于围绕对象的问题,HCRN只比纯语言变体有所改进。
在问题结构类别中,HCRN的性能仅比纯语言变体高0.68%
图5.对于这三个模型,我们拟合了一个线性回归,发现准确性与用于回答问题的合成推理步骤数呈负相关。然而,这三项指标的R2得分都相对较弱:HCRN(.43)、HME(.24)和PSAC(.51)。这很可能是因为这三种模型的表现几乎都不超过最有可能的基线,即使是很小的定位步骤。人类验证研究的R2分数为0.09。点的大小与问题的数量相关,问题的步骤如此之多,模型的测试集大小缩小到1000倍。阴影区域是80%置信区间。