PARADE: Passage Representation Aggregation for Document Reranking翻译
Abstract
经过预训练的transformer模型,如BERT和T5,已证明在特殊通道和文档排序方面非常有效。由于这些模型固有的序列长度限制,它们需要遍历文档的段落,而不是一次处理整个文档序列。虽然已经提出了几种聚集通道级信号的方法,但这些技术尚未进行广泛的比较。在这项工作中,我们探索了将文档段落中的相关性信号聚合为最终排名分数的策略。我们发现,与之前的研究中提出的技术相比,文章表征聚合技术可以显著提高,例如获得最大文章分数。我们称这种新方法为PARADE。特别是,PARADE可以显著改善具有广泛信息需求的集合的结果,其中相关性信号可以在整个文档中传播(例如TREC Robust04和GOV2)。同时,不太复杂的聚合技术可能会更好地用于信息需求通常可以精确定位到单个通道的集合(例如TREC DL和TREC Genomics)。我们还进行了效率分析,并重点介绍了几种改进基于转换器的聚合的策略。
1 Introduction
预训练语言模型(PLM),如BERT[19]、ELECTRA[12]和T5[59],已经在标准的ad-hoc检索基准上取得了最先进的结果。PLMs的成功主要依赖于使用transformer-encoder架构学习输入序列的上下文表示[68]。Transformer使用一种自我注意机制,其计算复杂度与输入序列的长度成二次关系。因此,PLM通常限制序列的长度(例如,512个令牌),以减少计算成本。因此,当应用于特别排名任务时,PLM通常用于预测段落或单个句子的相关性[17,80]。最大还是k-max然后将最大文章分数(例如,前三名)进行汇总,以生成文档相关性分数。这些方法在各种ad-hoc检索基准上取得了最新的成果。
然而,文档往往比一篇文章长得多,直观地说,有许多类型的相关性信号只能在完整的文档中观察到。例如,Verbosity Hypothesis[60]指出,相关摘录可以出现在文档中的不同位置。不一定可以只考虑最上面的段落来解释所有这些摘录。同样,段落的顺序本身可能会影响文件的相关性;从直觉上看,一个开头有相关信息的文档比结尾有相关信息的文档更有用[8,36]。实证研究支持完整文档信号的重要性。Wu等人研究了段落级相关标签与文档级标签的对应关系,发现相关文档越多,相关段落的数量也越多[73]。此外,实验表明,聚合文章级别的相关性分数来预测文档的相关性分数,优于使用最高文章分数(例如[1,5,20])的常见做法。
另一方面,文档中非相关信息的数量也可以是一个信号,因为相关摘录在理想文档中占很大一部分。IR公理在第一个长度规范化约束(LNC1)中对这一思想进行了编码,该约束规定向文档中添加不相关的信息会降低其分数[21]。将完整文档视为输入可能会包含这样的信号。此外,从训练监督排序模型的角度来看,将文档级相关性标签应用于单个段落的常见做法是不可取的,因为这会在训练过程中引入不必要的噪音。
在这项工作中,我们提供了一个广泛的研究神经技术聚合通道级信号到文件分数。我们研究了如何将BERT和ELECTRA等PLM应用于ad-hoc文档排序任务,同时保留许多文档级别的信号。我们超越了简单的段落分数聚合策略(如Birch[80]),研究段落表征聚合。我们发现,使用CNN和transformers等体系结构的段落表示聚合优于段落分数聚合。由于全文的使用增加了内存需求,我们研究使用知识提炼来创建更小、更有效的段落表示聚合模型,从而保持有效性。总之,我们的贡献是:
- 将段落分数和表示聚合策略的形式化,展示如何对其进行端到端培训,
- 在各种基准数据集上对段落聚合策略进行彻底比较,展示段落表示聚合的价值,
- 分析了如何通过减小模型大小来降低基于Transformer的表示聚合的计算成本,
- 分析基于转换器的表示聚合的有效性如何受到所考虑的通道数的影响
- 对数据集特征的分析,这些特征可能会影响哪些聚合策略在某些基准上最有效。
2 相关工作
我们回顾了与本研究相关的四项研究。
**IR的语境化语言模型。**已经提出了几种神经排序模型,如DSSM[34]、DRMM[24]、(Co-)PACRR[35,36]、(Conv-)KNRM[18,74]和TK[31]。然而,由于依赖预先训练过的unigram嵌入或使用较短的n-gram窗口,它们的上下文能力受到限制。得益于BERT预先训练的上下文嵌入,基于BERT的IR模型已被证明优于这些先前的神经IR模型。我们在此简要总结相关方法,并请读者参考Lin等人[46]关于文本排名变压器的调查,以了解更多细节。这些方法在交叉编码器配置中使用BERT作为相关分类器(即,BERT将查询和文档都作为输入)。Nogueira等人首先采用BERT的[CLS]向量,将BERT用于段落重排任务[56]。Birch[80]和BERT MaxP[17]分别探讨了如何使用BERT的句子级和段落级关联分数来重新排列文档。CEDR提出了一种联合方法,将伯特的输出与现有的神经IR模型相结合,并通过表示聚合技术(平均)处理通道聚合[53]。在这项工作中,我们进一步探索技术的通道聚合,并考虑改进的CEDR变种作为基线。我们通过采用更复杂的策略,包括使用CNN和transformers,关注未充分探索的表征聚合方向。
其他研究人员通过利用PLM改进文档索引[16,58],预计算中间变压器表示[23,37,42,51],使用PLM构建稀疏表示[52],或减少变压器层的数量[29,32,54],来权衡PLM的有效性和效率。
最近有几项工作研究了通过降低注意力模块的计算复杂度来提高变压器效率的方法,例如稀疏变压器[11]和Longformer[4]。QDS Transformer将Longfer调整为具有查询导向的稀疏注意力的排名任务[38]。我们注意到,基于表示的段落聚合比使用上述模型增加输入文本大小更有效,但表示聚合可以与此类模型结合使用。
**基于段落的文档检索。**凯伦首先尝试了基于段落和基于窗口的段落定义方法[7]。有几项工作在语言建模上下文[5,48]、索引上下文[47]和学习排序上下文[63]中推动基于段落的文档检索。在神经网络领域,HiNT证明,在pre-BERT模型的背景下,段落级相关性的聚合表示可以很好地执行[20]。其他人研究了复杂的证据汇总方法[82,83]。Wu等人根据位置衰减、通道长度、长度与位置衰减、精确匹配等明确建模了通道的重要性[73]。在一项同期研究中,他们提出了一个模型,该模型考虑了相关性的段落级别表示,以便预测每个段落的段落级别累积增益[72]。在这种方法中,最后一段的累积增益可以用作文档级的累积增益。我们的方法有一些相似之处,但它们的不同之处在于,它们使用段落级别标签来训练模型,并使用LSTM执行段落表示聚合。
**NLP的表示聚合方法。**表征学习已被证明在许多NLP任务中非常有效[6,50]。对于预先训练的语言模型,文本表示是通过向PLM输入格式化文本(如[CLS]TextA[SEP]或[CLS]TextA[SEP]TextB[SEP]来学习的。最后一层中预加[CLS]标记的向量表示随后被视为文本整体表示或文本关系表示。对于需要从多个证据范围进行推理的任务,也可以对此类表示进行聚合。Gear通过max aggregator、mean aggregator或attention aggregator汇总索赔证据陈述,以进行事实检查[83]。Transformer XH使用额外的跳注意,不仅在序列中,而且在序列间共享信息[82]。然后,将学习到的表示用于问题回答或事实验证任务。有几项工作探索了文档分类和摘要的层次表示法,包括基于Transformer的方法[49,78,81]。在排名的背景下,长到长文本匹配模型SMITH[76]学习了具有层次句子表示聚合的文档表示,这与我们的工作有一些相似之处。SMITH不是学习独立的文档(和查询)表示,而是一种双编码器方法,可以为每个文档学习单独的表示。虽然这种方法具有效率优势,但目前的bi编码器与交叉编码器的效率不匹配,交叉编码器是我们工作的重点[46]。
**知识提炼。**知识提炼是将知识从大型模型转移到小型学生模型的过程[2,27]。理想情况下,学生模型在包含较少参数的情况下表现良好。一项研究调查了BERT模型[39,64]中中间层的特定提取目标的使用,该模型在IR环境中被证明是有效的[9]。Turc等人预先训练了一系列紧凑的BERT模型,并探索从大型微调模型中转移任务知识[67]。Tang等人将伯特模型中的知识提取到BiLSTM中[66]。Tahami等人提出了一种新的交叉编码器体系结构,并将知识从该模型转移到双编码器模型,以实现快速检索[65]。Hofstätter等人还提出了一个跨体系结构的知识提取框架,该框架以两两训练的方式使用边际均方误差损失[28]。我们证明了[65,66]中的方法可以应用于我们提出的表示聚合方法,以提高效率,而不会大幅降低效率。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lGgMrWmC-1648965160946)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648901181464.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0QKpUMp4-1648965160948)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648901196531.png)]
图1:分数聚合方法和PARADE的表示聚合机制之间的比较。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nRey3r02-1648965160949)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648901218082.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WAg6g1X4-1648965160949)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648901230074.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kKslYrLw-1648965160950)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648901243620.png)]
图2:表示聚合器将段落[CLS]表示作为输入,并输出最终的文档表示。
3 方法
在这一节中,我们将把段落表达形式化为文档排名分数。我们将之前工作中探讨的段落分数聚合技术与段落表示聚合(阅兵式)技术进行了区分,后者在文档排名中受到的关注较少。给出一个问题q还有一份文件D, 排名方法旨在生成相关性得分rel(q,D)这估计到什么程度D满足查询q. 如以下章节所述,我们通过将段落级相关性表示聚合为文档级表示来进行相关性估计,然后使用文档级表示生成相关性得分。
3.1创造段落关联表达
如第1节所述,由于固定序列长度的限制,长文档不能直接由BERT模型1考虑。与之前的工作[7,17]一样,我们将文档拆分为可以由BERT单独处理的段落。为此,将225个标记的滑动窗口应用于文档,跨步为200个标记,正式表示为D={P1…Pn}哪里n是段落数。然后,将这些段落作为BERT模型的输入进行相关性估计。
后工作[56]之前,我们将查询q和段落pi搭配[9]在令牌[SEP]和另一个[9]令牌[SEP]之间。特殊(CLS)令牌也是前缀,在最后一层对应的输出作为关联参数化表示Pcls i∈Rd,表示如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8A0HyIBL-1648965160951)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648901828728.png)]
3.2分数聚合和表示聚合比较
之前的方法,如BERT MaxP[17]和Birch[80]使用前馈网络预测每个段落表示的相关性分数pcls i, 然后使用分数聚合方法将其聚合为文档相关性分数。图1a展示了常见的分数聚合方法,如最大池(MaxP)、总和池、平均池和k-max池。与分数聚合方法不同,我们提出的表示聚合方法通过直接聚合段落表示生成总体文档相关性表示(见图1b)。我们将在以下部分中介绍表示聚合器。
3.3聚合段落表示
给定段落相关性表示Dcls={pcls 1,…,pcls n},PARADE总结了Dcls在一个单一的密集表示d cls∈Rd使用了几种不同的方法。如图2所示。
PARADE–MAX对段落相关性功能在Dcls,使用强大的最大池操作. 作为卷积神经网络中的一种广泛应用,最大池在获取位置不变特征方面被证明是有效的[62]。在此,每个元素索引j在dcls是是通过对同一索引上的段落相关性表示进行元素最大池操作获得的。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6YOZ9uCV-1648965160951)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648902223388.png)]
PARADE—Attn每一段对文档与查询的相关性的贡献是不同的。了解文章重要性的一个简单而有效的方法是应用前馈网络预测文章权重:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SoXbXlwe-1648965160952)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648902280267.png)]
softmax是标准化函数;w∈ Rd是一个学习的权重。
为了研究的完整性,我们还引入了PARADE—Sum简单地对段落相关性表示进行求总和。这可以被视为手动为所有段落分配相等的权重(即,wi=1). 我们还介绍了另一个PARADE—AVG与文档长度规范化相结合.(即,wi
=1/n).
PARADE—CNN以分层的方式运作,将卷积神经网络(CNN)的层堆叠起来,窗口大小为푑×2和2的步幅。换句话说,CNN过滤器对每一对段落表示都进行操作,没有重叠。具体来说,我们堆叠了4层CNN,将每层中的表示数减半,如图2b所示.
PARADE–Transformer能够通过采用transformer编码器[68]以分层方式进行交互。具体来说,BERT的[CLS]令牌嵌入和所有pclsi连接,从而产生一个输入xl=(emb cls, p cls1…Pcls n) transformer层使用它来利用通道之间的顺序和依赖关系。就是,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a6ZPJgBc-1648965160953)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648902598428.png)]
其中LayerNorma是[3]中介绍的分层标准化,MultiHead是MultiHead self attention[68],FFN是两层前馈网络,中间有一个ReLu激活。
如图2c所示,最后一个Transformer输出层的[CLS]向量被视为查询和整个文档之间相关性的集合表示,被视为dcls。
3.4生成相关性分数
获得决赛后,PARADE-CNN外的所有PARADE变体dcls嵌入时,采用单层前馈网络(FFN)生成相关性得分,如下所示:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RP0JiFkT-1648965160953)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648902717109.png)]
wd是一个学习参数。对于PARADE–CNN,一个带有一个隐藏层的FFN应用于每个CNN表示,最终分数由这些FFN输出分数的总和决定。
3.5聚合复杂性
我们注意到,表示聚合技术的计算复杂性主要取决于通道处理本身。以PARADE——Max、Attn和Sum为例,这些方法很便宜。对于PARADE–CNN和PARADE–Transformer,文档中固有的段落数少于总标记数,而且(实际上)聚合网络比用于段落建模的Transformer要浅。
4实验
4.1数据集
我们尝试了几个特别的排名集合。Robust043是TREC 2004 Robust track使用的一个新闻专线集合。GOV24是一个从美国政府网站抓取的网络集合,用于TREC TB 2004–06曲目。对于BROST04和GOV2,我们在实验中考虑关键词(标题)查询和描述查询。基因组学数据集[25,26]由Highwire Press5发表的科学文章组成,其中包含关于特定基因的自然语言查询,并被用于TREC Genomics 2006-07轨道。MSMARCO文档排名数据集6是一个大规模收集,用于TREC 2019–20个深度学习曲目[14,15]。要为开发和培训集创建文档标签,将MSMARCO文章数据集中的文章级别标签传输到包含该文章的相应源文档中。换句话说,一个文档只要包含一个相关的段落,就被认为是相关的,并且每个查询都可以由一个段落来满足。ClueWeb12-B13数据集7是2012年2月10日至2012年5月10日期间从网络上抓取的大型集合。它用于NTCIR We Want Web 3(WWW-3)跟踪[?]。这些数据集的统计数据如表1所示。请注意,平均文档长度仅从BM25返回的文档中获得。GOV2和基因组学中的文档比Robust04长得多,这使得训练端到端ranker更具挑战性。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nPw1RDj4-1648965160954)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648902861350.png)]
4.2基线
我们将PARADE与以下传统和神经基线进行比较,包括那些采用其他通道聚合技术的基线。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T65WCD0G-1648965160955)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648902915731.png)]
BM25是一种基于IDF加权计数的无监督排名模型[61]。BM25检索到的文档也可用作重新排序方法使用的候选文档。
BM25+RM3是基于RM3的查询扩展模型[43]。我们使用了Anserini[77]对BM25和BM25 RM3的实现。文档将使用关键字查询的默认设置进行索引和检索。对于描述查询,我们设置b=0.6并将扩展项的数量更改为20。
Birch综合了BERT提供的句子级证据,对文件进行排名[80]。我们没有使用作者提供的原始桦树模型,而是训练了一种改进的“桦树通道”变体。与原始模型不同,Birch Passage使用段落而不是句子作为输入,它是端到端训练的,在目标语料库上进行微调而不是应用零炮,并且它不使用第一阶段检索方法插值检索分数。这些变化使我们的Birch变体与其他模型和基线保持一致(例如,使用通道输入,不进行插值),并且在我们的试点实验中,它们还提高了原始Birch模型的有效性。
ELECTRA -MaxPad选择文档中段落的最大分数作为总体相关性分数[17]。然而,我们并没有根据Bing搜索日志对BERT进行微调,而是通过微调MSMARCO通道排名数据集来提高性能。我们还使用了更新、更有效的预训练ELECTRA模型,而不是BERT模型。
ELECTRA -KNRM是基于查询文档相似性矩阵的核池神经排序模型[74]。我们将内核大小设置为11。与原来的工作不同,我们使用预训练的ELECTRA模型中的嵌入进行模型初始化。
**CEDR-KNRM(Max)**结合了KNRM和预训练模型的优点[53]。它将从KNRM和[CLS]表示中学习到的内核特征消化为排名特征。我们再次用更有效的ELECTRA代替BERT模型。我们还使用了一种更有效的变体,它对段落的[CLS]表示执行最大池,而不是平均。
T5-3B使用预先训练过的T5模型在序列到序列生成上下文中定义文本排序[57]。对于文档重新排序任务,它使用了与BERTMaxP[17]中相同的最大分数池技术。由于其体积大且训练费用昂贵,我们将[57]报告的数值呈现在其零射击设置中,而不是自己进行训练。
4.3训练
为了为排名任务准备ELECTRA模型,我们首先在MSMARCO通道排名数据集上对ELECTRA进行微调[55]。然后使用经过微调的ELECTRA模型初始化PARADE的PLM组件。对于Trade–Transformer,我们使用两个随机初始化的Transformer编码器层,它们与BERT base使用的超参数相同(例如,注意头的数量、隐藏大小等)。PARADE和基线的训练是在一台谷歌TPU v3-8上进行的,使用成对铰链损耗。我们使用Capreous toolkit[79]中提供的Tensorflow PARADE实现,还提供了一个独立的IMI实现8。我们对通过第一阶段检索方法返回的前1000个文档进行了培训;标记为与基本事实相关的文件被视为阳性样本,所有其他文件被视为阴性样本。我们在Robust04上使用BM25 +RM3进行第一阶段检索,在其他数据集上使用BM25,并通过网格搜索在开发集上调整参数。我们训练36个“阶段”,包括4096对训练示例,学习率为3e-6,前十个阶段的热身,线性衰减率为0。1.热身后。由于其更大的内存需求,我们在CEDR中使用16的批处理大小,在所有其他方法中使用24的批处理大小。每个实例包括一个查询和文档中所有拆分的段落。我们使用3e-6的学习率,在前10个训练步骤中进行热身。
文件最多可分为16段。当我们使用225个标记和200个标记的滑动窗口分割文档时,每个文档中最多保留3250个标记。最大通道序列长度设置为256。少于最大段落数的文档会被填充,然后用段落级遮罩遮住。 对于长于所需时间的文档,始终保留第一个和最后一个段落,而其余段落则像[17]中那样统一采样。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NtDw8ScB-1648965160955)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648903286382.png)]
4.4 评估
在之前的工作[17,53]之后,我们使用5倍交叉验证。我们在测试时将重新分级阈值设置为1000,作为延迟和有效性之间的权衡。报告的结果基于所有测试褶皱的平均值。使用不同截止值的TREC_eval9,根据MAP、精度、ERR和nDCG排名指标来衡量绩效。对于NTCIR WWW-3,使用NTCIREVAL10报告结果。
4.5 主要结果
表2显示了在两种常用的Robust04和GOV2系列上,PARADE的重新排名效果。考虑到这三种不引入任何新权重的方法,PARADE–Max通常比PARADE–Avg和PARADE–Sum更有效,尽管GOV2上的结果好坏参半。阅兵式–Max在Robust04上始终优于PARADE–Attn,但在GOV2上,阅兵式–Attn有时优于PARADE–Max。以分层方式使用段落表示的两个变体,即PARADE-CNN和PARADE-Transformer,始终优于其他四个变体。这证实了我们提出的段落表示聚合方法的有效性。
考虑到基线方法,对于这两个系列的大多数指标,PARADE–Transformer的性能明显优于Birch和ELECTRA MaxP分数聚合方法。阅兵式–Transformer的排名效率与Robust04系列的T5-3B相当,但仅使用了4%的参数,不过值得注意的是,T5-3B是在零炮设置下使用的。 CEDR-KNRM和ELECTRA-KNRM都使用某种形式的表示聚合,它们在标题查询上明显比PARADE-Transformer差,而在描述查询上有相当的效果。总的来说,PARADE-CNN和PARADE-Transformer一直是最有效的方法,这表明在这些数据集上执行复杂表示聚合的重要性。
基因组数据集的结果如表3所示。我们首先观察到,对于神经模型来说,这是一项非常具有挑战性的任务。不同于BRAST04和GOV2,其中基于Transformer的模型显然是最先进的,我们观察到,我们考虑的所有方法几乎总是低于一个简单的BM25基线,并且它们的性能远远低于最佳执行的TREC提交。目前尚不清楚这是否是由于专业领域、较少的训练数据或其他因素造成的。然而,我们观察到一些有趣的趋势。首先,我们看到PARADE方法的表现优于分数汇总基线。然而,我们注意到,鉴于样本量较小(64个查询),在这个数据集上很难实现统计显著性。接下来,我们注意到PARADE–Max在神经方法中表现最好。这与我们在Robust04和GOV2上观察到的情况形成对比,并表明在基因组数据集上不需要从不同的段落中分层聚集证据。
4.6TREC DL轨道和NTCIR WWW-3轨道上的结果
我们还研究了TREC DL轨道和NTCIR WWW-3轨道上游行的有效性。我们在本节中报告了结果,并请读者参阅TREC和NTCIR任务论文,以了解所用特定超参数的详细信息[44,45]。
TREC深度学习轨迹的结果如表4所示。在TREC DL ’ 19中,我们包括了与TREC竞争运行的比较:ucas_runid1[10]使用BERT-MaxP[17]作为重新排序方法,TUW19-d3-re[30]是一种基于transformer的非bert方法,didst_bert_r1[75]使用struct-BERT[71],旨在加强句子关系建模。所有的PARADE变种都优于ucas_runid1和tuw19 -d3-rein nDCG@10,但不能优于idst_bert_r1。由于这次运行的预先训练的structBERT模型是不可公开获得的,所以我们无法将其嵌入到PARADE中并进行公平的比较。在TREC DL ’ 20中,最好的TREC运行d_d2q_duois T5-3B模型。此外,与在鲁棒04和GOV2上的结果相比,PARADE-Max的表现再次优于PARADE-Transformer。对比表2中前面的结果。我们将在第5.4节进一步探讨这个问题。
NTCIR WWW-3轨道的结果如表5所示。KASYS-E-CO-NEW-1是一种基于桦树的方法[80],使用Bertlagle,Technion-E-CO-NEW-1是一种基于聚类的方法。如表5所示,Trade–Transformer的有效性与Kasys-E-CO-NEW-1across指标相当。在这个基准上,Trade–Transformer的表现大大优于Trade–Max。
5分析
在这一节中,我们考虑以下研究问题:
- RQ1:与支持长文本的变压器相比,阅兵式的性能如何?
- RQ2:如何在保持效率的同时提高BERT的效率
- RQ3:保存的文件段落数量如何影响有效性
- RQ4:什么时候表示聚合方法比分数聚合更可取?
5.1与长文本转换器的比较(RQ1)
最近,一系列研究集中于减少Transformer模块中的冗余计算成本,从而使模型支持更长的序列。为了提高效率,大多数方法都设计了新颖的稀疏注意机制,这使得可以将更长的文档作为一个整体输入以进行ad-hoc排序。我们认为江等人报告的结果(38)将这些方法与d段落表示聚合进行比较。结果如表6所示。在这个比较中,长文本转换方法实现了类似的效果,并且在很大程度上低于Trade-transformer。然而,值得注意的是,这些方法使用CLS表示作为下游模型的特征,而不是使用它直接预测相关性得分,这可能会导致有效性的差异。需要在类似配置中使用各种方法进行更大规模的研究,以得出结论。例如,QDS -Transformer的有效性可能会在接受最高分数聚合训练时得到提高;这种方法还可以与PARADE相结合,以处理比Longferer的最大输入长度2048个令牌更长的文档。我们的方法比Longformer家族模型所采用的方法效率低,所以我们考虑在第5.2节中如何提高PARADE效率。
5.2重新评估效率与效率(RQ2)
虽然基于BERT 的模型能够有效地生成高质量的排名列表,但它们的计算成本很高。然而,重新排序任务对效率问题很敏感,因为在用户发出查询后,文档必须实时重新排序。在这一节中,我们考虑两种策略来提高PARADE的效率。
使用较小的BERT变体。由于较小的模型需要较少的计算,我们研究了在使用各种大小的预先训练的BERT模型时,PARADE的重新排序效率,为部署检索系统提供了指导。为此,我们使用Turc等人提供的预先训练的BERT。[67]。在这项分析中,我们改变了几个超参数以减少计算需求:我们从BM25重新排列前100个文档,使用单个正或负文档进行交叉熵损失训练,将段落长度减少150个标记,并将步幅减少到100个标记。我们另外使用BERT模型代替ETELCA,以便我们可以考虑LM蒸馏模型(即,使用自监督PLM目标的蒸馏),高等人(22)发现比单独的RANKER蒸馏更有效(即,使用有监督的排序目标的蒸馏)。从表7可以看出,随着模型尺寸的减小,其有效性单调下降。隐藏层的大小(6对7,#8对9)比层的数量(3对4,#5对6)对性能起着更关键的作用。一个例子是#7和#8模型之间的比较。型号#8性能更好;它具有较少的层,但包含更多的参数。表7中还给出了参数数量和推理时间,以便于研究模型复杂性和有效性之间的权衡。
从一个大模型中提炼知识。为了进一步探索小型PARADE模型的局限性,我们应用知识蒸馏来利用来自大型教师模型的知识。我们使用基于BERT-Base训练的基于目标集合的PARADE - Transformer作为教师模型。较小的学生模型则在输出水平上向老师学习。我们使用均方误差作为蒸馏目标,这已被证明是有效的[65,66]。学习目标惩罚基于基础真理和教师模型的学生模型:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g7VRfhal-1648965160956)(C:\Users\grid\AppData\Roaming\Typora\typora-user-images\1648904076090.png)]
LCE是关于学生模型的逻辑和基本事实的交叉熵损失;a权重是权衡学习目标的重要性,以及zt和zs分别是来自教师模型和学生模型的logit。
如表7所示nDCG@20蒸馏模型的数量总是在增加。使用8层(#4)的PARADE型可以实现与教师模型相当的结果。此外,使用10层(#3)的PARADE模型的性能优于教师模型,参数减少了11%。用Bertsall训练的游行模型实现了nDCG@20高于0.5,它的性能优于使用BERT Base的BERTMaxP,而只需要1。14毫秒,对一份文件进行推断。因此,当重新排列100个文档时,每个查询的推断时间大约为0.114秒。
5.3考虑的通道数(RQ3)
PARADE中的一个超参数是正在使用的最大段落数,即保留的数据大小,这是为了回答本节中的RQ3而研究的。我们考虑标题查询的GOV2数据集,这些文件的平均长度比BROST04。我们使用与第5.2节相同的超参数。 图3描述了PARADE-Transformer的nDCG@20,通道数从8到64。通常,保存的数据大小越大,PARADE-Transformer的性能就越好,这意味着文档可以更好地从文档级上下文中理解,文档的内容保存得越好。然而,对于PARADE-Max和PARADE-Attn来说,当使用64个通道时,性能略有下降。max pooling (max)和simple attention mechanism (Attn)在处理较长的文档时都存在容量有限的问题。随着段落数量的增加,PARADE-Transformer模型能够改进nDCG@20,这表明当文档变得更长的时候,它在检测相关性方面具有优势。
然而,考虑更多的段落也会增加执行的计算数量。阅兵式模型的一个优点是,随着文档中段落数的变化,参数的数量保持不变。因此,我们考虑不同数量的通道之间的训练和推理考虑的影响。如表8所示,行表示培训时考虑的段落数,列表示用于执行推理的段落数。对角线表示在文档中保留更多的段落会持续改进nDCG。
类似地,增加推理时(列)或训练时(行)考虑的段落数通常会提高nDCG。总之,所考虑的通道数量对游行的有效性起着至关重要的作用。在以效率换取有效性时,游行模型的有效性可以通过训练更多的通道来提高,而不是在推理时使用。这通常会使nDCG略有增加。
5.4代表汇总法何时优于分数汇总法?(RQ4)
虽然PARADE变体在一系列数据集中都是有效的,而且PARADE-Transformer变体通常是最有效的,但情况并非总是如此。特别是,在TREC DL和TREC基因组学两方面,PARADE–Max都优于PARADE–Transformer。我们假设,这种有效性的差异是两个集合中查询的集中性的结果。这样的查询可能会减少每个文档中高度相关的段落数,这将降低使用更复杂的聚合方法(如PARADE-Transformer和PARADE-CNN)的优势。TREC DL与MARCO女士共享查询和其他相似之处,这一事实支持了这一理论。MARCO女士根据其结构的性质,每个文档只有1-2个相关段落。这种查询重叠表明,两个TREC-DL集合中的查询可以通过一个高度相关的段落得到充分的回答。然而,与MS MARCO中的浅层标签不同,DL系列中的文件包含NIST评估人员提供的深度相关标签。目前尚不清楚DL中的文档在多大程度上每个文档也只有几个相关段落。
我们使用段落级别的相关性判断来比较不同集合中每个文档高度相关的段落数,以此来验证这一假设。为了做到这一点,我们使用了相关段落和文档之间的映射,这些集合具有可用的段落级判断:TREC DL、TREC Genomics和GOV2。通过使用MS MARCO问答(QnA)集合将段落映射到文档URL,我们创建了MS MARCO文档和段落集合之间的映射。这种映射可以用来映射DL’19和DL’20中的段落和文档判断。在DL’19中,我们还使用FIRA段落相关性判断[33]在文档和段落之间进行映射。FIRA的判断是通过要求注释者在每个DL’19文件中用2或3的相关标签(即最高的两个标签)识别相关段落而产生的。我们的地图几乎覆盖了整个MARCO女士的收藏,但由于DL的段落级相关性判断可能不完整,这一地图受到了限制。FIRA映射仅涵盖高度相关的DL’19文档,但段落注释是完整的,由具有质量控制的人工注释员创建。就TREC基因组学而言,我们使用TREC提供的图谱。对于GOV2,我们使用了WebAP[40,41]中提供的句子级相关性判断,其中包括82个查询。
我们通过使用每个集合的注释指南来比较不同集合中的段落判断,以使它们的相关性标签与MS MARCO对相关段落的定义相一致,即相关段落足以回答问题。对于GOV2,我们认为相关标签为3或4的段落是相关的。使用DL文档,我们认为2或3的标签是相关的,标签与3相关的段落是相关的。与FILA,我们认为标签3是相关的。用基因组学,我们认为标签1或2是相关的。
我们将GOV2中的最大通道长度与FIRA的最大长度对齐,以便直接进行比较。为此,我们将GOV2的句子判断转换为段落判断,方法是将相关句子后面的句子折叠成一个段落,最大段落长度为130个标记,如FIRA所用。我们注意到,这个过程只会增加GOV2中每个文档的相关段落数,我们预计会有最高的段落数。对于使用MS MARCO映射的DL集合,段落比这些长度小得多,因此折叠段落只会增加每个文档的相关段落数。我们注意到基因组学包含的“自然”通道可以更长;在得出结论时应考虑这一点。在所有情况下,相关段落只占文件的一小部分。
在每个集合中,我们使用集合的相关文档和段落判断计算每个文档的相关段落数。结果如表9所示。首先,考虑到GOV2和MS MARCO的藏品,我们预计它们位于光谱的两端,我们发现38%的GOV2文件包含一个相关段落,而98–99%的MS MARCO文件包含一个相关段落。这证实,根据藏品结构的性质,MA MARCO的文件中每个文件只包含1-2段高度相关的段落。正如预期的那样,GOV2上的百分比最低。虽然我们更愿意将这些百分比放在另一个集合(如Robust04)中,但由于缺乏对此类集合的段落级判断,我们无法这样做。其次,考虑到深度学习系列,我们发现DL’19和DL’20表现出类似的趋势,无论是使用我们的映射还是FIRA映射。在这些文献集中,大多数文献包含一个相关段落,绝大多数文献包含一个或两个相关段落。我们称之为“最大段落偏差”与MS MARCO分享这些问题的事实可能有助于这种观察,因为我们知道,MS MARCO的绝大多数问题都可以用一段话来回答。第三,考虑到Genomics 2006,我们发现这个集合与DL集合相似。大多数文件只包含一个相关段落,绝大多数文件包含一到两个相关段落。因此,这一分析支持了我们的假设,即PARADE-Transformer在不同集合中的有效性差异与这些集合中每个文档的相关段落数有关。PARADE——当数量较低时,Max的表现更好,这可能反映了在这些集合的段落中聚合相关性信号的重要性降低。
6结论
都可以用一段话来回答。第三,考虑到Genomics 2006,我们发现这个集合与DL集合相似。大多数文件只包含一个相关段落,绝大多数文件包含一到两个相关段落。因此,这一分析支持了我们的假设,即PARADE-Transformer在不同集合中的有效性差异与这些集合中每个文档的相关段落数有关。PARADE——当数量较低时,Max的表现更好,这可能反映了在这些集合的段落中聚合相关性信号的重要性降低。
6结论
我们提出了PARADE端到端文档重新排序模型,并在ad-hoc基准集合上证明了其有效性。我们的研究结果表明,将全文中不同的相关性信号整合到ad-hoc排名中,而不是基于一篇文章的重要性。 我们还研究了模型大小如何影响性能,发现在PARADE上的知识蒸馏提高了较小的PARADE模型的性能,同时大大降低了它们的参数。最后,我们分析了数据集的特点,以探讨什么时候表示聚合策略更有效。