A BSTRACT
实体链接的传统方法是首先在给定文档中找到提及的内容,然后在知识库中推断它们的底层实体。
局限性:它需要在不知道其实体的情况下找到提及,这是不自然的和困难的。
作为应对的新模型:EntQA 不受该限制,它代表entity linking作为问题回答。
工作概述:首先提出具有 快速检索模块的候选实体,然后仔细检查文档,以使用强大的阅读模块找到每个候选实体的提及情况。与以前的工作不同,我们不依赖于提及候选字典或大规模的弱监督。EntQA在沙鼠基准测试平台上取得了良好的结果。
I NTRODUCTION
我们考虑最一般的实体链接形式(EL)中,在给定一个文档的系统中,必须提取实体提到,并将提到链接到知识库(KB)中的相应条目。EL是自动文本理解的基础构件,可应用于问答(QA)(费鲁奇,2012),信息检索(熊等人,2017;Hasibi等人,2016;巴洛格等人,2013年;雷南达等人,2015年)和商业推荐系统(Yang等人,2018年;斯拉斯基,2015年)。
问题:EL中的输出空间非常大。链接到任何KB条目(通常的数百万级)的文档中所有可能跨度的任何子集都可以是系统输出。
现有的应对:将EL分解为提及检测(MD)和实体消歧(ED),并以不同程度的独立性来处理它们。然而,在所有情况下,这两个子问题的顺序都是MD,然后是ED:系统首先会识别潜在的实体提及,然后将这些提及解析为KB条目。先前的工作要么假设提及(Gupta等人,2017),运行现成的命名实体识别(NER)系统提取ED提及并解析)(霍法特等人,2011;凌等人,2015;vanHul斯特等人,2020年),或训练端到端通过波束搜索联合执行MD→ED的模型(科利萨斯等人,2018年;DeCao等人,2021年)。
新的问题:。在ED之前执行MD的一个限制是,它需要在不知道相应实体的情况下查找被提及的内容。根据定义,一个提到需要一个实体(即,提到了什么?)。端到端模型缓解了误差传播的问题,但搜索只是近似的,困境,虽然程度较小,仍然存在。
新的idea:在这项工作中,我们提出翻转这两个子问题的顺序,并在MD之前求解ED。我们首先找到可能在给定文档中提到的候选实体,然后为每个候选对象找到可能提到的候选实体。我们的关键观察结果是,虽然在没有相关实体知识的情况下很难找到提及的内容,但在没有相关实体的具体提及知识的情况下找到相关实体是很容易的。这个简单的改变从根本上解决了上述困境,因为识别特定实体的提到是很好的定义的。
具体方案:我们将这个问题转换为反向开域QA。具体来说,给定一个文档,我们使用一个双编码器检索器来有效地从KB中检索top-K个候选实体作为“问题”。然后,我们在每个候选人的文档上应用一个深度交叉注意力的阅读器,以识别文档中提到的候选人为“答案跨度”。与标准QA不同,该模型必须预测未知数量的问题和答案。本文提出了一种简单而有效的基于阈值化的解决方案。我们称我们的模型为EntQA,代表实体链接作为问题回答。
优势:
EntQA允许我们回顾在密集实体检索和开放域QA方面的最新进展。
EntQA不依赖于硬编码的提及候选字典,该字典在以前的工作中使用来减少搜索空间和偏差模型。
培训EntQA是数据高效的,可以在学术预算下完成,而GENRE(DeCaoetal.,2021),需要通过弱监督进行行业规模的预培训。
M ODEL
EntQA将EL分解为两个子问题:实体检索和问答问题。
给定一个文档x∈X,
1。检索器模块检索x中可能提到的前k个候选实体。
2.阅读器模块提取x中每个候选实体的提及(或拒绝它),然后返回一个全局重新排序的标记提及的子集作为最终预测。
Input representation. 检索器和阅读器都使用文档和实体的文本表示,因此适用于零镜头设置(例如,通过阅读实体描述在测试时链接到一个新的KB)。我们使用标题φtitle(e)∈V+和描述φdesc(e)∈V+来表示一个实体。由于文档x∈X通常太长,无法用反前编码器编码,我们在mx∈N1代码:https://github.com/WenzhengZhang/EntQA2发表在ICLR2022重叠段落p1(x)…(x)∈VL(例如L=32和S=16),并在通道级类似于QA(Alberti等人,2019)。当文档较长时,个别段落可能会丢失全局信息。对于长文档,我们发现在文档的段落中携带文档级的主题文本ψtopic(x)∈V+(例如,第一句)是有益的。我们强调,我们不使用文档之外的任何额外信息。在我们的实验中,我们简单地设置了ψtopic(x)=x1∈V(即,文档中的第一个标记)。
Notation.我们编写encθS:VT→Rd×T来表示一个变压器编码器,它将任何标记序列映射到对应的上下文嵌入的相同长度的序列;符号S用于区分不同的编码器。我们假设由BERT(Devlinetal.,2019)推广的输入中通常的特殊标记:[CLS]表示整个输入,[SEP]表示输入边界。我们编写⊕来表示文本连接;我们在被连接的两个文本之间的词汇表中插入一个未使用的标记类型。我们写了Mi∈Rd来表示矩阵M∈Rd×T的第i列。
Training.
E XPERIMENTS
Model details.我们用在维基百科超链接上预训练的独立眨眼检索器进行通道编码器encθP和实体编码器encθE的初始化(Wu等人,2020a),并使用硬负挖掘优化NCE目标(1)。我们利用SQuAD2.0(a(Clark等人,2019)(Rajpurkar等人,2018),并优化阅读器目标(2)。我们将每个文件x∈X分解为长度为L=32的重叠段落,并以S=16步进行文字标记化。对于x中的每一段,我们将输入与文档ψtopic(x)=x1的第一个标记连接起来,它对应于AIDA中的主题,但在其他数据集中没有。我们使用了64个候选实体来训练猎犬和读者;我们在测试时使用了100个候选对象。我们预测每个候选实体的提及跨度高达P=3。在所有实验中,我们使用γ=0.05作为阈值,在验证集上尝试值0.01、0.1和0.05后选择。附录a中讨论了自动调整γ的其他实验。为了优化,我们使用Adam(Kingma&Ba,2015),检索器的学习速率为2e-6,读者为1e-5;我们使用线性学习率衰减计划,在4个时期的预热比例为0.06。检索器的批处理大小为4,读取器的批处理大小为2。猎犬在4个gpu(A100)上训练9个小时;读者在2个gpu上接受6个小时的训练。
E RROR ANALYSIS为了更好地理解EntQA所犯的错误的来源,我们检查了验证集中中模型预测不完全正确的段落。我们将它们划分为三种类型:(1)过度预测(即黄金提到是预测提到的一个严格子集),(2)预测不足(即预测提到是黄金提到的一个严格子集),而(3)都没有过度预测不足。表4显示了每种错误类型的示例。我们发现,过度预测经常发生,因为模型正确地“填充”了黄金注释中缺失的实体提及。预测不足最可能的原因是阈值太大,无法捕捉某些提及。最后,许多既不高预测也不低预测的错误主要是由于注释噪声造成的。例如,预测的实体“头部体育场”是一个正确和更具体的实体比黄金实体(郊区);预测的跨度“椭圆形”更适合,或者至少与金跨度“椭圆形”实体的椭圆形一样正确。我们还考虑在验证集上区分MD错误和ED错误。EntQA获得了87.5个总的F1。当我们只度量提及跨度的正确性时(相当于将所有实体预测视为正确的),我们得到了92.3F1。当我们只衡量拒绝或接受候选实体的正确性时,我们在段落级别获得64.5F1,在文档级别获得89.3F1(即,考虑所有段落的候选实体集)。读者在拒绝或接受候选者时相对较低的通过水平f1,这与表3中的Oracle实验一致。也就是说,EntQA的主要性能瓶颈是从候选实体中区分黄金实体与非黄金实体,尽管考虑到表4中所示的注释中的噪声,这应该持保留态度。
C ONCLUSIONS
现有的实体链接方法面临着在不知道相应实体的情况下预测提及的困境。我们提出了EntQA,一个新的模型,通过首先预测实体,然后找到它们的提及来解决这一困境。我们的方法是基于一种新的逆开放域QA的简化,其中我们检索未知数量的问题(候选实体),并预测每个问题潜在的多个答案跨度(提到)。我们的解决方案是一个简单的管道,充分利用了文本检索和阅读理解方面的进展。EntQA在沙鼠基准测试平台上实现了新的最新的结果,而不依赖于kb特定的提到候选字典或昂贵的模型特定的预训练。