文章目录
1 简介
论文题目:Open Domain Event Extraction Using Neural Latent Variable Models
论文来源:ACL 2019
论文链接:https://arxiv.org/pdf/1906.06947.pdf
代码链接:https://github.com/lx865712528/ACL2019-ODEE
1.1 创新
- 提出一个开放域事件提取任务,从新闻集群中提取无约束类型的事件。
- 提出一个大规模数据集GNBusiness,包含多种事件类型和可解释的事件模式。
- 提出一个深度隐变量模型,可以从一个新闻集群中抽取多个事件;考虑新闻集群不同报道中的相同实体提及,来提高性能。
2 背景知识
MUC4是一个广泛使用的事件模式规划和事件抽取数据集,定义了4种事件类型(Arson,Attack, Bombing,Kidnapping)和4种slot(Perpetrator,Instrument,Target,Victim)。与本篇论文提出的任务对比如下图:
从新闻中抽取事件包含两个子任务:1)schema induction: 提取指定事件类型的论元slot的事件模板。2)event extraction: 从新闻中识别具有已填充slot的事件。
Event Discovery in Tweet Streams任务提取具有新闻价值的词、段落和frame。
First Story Detection任务研究以前未报道的事件的新闻文章。
3 任务和数据
在open domain event extraction(ODEE)任务中,输入为一个新闻集群(包含相同事件的报道),输出为一系列事件,每个事件都包含一个触发词和一个自己模式中的事件论元列表。
从Google Business News爬取数据构造数据集,设计事件模式包括8种可能的slot(Agent,Patient, Time,Place,Aim,Old Value,New Value and Variation)。人工对数据进行标注,数据统计如下图:
4 方法
提出了三个逐渐复杂的深度隐变量模型,如下图:
4.1 模型一
给定一个语料库
N
\mathcal{N}
N,对于每个实体e,从均匀分布S种取样一个slot s;从多项式分布中取样一个中心词h;使用ELMo作为上下文编码器,得到连续特征向量
f
f
f(遵循多变量正态分布,其协方差矩阵是对角矩阵)。概率公式和算法流程如下图:
4.2 模型二
模型一忽视了不同的事件可能有不同的slot分布,因此从正态分布中,取样一个潜在事件类型向量t,然后使用t和一个多层感知机编码slot分布,取样slot s。概率公式和算法流程如下图:
4.3 模型三
一个共指的实体出现在新闻集群中的频率越高,越有可能是一个重要的slot,冗余的文本信息可以提供复杂的信息。因此额外引入共指的slot的归一化出现频率作为观察到的潜在变量,概率公式和算法流程如下图:
4.4 推理
将离散的潜变量s消去,获得对数似然的证据下界(ELBO):
其中
D
K
L
D_{KL}
DKL为KL散度,计算两个分布的KL散度是困难的和正态分布存在简单有效的重新参数化技巧,因此选择
q
w
(
t
)
q_w(t)
qw(t)作为由w参数化的正态分布,由神经推理网络学习,如下图。
通过最大化下面的似然公式选择每个实体的slot:
为了得到最终的输出,使用Stanford dependency parser工具的POS-tags和parse trees,抽取每个实体提及中心词的谓词。基于两个规则:1)中心词的governor是VB;2)中心词的governor是NN,属于WordNet中的noun.ACT和noun.EVENT类别。
将相同共指链的实体提及的谓词合并为一个谓词集,对于集合中的每个谓词v,找到其谓词集合包含v的实体,将这些实体视为由v触发的事件的论元。最终,对论元进行排序,得到top-N 开放域事件。