我是做NLP的,所以文章不涉及图像生成方面,虽然AAAI涉及到N多图像生成方面的文章。
AAAI2022 接收论文列表: AAAI-22 Accepted Paper List Main Technical Track
InfoLM: A New Metric to Evaluate
Summarization & Data2Text Generation
论文地址:https://paperswithcode.com/paper/infolm-a-new-metric-to-evaluate-summarization
提出了一个摘要和Data2Text文本生成的新指标InfoLM,主要包含两部分:
- 一个预训练的掩码语言模型:用于计算词汇表上的两个离散概率的分布。这两个离散概率分别是给定候选句子和参考句子中观测到的词汇表中token出现的概率。
- 对比函数:用于衡量上述概率分布之间的差异。
InfoLM与现有的基于BERT的指标相比具有一定优势,因为它直接依赖于输出离散概率分布的预训练掩码语言模型,不需要依赖于特定的层起作用,也不需要聚合技术。
此外,虽然是依赖于tokens的统计信息,可以视为基于字符串的指标,但是它也没有受到那些常见的基于字符串指标的缺陷(比如同义词)的影响,因为预训练掩码语言模型还支持为某些释义分配较高的分数并捕获远距离的依赖关系。
InfoLM在两个离散概率分布之间结合了一个预训练模型和一个对比函数,文中还探索了使用不同对比函数的效果。在对比度两种Fisher-Rao距离是无参的,实践中用起来更方便,AB-Divergence结果更好,但是需要选择参数。
KGR 4 : Retrieval, Retrospect, Refine and Rethink for Commonsense Generatio
为了更好地将常识知识整合到人工智能模型中,很重要的一点是我们需要了解各个模型理解常识知识的能力。为了评估这一项能力,现在提出了各种各样用于常识推理的任务,其中也包括常识生成。EMNLP2020的文章CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning.提出了CommonGen,给定一些概念,生成符合常识的句子。与以往的常识推理任务相比,CommonGen能更好的评估每个模型的常识推理能力。
上图是CommonGen的图,给定几个词汇“hand”、“sink”、“wash”、“肥皂”。
作为一个人类,给你手、水池、洗、肥皂。你第一次反应大概是“我在水池里用肥皂洗手”。
这里设定的输出是“The girl uses soap to wash her hands at the sink.”
其他的生成模型均存在一定的问题,比如GPT-2的语法错误,BERT-Gen不符合常识的“a sink of soaps”(肥皂池子,脑洞,酒池肉林的酒池a sink of alcohol),BART的重复输出“a sink a sink”等等。CommonGen给出的输出还是比较合理的。但是依旧存在一些问题,比如:
- 如何保持与常识知识一致
- 模型的泛化性
文章对此做出改进,提出了KGR:
- 检索:使用检索引入外部信息,获取生成原型。通过概念映射粗略地检索获得候选句子。使用一个可以训练的评分器选择一个候选句子作为原型。
- 生成:使用基于BART的seq2seq模型作为生成器,利用原型生成更好的句子。在这里要对生成器进行训练和增强。
- 精炼:使用基于BART的精脸器修复句子中的错误。
- 思考:使用之前训练的评分器(第一步中用到的那个)从生成器生成的句子中选择最好的结果。
其他
想看但是还没找到的几篇文章:
- Entailment Relation Aware Paraphrase Generation
- KID-Review: Knowledge-guided Scientific Review Generation with Oracle Pre-training
- Fast and Constrained Absent Keyphrase Generation by Prompt-Based Learning
- Sequence-to-Action: Grammatical Error Correction with Action Guided Sequence Generation
- Attention Biasing and Context Augmentation for Zero-Shot Control of Encoder-Decoder Transformers for Natural Language Generation