MedDialog: Large-scale Medical Dialogue Datasets
数据集
会议:EMNLP2020
任务:医疗对话生成
动机:现有的医疗对话数据集规模太小,涵盖范围不够广,或偏向某种确定的疾病。
贡献:
- 提出了目前最大规模的医疗对话数据集MedDialog,有中文和英文数据集。
 - 在中文数据及上预训练了几个对话生成模型,评估其性能。
 - 通过人工评估和自动评估,研究表明在MedDialog-CN上预训练的模型通过迁移学习,应用于低资源对话生成任务上,可以显著提升其性能。
 
数据集介绍
- 中文数据集覆盖了172种疾病。每个对话以对医疗状况和病史的描述(包括疾病现状、病程、过敏症、药物治疗、既往疾病)开始,然后进行医患对话,最后医生提出诊断和治疗意见。

 - 英文数据集覆盖了96种疾病。每个对话包括两部分,第一部分是对病情的描述,第二部分是多轮对话。这些咨询涵盖了51类社区,包括糖尿病、老年问题、疼痛管理等。2008-2020年。
 - 优点:
规模大,覆盖的疾病多。
MedDialog-EN的患者来自世界各地,具有不同的国籍、伦理、年龄、性别、职业、教育、收入等方面。

 - 和其他数据集的对比。

 - 数据集的优点。
- 规模大。
 - 各种各样的病人。
 
 
方法
- 
在中文医疗对话数据集上预训练了几种对话生成模型,包括Transformer,GPT,BERT-GPT,并比较了他们的性能。结果表明,用MedDialog训练的模型能够生成临床正确和类人的医学对话。我们还研究了在MedDialog上训练的模型对低资源医疗对话生成任务的可转移性。结果表明,通过对MedDialog预训练的模型进行迁移学习,可以大大提高小数据集下医疗对话生成任务的性能,如人工评估和自动评估所示。
首先在比MedDialog更大规模的通用对话数据集上预训练Transformer和GPT。
 
实验
- 
在中文数据集上的实验。
8:1:1,以dialogue划分数据集,编码嵌入以汉字为单位,不做分词。
 - 
模型。
- 
BERT-GPT:BERT和GPT都是12层Transformer,隐藏状态大小是768,SGD,输入序列最大长度是400,输出序列最大是100。
在一个大规模的NLP中文语料库做预训练。nlp_chinese_corpus
 - 
GPT: DialoGPT-small,10层,embedding size=768,context size=300,多头注意力:12个head。Adam。
在两个中文对话语料库上做预训练。chinese_chat_bot_corpus 500k-Chinese-Dialog
 
 - 
 - 
实验及结果。
- 
自动评估。三方面:机器翻译指标、多样性指标、困惑度。
 - 
BERT-GPT的perplexity更低。因为它在一个大规模中文语料库上做了预训练然后再在MedDialog上做微调。在机器翻译指标上评估结果低于Transformer。在多样性指标上,效果基本相同。
 
 - 
 - 
迁移到其他数据集。
在MedDialog预训练后,在中文COVID-19Dialog上微调后的结果得到提升。
- 模型评估
- 自动评估。三方面:机器翻译指标、多样性指标、困惑度。
 - 人工评估。随机选择100个对话例子,让5名本科生和研究生从信息量、相关性和人类相似性方面对生成的回答进行评分。
 
 - 实验结果
- 预训练后的Transformer自动评估指标全面提升。GPT和BERT-GPT相对不如。
 
 
 - 模型评估
 
成的回答进行评分。
- 实验结果
- 预训练后的Transformer自动评估指标全面提升。GPT和BERT-GPT相对不如。
 
 









