用于训练翻译模型的法语/英语平行文本,拥有超过 2000 万句法语与英语句子。本数据集由 Chris CallisonBurch 创建,他抓取了上百万个网页,然后通过一组简单的启发式算法将法语网址转换为英文网址,并默认这些 文档之间互为译文。
This paper presents the results of the WMT09 shared tasks, which included a translation task, a system combination task, and an evaluation task. We conducted a large-scale manual evaluation of 87 machine translation systems and 22 system combination entries. We used the ranking of these systems to measure how strongly automatic metrics correlate with human judgments of translation quality,for more than 20 metrics. We present a new evaluation technique whereby system output is edited and judged for correctness.
本文介绍了WMT09共享任务的结果,包括翻译任务、系统组合任务和评估任务。我们对87个机器翻译系统和22个系统组合词条进行了大规模的人工评估。我们使用这些系统的排名来衡量自动度量与人类对翻译质量的判断有多强的相关性,共有20多个指标。我们提出了一种新的评估技术,通过编辑和判断系统输出的正确性。
大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。可关注本人公众号,回复“2020082103”获取下载链接。
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号: