NLP-文本摘要:数据集介绍及预处理【New York Times Annotated Corpus】

eelq

关注

阅读 117

2022-02-15

New York Time 语料库的描述:

  • 1.8 million的文章
  • 超过650k手动编写的文章摘要
  • 超过1.5 million 的人工标记的文章,标记包括 人物,地点,组织,标题,主题
  • 超过275k使用算法生成标记的文章
  • 用于解析xml文件的java工具

语料库中有650k个手动编写的文章摘要,这个可以用于文档摘要生成算法的评估,




参考资料:
New York Times Corpus 介绍 (未完待续)
The New York Times Annotated Corpus

精彩评论(0)

0 0 举报