0
点赞
收藏
分享

微信扫一扫

NLP-文本摘要:数据集介绍及预处理【New York Times Annotated Corpus】

New York Time 语料库的描述:

  • 1.8 million的文章
  • 超过650k手动编写的文章摘要
  • 超过1.5 million 的人工标记的文章,标记包括 人物,地点,组织,标题,主题
  • 超过275k使用算法生成标记的文章
  • 用于解析xml文件的java工具

语料库中有650k个手动编写的文章摘要,这个可以用于文档摘要生成算法的评估,




参考资料:
New York Times Corpus 介绍 (未完待续)
The New York Times Annotated Corpus

举报

相关推荐

0 条评论