0
点赞
收藏
分享

微信扫一扫

HanLP — HMM隐马尔可夫模型 -- 语料库

BMES => B:词语开始、M:词语中间、E:词语结束、S:单独成词

并非所有中文任务都需要分词

HanLP — HMM隐马尔可夫模型  -- 语料库_Soft


语料库

  • 每行是一篇“文章”
  • 每篇文章用空格分开
  • 语料库的准确性,严重影响分词结果
  • 理论上,语料库越大越好

每个字都有一个标识(隐藏状态),可以根据语料库得到所有标识

中文分词就是为了得到状态









B

M

M

E

S

B

E

S

根据已知状态进行分词,即在"E"和"S"后面输出空格即可

将已分好的词 得到 每个字的状态

HanLP — HMM隐马尔可夫模型  -- 语料库_中文分词_02

https://www.bilibili.com/video/BV1aP4y147gA?p=3

举报

相关推荐

0 条评论