0
点赞
收藏
分享

微信扫一扫

文本挖掘(part4)--N-gram模型

学习笔记,仅供参考,有错必纠

文档信息的向量化

Bi-gram和N-gram模型

由于词袋模型完全无法利用语序信息,而Bi-gram模型考虑前后词,可以保留顺序信息.

为了考虑更多的前后词,可以直接扩展至trigram、4-gram直至N-gram.

  • 模型优点:考虑了词的顺序,信息量更充分(长度达到5之后,效果有明显提升)
  • 模型缺点:词表迅速膨胀,数据出现大量的稀疏化问题(每增加一个词,模型参数增加40万倍)

离散表示方式所面临的问题总结

  • 无法衡量词向量之间的关系
  • 词表维度随着语料库增长膨胀
  • N-gram词序列随语料库膨胀更快
  • 数据稀疏问题(导致分析性能成为严重瓶颈)

举报

相关推荐

0 条评论