学习笔记,仅供参考,有错必纠
文档信息的向量化
Bi-gram和N-gram模型
由于词袋模型完全无法利用语序信息,而Bi-gram模型考虑前后词,可以保留顺序信息.
为了考虑更多的前后词,可以直接扩展至trigram、4-gram直至N-gram.
- 模型优点:考虑了词的顺序,信息量更充分(长度达到5之后,效果有明显提升)
- 模型缺点:词表迅速膨胀,数据出现大量的稀疏化问题(每增加一个词,模型参数增加40万倍)
离散表示方式所面临的问题总结
- 无法衡量词向量之间的关系
- 词表维度随着语料库增长膨胀
- N-gram词序列随语料库膨胀更快
- 数据稀疏问题(导致分析性能成为严重瓶颈)