0
点赞
收藏
分享

微信扫一扫

中文文本分词及词频统计

古得曼_63b6 2022-04-20 阅读 160
python

在分词中需要一个重要的库-jieba。在最开始导入jieba.

第一步:读取我们所需要的文件

第二步:采用lcut进行精确分词,得到一个列表

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARmlja2xlLjQ5OQ==,size_18,color_FFFFFF,t_70,g_se,x_16

第三步:取停用词(可采用百度停用词列表)。首先去掉长度为一的词,在让其它词遍历一遍停用词,如果该词不在停用词里则存为字典的键,在之后改词在出现则改键的词频加一,既可完成了词频统计。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARmlja2xlLjQ5OQ==,size_13,color_FFFFFF,t_70,g_se,x_16

 

举报

相关推荐

0 条评论