0

点赞

收藏

分享

中文文本分词及词频统计

古得曼_63b6 2022-04-20 阅读 162

标签: python

在分词中需要一个重要的库-jieba。在最开始导入jieba.

第一步:读取我们所需要的文件

第二步:采用lcut进行精确分词，得到一个列表

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARmlja2xlLjQ5OQ==,size_18,color_FFFFFF,t_70,g_se,x_16

第三步:取停用词(可采用百度停用词列表)。首先去掉长度为一的词，在让其它词遍历一遍停用词，如果该词不在停用词里则存为字典的键，在之后改词在出现则改键的词频加一，既可完成了词频统计。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARmlja2xlLjQ5OQ==,size_13,color_FFFFFF,t_70,g_se,x_16

0 条评论

关注