0
点赞
收藏
分享

微信扫一扫

机器学习笔记二十五 中文分词结巴试用

下载网址:
​​​https://pypi.python.org/pypi/jieba​​​
机器学习笔记二十五 中文分词结巴试用_python

下载后的代码里有大量测试代码,进入test即可运行测试代码:

机器学习笔记二十五 中文分词结巴试用_搜索引擎_02

测试代码

#-*- coding: utf-8 -*-
import sys
sys.path.append("../")
import jieba
seg_list = jieba.cut("我第一次来到中国",cut_all=True)
print("Full Model:","/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我第一次来到中国",cut_all=False)
print("Default Mode:" , "/ ".join(seg_list)) # 默认模式

seg_list = jieba.cut("他来到了中国合肥天鹅湖")
print (", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))

机器学习笔记二十五 中文分词结巴试用_测试_03

停用词整理
分词结果里有的词,如:“有”,“能”,“呢”,“什么 ”等词,还有标点符号都属于停用词,不具备表示文本特征的能力。
处理方法是建立一个stop words词典。

#-*- coding: utf-8 -*-
import sys
sys.path.append("../")
import jieba
seg_list = jieba.cut("有个担忧他的禾苗长不高而把禾苗往上拔的宋国人,一天下来十分疲劳但很满足,回到家对他的家人说:“今天可把我累坏了,我帮助禾苗长高了!”他儿子听说后急忙到地里去看苗(的情况),然而苗都枯萎了。天下不希望自己禾苗长得快一些的人很少啊!以为禾苗长大没有用处而放弃的人,就像是不给禾苗锄草的懒汉。妄自帮助它生长的人,就像这个拔苗助长的人,不但没有好处,反而害了它。")
liststr = "/ " .join(seg_list)
print(u"---清理前的词条----")
print("Default Mode:",liststr) ## 默认模式
print(u"---清理后的词条----")
# 停用词整理
f_stop = open('stopwords.txt','rb')
try:
f_stop_text = f_stop.read()
#f_stop_text = unicode(f_stop_text, 'utf-8')
finally:
f_stop.close()

f_stop_seg_list = f_stop_text.decode().split('\n')
for myword in liststr.split('/ '):
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1:
print(myword,',',)

机器学习笔记二十五 中文分词结巴试用_测试_04


举报

相关推荐

0 条评论