pkuseg使用方法
 
-  
使用默认配置进行分词(如果用户无法确定分词领域,推荐使用默认模型分词)
  
 
import pkuseg
seg = pkuseg.pkuseg()           
text = seg.cut('我爱北京天安门')  
print(text)
 
-  
细领域分词(如果用户明确分词领域,推荐使用细领域模型分词)
  
 
import pkuseg
seg = pkuseg.pkuseg(model_name='medicine')  
text = seg.cut('我爱北京天安门')              
print(text)
 
-  
分词同时进行词性标注,各词性标签的详细含义可参考 tags.txt
  
 
import pkuseg
seg = pkuseg.pkuseg(postag=True)  
text = seg.cut('我爱北京天安门')    
print(text)
 
-  
对文件分词
  
 
import pkuseg
pkuseg.test('input.txt', 'output.txt', nthread=20) 
 
-  
额外使用用户自定义词典
  
 
5.1 使用文件添加用户词典
 
import pkuseg
seg = pkuseg.pkuseg(user_dict='my_dict.txt')  
text = seg.cut('我爱北京天安门')                
print(text)
 
# my_dict.txt的文件格式
# 每行一个词语,后面可以添加该词语的词性,词语与单词之间使用Tab键分割
爱北京	v
太阳升 
我	nr
 
5.2 使用列表也可以加载用户词典
 
import pkuseg
lexicon = [('爱北京', 'v'),'太阳升',('我','nr')]  
seg = pkuseg.pkuseg(user_dict='my_dict.txt')  
text = seg.cut('我爱北京天安门')                
print(text)