0
点赞
收藏
分享

微信扫一扫

Android Framework 之 Python

文章目录

文本分词

参考文章:​一文看懂NLP里的分词(中英文分词区别+3 大难点+3 种典型方法);

中文分词

  1. HanLP;
  2. 斯坦福CoreNLP;
  3. ANSJ;
  4. 哈工大LTP;
  5. KCWS;
  6. Jieba;
  7. IK;
  8. 清华大学THULAC;
  9. ICATLAS;

英文分词

  1. keras;
  2. spaCy;
  3. gensim;
  4. nltk;

代码示例

  • 文本分词:自然语言处理(NLP)(一)文本预处理篇之分词、向量表示和特征处理;
  • 文档分词:批量处理文件构造语料库并训练Doc2Vec模型(基于gensim的实现);

文本清洗和标准化

参考文档:

  • NLP文本技术 nlp文本预处理;
  • 文本的清洗和标准化:如何处理混乱的数据?;
  • Steps for effective text data cleaning (with case study using Python);
  • 文本清洗(小技巧);

在完成具体任务时,需要根据任务目标对文本数据进行清洗,保证冗余信息的剔除。

举报

相关推荐

0 条评论