文章目录
文本分词
参考文章:一文看懂NLP里的分词(中英文分词区别+3 大难点+3 种典型方法);
中文分词
- HanLP;
- 斯坦福CoreNLP;
- ANSJ;
- 哈工大LTP;
- KCWS;
- Jieba;
- IK;
- 清华大学THULAC;
- ICATLAS;
英文分词
- keras;
- spaCy;
- gensim;
- nltk;
代码示例
- 文本分词:自然语言处理(NLP)(一)文本预处理篇之分词、向量表示和特征处理;
- 文档分词:批量处理文件构造语料库并训练Doc2Vec模型(基于gensim的实现);
文本清洗和标准化
参考文档:
- NLP文本技术 nlp文本预处理;
- 文本的清洗和标准化:如何处理混乱的数据?;
- Steps for effective text data cleaning (with case study using Python);
- 文本清洗(小技巧);
在完成具体任务时,需要根据任务目标对文本数据进行清洗,保证冗余信息的剔除。