上一篇文章已经跟大家介绍过《朴素贝叶斯分类(上):数据挖掘十大算法之一》,相信大家对朴素贝叶斯分类(上)都有一个基本的认识。下面我讲一下:朴素贝叶斯分类(下):数据挖掘十大算法之一。
朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。
今天我带你一起使用朴素贝叶斯做下文档分类的项目,最重要的工具就是 sklearn 这个机器学习神器。
一、sklearn 机器学习包
s