机器学习入门-----sklearn-CFANZ编程社区

机器学习基础了解

概念

机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来
定义：从数据中自动分析获得模型，并利用模型对特征数据【数据集：特征值+目标值构成】进行预测

算法

数据集的目标值是类别的话叫做分类问题；目标值是连续的数值的话叫做回归问题；统称监督学习；
另一类是无监督学习，这一类的数据集没有目标值，典型：聚类；

做什么

可以进行传统预测、图像识别、自然语言处理
传统预测
店铺销量预测、量化投资、广告推荐、企业客户分类、sql语言安全检测分类
图像识别
街道交通标志检测、人脸识别
自然语言处理
文本分类、情感分析、自动聊天、文本检测、翻译、写报纸、简单的新闻报告等

机器学习开发流程

数据收集、数据清洗（过滤、缺失处理、异常处理）、特征工程、数据建模、模型评估

特征工程

定义：特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程

数据集

Kaggle网址：https://www.kaggle.com/
UCI网址：https://archive.ics.uci.edu/
scikit-learn：https://scikit-learn.org/stable/index.html

数据集使用

特征提取：load（获取小规模数据集）、fetch（获取大规模数据集）
返回Bunch数据类型

数据集划分

使用：sklearn.model_selection.train_test_split
训练数据：用于训练，构建模型
测试数据：模型检验使用，用于评估模型是否有效，一般20％-30％

特征工程步骤

特征提取【特征值化】：

使用：sklearn.feature_extraction
将任意数据（如文本图像）转换为可用于机器学习的数字特征，目的是为了计算机能够更好的理解数据，如字典特征提取【特征离散化】、文本特征提取、图像特征提取【深度学习】

字典特征抽取【将特征当中存在的类别信息做one-hot编码处理】
应用场景：
1）数据集中类别特征比较多时，可以先将数据集特征转化为字典类型，然后使用sklearn.feature_extraction.DictVectorizer类转换【调用fit_transform(数据集)方法，默认是系数矩阵；用get_feature_names()方法返回类别名称】；2）数据集本身就是字典类型

文本特征抽取
应用场景：
1）统计每个样本特征词出现的个数，用sklearn.feature_extraction.text.CountVectorizer类进行转换【调用fit_transform(文本)方法】；
2）统计一个字或者一个词对一个文件集或一个语料库中其中一份文件的重要程度，即统计在某一类类别文章出现次数很多，但其他类别文章当中出现较少的关键词，用sklearn.feature_extraction.text.TfidfTransformer类进行转换【调用fit_transform(文本)方法】，即tf-idf【term frequency词频，inverse document frequency逆向文档频率】方法；

特征预处理

数值型数据的无量纲化：

1）归一化

使用：sklearn.preprocessing.MinMaxScaler
调用sklearn.preprocessing.minmax_scale(X, feature_range=(0, 1)【最小最大值放缩】，先读取数据，然后实例化对象【调用fit_transform()方法即可】，如下

数据，文件名:dating.txt

milage,Liters,Consumtime,target
40920,8.326976,0.953952,3
14488,7.153469,1.673904,2
26052,1.441871,0.805124,1
75136,13.147394,0.428964,1
38344,1.669788,0.134296,1

代码

import pandas as pd
from sklearn.preprocessing  import MinMaxScaler

def minman_demo():
    """
    归一化
    :return:
    """
    #   1.获取数据
    data = pd.read_csv("dating.txt")
    data = data.iloc[:,:3]  # 每行都要，前3列
    print("data:\n", data)
    #   2.实例化转换器类
    transfer = MinMaxScaler()
    #   3.调用转换器类
    data_new = transfer.fit