特征缩放

一、为什么要特征数据缩放？

有特征的取值范围变化大，影响到其他的特征取值范围较小的，那么，根据欧氏距离公式，整个距离将被取值范围较大的那个特征所主导。

为避免发生这种情况，一般对各个特征进行缩放，比如都缩放到[0,1]，以便每个特征属性对距离有大致相同的贡献。

作用：确保这些特征都处在一个相近的范围。

优点：1、这能帮助梯度下降算法更快地收敛，2、提高模型精

直接求解的缺点：
1、当x1 特征对应权重会比x2 对应的权重小很多，降低模型可解释性
2、梯度下降时，最终解被某个特征所主导，会影响模型精度与收敛速度
3、正则化时会不平等看待特征的重要程度（尚未标准化就进行L1/L2正则化是错误的）

哪些机器学习算法不需要(需要)做归一化?

概率模型（树形模型）不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。而像Adaboost、SVM、LR、Knn、KMeans之类的最优化问题就需要归一化。

二、特征缩放常用的方法

1、归一化(Normalization)

数值的归一，丢失数据的分布信息，对数据之间的距离没有得到较好的保留，但保留了权重。
1.小数据/固定数据的使用；2.不涉及距离度量、协方差计算、数据不符合正态分布的时候；3.进行多指标综合评价的时候。

将数值规约到(0,1)或(-1,1)区间。

一个特征X的范围[min，max]

import pandas as pd
import numpy as np

data=pd.DataFrame([[8.3,6],[9.3,4],[6,8],[3,1]])
print(data)

data[0]=(data[0]-data[0].min())/(data[0].max()-data[0].min())
data[1]=(data[1]-data[1].min())/(data[1].max()-data[1].min())
print(data)

结果：

2、标准化(Standardization)

数据分布的归一，较好的保留了数据之间的分布，也即保留了样本之间的距离，但丢失了权值
1.在分类、聚类算法中，需要使用距离来度量相似性；2.有较好的鲁棒性，有产出取值范围的离散数据或对最大值最小值未知的情况下。

将数据变换为均值为0，标准差为1的分布切记，并非一定是正态的。

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

先求均值（mean）

再求方差（std）

import numpy as np
from sklearn.preprocessing import StandardScaler

data=np.array([[2,2,3],[1,2,5]])
print(data)
print()

scaler=StandardScaler()
# fit函数就是要计算这两个值
scaler.fit(data)
# 查看均值和方差
print(scaler.mean_)
print(scaler.var_)
# transform函数则是利用这两个值来标准化（转换）
X=scaler.transform(data)
print()
print(X)

结果：