什么是 scikit-learn？-CFANZ编程社区

引言

在这个数据爆炸的时代，我们每天都在产生和消费海量数据。这些数据背后隐藏着什么规律？如何从数据中提取有价值的信息？机器学习正是解决这些问题的钥匙。而 scikit-learn，则是打开这扇大门的一把好用的钥匙。

很多人一听到"机器学习"这个词，就觉得高深莫测，仿佛是只有数学天才才能触及的领域。其实不然。机器学习本质上是一种让计算机从数据中学习规律的方法，就像我们人类通过经验学习一样。而 scikit-learn，就是让这个过程变得简单易用的工具集。

什么是 scikit-learn？

scikit-learn，通常简称为 sklearn，是一个基于 Python 语言的机器学习库。它就像是一个工具箱，里面装满了各种现成的机器学习算法和工具。你不需要从头开始实现复杂的算法，只需要调用相应的函数，就能完成从数据预处理到模型训练、评估的全过程。

想象一下，如果你要盖房子，你可以自己去烧砖、伐木、锻造工具，也可以直接去建材市场买现成的材料。scikit-learn 就是机器学习领域的"建材市场"，它提供了各种"建筑材料"（算法）和"工具"（数据处理函数），让你能够专注于"设计"（解决问题）而不是"制造材料"（实现算法）。

scikit-learn 有几个显著特点：

简单易用：它的 API 设计非常一致，一旦你学会了一种算法的使用方法，其他算法的使用方法也大同小异。
功能全面：涵盖了分类、回归、聚类、降维等主流机器学习任务。
文档完善：每个函数都有详细的文档和示例，遇到问题很容易找到解决方案。
社区活跃：有大量的用户和开发者，遇到问题可以在社区寻求帮助。
开源免费：完全免费，而且源代码开放，你可以学习和修改它。

安装和环境配置

在开始使用 scikit-learn 之前，我们需要先安装它。安装过程非常简单，就像安装其他 Python 库一样。

使用 pip 安装

如果你已经安装了 Python 和 pip，那么只需要在命令行中输入以下命令：

pip install scikit-learn

使用 conda 安装

如果你使用的是 Anaconda（一个专门为数据科学设计的 Python 发行版），推荐使用 conda 来安装：

conda install scikit-learn

验证安装

安装完成后，可以通过以下代码验证是否安装成功：

import sklearn
print(sklearn.__version__)

如果输出了版本号，说明安装成功。

基础概念

在开始使用 scikit-learn 之前，我们需要了解一些基础概念。这些概念就像是学习一门新语言的基础词汇，掌握了它们，后续的学习就会顺畅很多。

数据集（Dataset）

数据集是机器学习的基础，可以理解为"训练材料"。就像学生学习需要教材一样，机器学习算法需要数据集来"学习"。

在 scikit-learn 中，数据集通常是一个二维数组或 DataFrame，其中每一行代表一个样本（sample），每一列代表一个特征（feature）。

例如，一个关于学生的数据集可能包含以下信息：

学生ID	年龄	身高(cm)	体重(kg)	成绩
1	18	175	65	85
2	19	180	70	90
3	20	165	60	75

在这个例子中，每一行是一个学生（样本），每一列是一个特征（年龄、身高、体重、成绩）。

特征（Feature）和标签（Label）

特征是用来描述样本的属性，而标签是我们想要预测的结果。

在上面的学生数据集中，年龄、身高、体重是特征，成绩是标签。我们的目标可能是通过学生的年龄、身高、体重来预测他们的成绩。

特征有时也称为"自变量"（independent variable），标签则称为"因变量"（dependent variable）或"目标变量"（target variable）。

训练集（Training Set）和测试集（Test Set）

在机器学习中，我们通常将数据集分为两部分：训练集和测试集。

训练集用来"教"算法，就像学生用教材和习题来学习；测试集用来"考"算法，就像学生用考试来检验学习效果。

通常，我们会将 70%-80% 的数据用作训练集，剩下的用作测试集。scikit-learn 提供了方便的函数来分割数据集：

from sklearn.model_selection import train_test_split

# X 是特征，y 是标签
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

test_size=0.2 表示将 20% 的数据用作测试集，random_state=42 是为了确保每次运行结果一致（42 只是一个随机数，你可以用任何数字）。

监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）

机器学习主要分为两大类：监督学习和无监督学习。

监督学习是指我们有带标签的数据，算法通过学习特征和标签之间的关系来进行预测。就像老师带着标准答案教学生一样。

常见的监督学习任务包括：

分类（Classification）：预测离散的类别，如判断邮件是否为垃圾邮件。
回归（Regression）：预测连续的数值，如预测房价。

无监督学习是指我们没有标签，算法需要自己从数据中发现规律。就像让学生自己从一堆资料中找出规律一样。

常见的无监督学习任务包括：

聚类（Clustering）：将数据分成不同的组，如客户细分。
降维（Dimensionality Reduction）：减少特征的数量，同时保留重要信息。

常用算法介绍

scikit-learn 提供了丰富的机器学习算法，下面我们介绍一些常用的算法。

监督学习算法

1. 线性回归（Linear Regression）

线性回归是最简单的回归算法，它试图找到特征和标签之间的线性关系。

想象一下，你想根据房子的面积来预测房价。你收集了一些数据，发现面积越大的房子价格越高，这种关系可以用一条直线来表示，这就是线性回归。

代码示例：

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# 生成一些示例数据
np.random.seed(42)
X = np.random.rand(100, 1) * 10  # 100 个样本，1 个特征
y = 2 * X + 1 + np.random.randn(100, 1) * 0.5  # y = 2x + 1 + 噪声

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差: {mse:.2f}")
print(f"斜率: {model.coef_[0][0]:.2f}")
print(f"截距: {model.intercept_[0]:.2f}")

2. 逻辑回归（Logistic Regression）

尽管名字里有"回归"，但逻辑回归实际上是一种分类算法。它用于预测二分类问题（是/否，真/假等）。

想象一下，你想根据学生的学习时间来预测他们是否会通过考试。逻辑回归可以给出一个概率，表示学生通过考试的可能性。

代码示例：

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# 生成一些示例数据
np.random.seed(42)
X = np.random.rand(100, 1) * 10  # 100 个样本，1 个特征（学习时间）
y = (X > 5).astype(int).ravel()  # 如果学习时间大于5小时，通过考试（1），否则不通过（0）

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

# 预测新数据
new_data = np.array([[6], [3]])  # 学习6小时和3小时
predictions = model.predict(new_data)
probabilities = model.predict_proba(new_data)
print(f"预测结果: {predictions}")
print(f"通过概率: {probabilities[:, 1]}")

3. 决策树（Decision Tree）

决策树是一种直观的分类和回归方法，它通过一系列问题来做决策。

想象一下，你在玩"二十个问题"的游戏，通过一系列是/否问题来猜出对方在想什么。决策树就是类似的工作方式，它通过一系列特征判断来最终确定分类。

代码示例：

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = DecisionTreeClassifier(max_depth=3)  # 限制树的最大深度为3，防止过拟合
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

# 查看特征重要性
feature_importance = model.feature_importances_
for i, importance in enumerate(feature_importance):
    print(f"{iris.feature_names[i]}: {importance:.2f}")

4. 随机森林（Random Forest）

随机森林是多个决策树的集合，它通过"群体智慧"来提高预测准确性。

想象一下，如果你想做一个重要决定，你会咨询多个专家而不是只听一个人的意见。随机森林就是类似的工作方式，它让多个决策树"投票"，最终选择得票最多的结果。

代码示例：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = RandomForestClassifier(n_estimators=100, random_state=42)  # 100棵决策树
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

# 查看特征重要性
feature_importance = model.feature_importances_
for i, importance in enumerate(feature_importance):
    print(f"{iris.feature_names[i]}: {importance:.2f}")

5. 支持向量机（Support Vector Machine, SVM）

支持向量机是一种强大的分类算法，它试图找到一个最佳的超平面来分隔不同类别的数据。

想象一下，你有一堆红色和蓝色的球，你想用一根棍子把它们分开。支持向量机就是找到最佳位置放这根棍子，使得两类球之间的距离最大。

代码示例：

from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 标准化数据（SVM对特征的尺度敏感）
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = SVC(kernel='linear', C=1.0, random_state=42)  # 使用线性核
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

无监督学习算法

1. K-均值聚类（K-Means Clustering）

K-均值聚类是一种常用的聚类算法，它将数据分成 K 个不同的组。

想象一下，你有一堆没有标签的数据点，你想把它们分成几类。K-均值聚类就像是在这些点中放置 K 个"中心点"，然后将每个点分配给最近的中心点，再调整中心点的位置，重复这个过程直到稳定。

代码示例：

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成一些示例数据
X, y = make_blobs(n_samples=300, centers=4, random_state=42)

# 创建并训练模型
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)

# 获取聚类结果和中心点
labels = kmeans.labels_
centers = kmeans.cluster_centers_

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], c='red', marker='X', s=200)
plt.title('K-Means 聚类结果')
plt.xlabel('特征 1')
plt.ylabel('特征 2')
plt.show()

2. 主成分分析（Principal Component Analysis, PCA）

主成分分析是一种降维技术，它将高维数据映射到低维空间，同时保留尽可能多的信息。

想象一下，你有一张三维的物体照片，你想把它变成二维的，同时保留物体的主要特征。PCA 就是找到最佳的"拍摄角度"，使得二维照片能够最大程度地代表三维物体。

代码示例：

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 创建并训练 PCA 模型
pca = PCA(n_components=2)  # 降到2维
X_pca = pca.fit_transform(X)

# 可视化结果
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis')
plt.title('PCA 降维结果')
plt.xlabel('主成分 1')
plt.ylabel('主成分 2')
plt.colorbar(label='类别')
plt.show()

# 查看解释方差比
print(f"主成分 1 解释方差比: {pca.explained_variance_ratio_[0]:.2f}")
print(f"主成分 2 解释方差比: {pca.explained_variance_ratio_[1]:.2f}")
print(f"累计解释方差比: {sum(pca.explained_variance_ratio_):.2f}")

数据预处理

在实际应用中，原始数据往往不能直接用于机器学习模型，需要进行一些预处理。scikit-learn 提供了丰富的数据预处理工具。

缺失值处理

现实中的数据常常有缺失值，我们需要处理这些缺失值。

import numpy as np
from sklearn.impute import SimpleImputer

# 创建有缺失值的数据
X = np.array([[1, 2], [np.nan, 3], [7, 6]])

# 使用均值填充缺失值
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X)

print("原始数据:")
print(X)
print("处理后的数据:")
print(X_imputed)

特征缩放

不同的特征可能有不同的尺度，这会影响某些算法的性能。特征缩放可以将所有特征缩放到相似的尺度。

from sklearn.preprocessing import StandardScaler, MinMaxScaler
import numpy as np

# 创建示例数据
X = np.array([[1, 200], [2, 400], [3, 600], [4, 800]])

# 标准化（均值为0，方差为1）
scaler = StandardScaler()
X_standardized = scaler.fit_transform(X)

# 归一化（缩放到[0,1]区间）
normalizer = MinMaxScaler()
X_normalized = normalizer.fit_transform(X)

print("原始数据:")
print(X)
print("标准化后的数据:")
print(X_standardized)
print("归一化后的数据:")
print(X_normalized)

类别特征编码

机器学习模型通常需要数值输入，所以我们需要将类别特征转换为数值。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import numpy as np

# 创建示例数据
X = np.array([['红色'], ['蓝色'], ['绿色'], ['红色']])

# 标签编码（将类别转换为整数）
label_encoder = LabelEncoder()
X_label_encoded = label_encoder.fit_transform(X)

# 独热编码（创建二进制列）
onehot_encoder = OneHotEncoder(sparse=False)
X_onehot_encoded = onehot_encoder.fit_transform(X)

print("原始数据:")
print(X)
print("标签编码后的数据:")
print(X_label_encoded)
print("独热编码后的数据:")
print(X_onehot_encoded)

模型评估

训练好模型后，我们需要评估它的性能。scikit-learn 提供了多种评估指标。

分类模型评估

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")
print(f"精确率: {precision_score(y_test, y_pred, average='weighted'):.2f}")
print(f"召回率: {recall_score(y_test, y_pred, average='weighted'):.2f}")
print(f"F1 分数: {f1_score(y_test, y_pred, average='weighted'):.2f}")

print("\n混淆矩阵:")
print(confusion_matrix(y_test, y_pred))

print("\n分类报告:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

回归模型评估

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# 加载数据
boston = load_boston()
X = boston.data
y = boston.target

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"均方误差 (MSE): {mse:.2f}")
print(f"均方根误差 (RMSE): {rmse:.2f}")
print(f"平均绝对误差 (MAE): {mae:.2f}")
print(f"决定系数 (R²): {r2:.2f}")

交叉验证

交叉验证是一种更稳健的模型评估方法，它将数据分成多份，轮流使用每一份作为测试集，其余作为训练集。

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 创建模型
model = RandomForestClassifier(random_state=42)

# 5折交叉验证
scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')

print(f"各折准确率: {scores}")
print(f"平均准确率: {scores.mean():.2f}")
print(f"准确率标准差: {scores.std():.2f}")

超参数调优

机器学习模型有很多超参数（hyperparameters，即不是从数据中学习的参数），选择合适的超参数对模型性能至关重要。scikit-learn 提供了几种超参数调优的方法。

网格搜索（Grid Search）

网格搜索尝试所有可能的超参数组合，找到最佳组合。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义参数网格
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [0.001, 0.01, 0.1, 1],
    'kernel': ['linear', 'rbf']
}

# 创建网格搜索对象
grid_search = GridSearchCV(SVC(), param_grid, cv=5, scoring='accuracy')

# 执行网格搜索
grid_search.fit(X_train, y_train)

# 输出最佳参数和最佳分数
print(f"最佳参数: {grid_search.best_params_}")
print(f"最佳交叉验证分数: {grid_search.best_score_:.2f}")

# 使用最佳模型进行预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

随机搜索（Random Search）

随机搜索在参数空间中随机采样，通常比网格搜索更高效。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.svm import SVC
from scipy.stats import expon, reciprocal

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义参数分布
param_dist = {
    'C': reciprocal(0.1, 100),
    'gamma': expon(scale=0.1),
    'kernel': ['linear', 'rbf']
}

# 创建随机搜索对象
random_search = RandomizedSearchCV(SVC(), param_dist, n_iter=20, cv=5, scoring='accuracy', random_state=42)

# 执行随机搜索
random_search.fit(X_train, y_train)

# 输出最佳参数和最佳分数
print(f"最佳参数: {random_search.best_params_}")
print(f"最佳交叉验证分数: {random_search.best_score_:.2f}")

# 使用最佳模型进行预测
best_model = random_search.best_estimator_
y_pred = best_model.predict(X_test)

实际应用案例

让我们通过一个完整的案例来展示如何使用 scikit-learn 解决实际问题。我们将使用泰坦尼克号乘客数据集，预测哪些乘客能够幸存。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.impute import SimpleImputer

# 加载数据
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
titanic_data = pd.read_csv(url)

# 查看数据前几行
print("数据前5行:")
print(titanic_data.head())

# 数据预处理
# 选择相关特征
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
target = 'Survived'

# 提取特征和目标
X = titanic_data[features]
y = titanic_data[target]

# 处理缺失值
# Age 列用均值填充
age_imputer = SimpleImputer(strategy='mean')
X['Age'] = age_imputer.fit_transform(X[['Age']])

# Embarked 列用众数填充
embarked_imputer = SimpleImputer(strategy='most_frequent')
X['Embarked'] = embarked_imputer.fit_transform(X[['Embarked']])

# 类别特征编码
# Sex 列
sex_encoder = LabelEncoder()
X['Sex'] = sex_encoder.fit_transform(X['Sex'])

# Embarked 列
embarked_encoder = LabelEncoder()
X['Embarked'] = embarked_encoder.fit_transform(X['Embarked'])

# 特征缩放
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"\n初始模型准确率: {accuracy:.2f}")
print("\n分类报告:")
print(classification_report(y_test, y_pred))

# 超参数调优
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print(f"\n最佳参数: {grid_search.best_params_}")
print(f"最佳交叉验证分数: {grid_search.best_score_:.2f}")

# 使用最佳模型进行预测
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)

# 评估最佳模型
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f"\n调优后模型准确率: {accuracy_best:.2f}")
print("\n调优后分类报告:")
print(classification_report(y_test, y_pred_best))

# 特征重要性
feature_importance = best_model.feature_importances_
feature_names = features

print("\n特征重要性:")
for feature, importance in zip(feature_names, feature_importance):
    print(f"{feature}: {importance:.4f}")