sklearn的介绍及常用api使用实例-CFANZ编程社区

数据量太少容易发生欠拟合

正负样本数要平衡如果不均衡后续优化操作

这里有sklearn的部署要求及安装指令

加载数据集示例

from sklearn import datasets

iris = datasets.load_iris()

digits = datasets.load_digits() //手写数字识别这里用的都是sklearn里自带的数据集

lb = load_boston()

学习和预测

from sklearn import svm 这里用的svm模型

clf = svm.SVC(gamma=0.001, C=100.)

clf.fit(digits.data[:-1], digits.target[:-1])

clf.predict(digits.data[-1:])

模型持久化也就是模型的保存和加载

import pickle

s = pickle.dumps(clf) //dumps 保存

clf2 = pickle.loads(s) //loads加载
clf2.predict(x[0:1])

在sklearn的具体情况下使用joblib替换pickle

from joblib import dump，load

dump(clf, 'filename.joblib')

clf = load('filename.joblib')

这里附上使用sk-learn完成鸢尾花分类的代码

鸢尾花代码

model.fit 训练

model.coef_ w

model.intercept b 与y轴的交点

model.get_params()

model.score 对模型打分

这里有官方的sklearn的API手册： https://scikit-learn.org/stable/modules/classes.html

中文： https://blog.csdn.net/rankiy/article/details/102663650

部分api讲解

class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’ 默认的初始化方式也可以是random, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=None,algorithm=’auto’# )：K-Means聚类

数据稀疏 full 数据稠密 elkan 不知道数据是否稀疏就用auto

文本A中找到文本B 用双聚类