C#判断骨龄与生活年龄的比较-CFANZ编程社区

系列文章目录

未完待续……

前言

tips：这里只是总结，不是教程哈。

“***”开头的是给好奇心重的宝宝看的，其实不太重要可以跳过。

此处以下所有内容均为暂定，因为我还没找到一个好的，让小白（我自己）也能容易理解（更系统、嗯应该是宏观）的讲解顺序与方式。

第一文主要简述了一下机器学习大致有哪些东西（当然远远不止这些），对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧，掐掉其他不太用得上我们的步骤，精练起来就4步（数据预处理，特征工程，训练模型，模型评估），其中训练模型则是我们的重头戏，基本上所有算法也都是这一步，so，这个最后写，先把其他三个讲了，然后，在结合这三步来进行算法的学习，兴许会好点（个人拙见）。

一、概述

还是先拿出咱们的老朋友，机器学习的流程图。

咱们这主要将数据预处理，而要进行机器学习首先需要数据，然后才能对数据进行预处理。

实际一点讲：数据清理、数据集成、数据变换、数据规约都是数据预处理的主要步骤，但是这四个没有严格意义上的先后顺序，在实际应用时并非全部会被使用（可能一个也不用，比如后面我们直接调用官方的iris包，但在实际自己获得的数据集中就会有各种各样的问题，视情况而定）

二、数据获取

获取数据途径多种多样，（括号内为废话：按理来讲，当今世界数据就是财富，一般而言别人的数据是不可能透露给你的，如果你和我一样还是个学生，可能可以从老师那里拿到数据），我们学习一般使用的是公开的数据集，如下为sklearn数据集（也是需要先安装sklearn库的哈）

（iris为例）

from sklearn.datasets import load_iris
iris = load_iris()

这样就获取到一个数据集了，但是我们还不知道这个数据集的其他性质。load*函数返回的数据类型是 datasets.base.Bunch，本质上是一个 dict，它的键值对可用通过对象的属性方式访问。（我用的是Jupyter Notebook）

主要包含以下属性：

DESCR	数据描述
feature_names	特征名
target_names	标签名
data	特征数据数组
target	标签数组
filename	真实的文件地址
frame	特殊返回值

1、DESCR

print(data.DESCR)

从数据集描述中我们可以得到大量信息，150条数据，4个属性，分为3类等等

2、feature_names

print(iris.feature_names)

4个属性（特征）分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。

3、target_names

print(iris.target_names)

3种分类为三鸢尾、变色鸢尾、维吉尼亚鸢尾（好吧，这个不重要）

4、data

print(iris.data)

4、target

print(iris.target)

（刚好150条，你们快数数，坏笑QvQ）

4、***filename

导入的数据的绝对路径文件名

4、***frame

特殊返回值，其实用不到。

5、绘图查看

在平面上只好展示二维属性对应样本的分类，想看其他属性对应样本的分类对比，更换feature1、feature2的数即可。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

plt.rcParams['font.sans-serif'] = 'SimHei' # 设置字体为SimHei # 显示中文
plt.rcParams['axes.unicode_minus']=False # 修复负号问题

# 0-3
feature1=0
feature2=1

features=["花萼长度","花萼宽度","花瓣长度","花瓣宽度"]
colors=['r','y','b']

x=iris.data[:,(feature1,feature2)]
y=iris.target

class1_x=x[y==0,:]
class2_x=x[y==1,:]
class3_x=x[y==2,:]

plt.scatter(class1_x[:,0],class1_x[:,1],c=colors[0],marker='.')
plt.scatter(class2_x[:,0],class2_x[:,1],c=colors[1],marker='.')
plt.scatter(class3_x[:,0],class3_x[:,1],color=colors[2],marker='.')
plt.xlabel(features[feature1])
plt.ylabel(features[feature2])
plt.title("鸢尾花数据集")
plt.show()