0
点赞
收藏
分享

微信扫一扫

C#判断骨龄与生活年龄的比较

张宏涛心理 2023-12-29 阅读 25

系列文章目录

未完待续……


目录

系列文章目录

前言

一、数值分析简介

二、内容


前言

tips:这里只是总结,不是教程哈。

“***”开头的是给好奇心重的宝宝看的,其实不太重要可以跳过。

此处以下所有内容均为暂定,因为我还没找到一个好的,让小白(我自己)也能容易理解(更系统、嗯应该是宏观)的讲解顺序与方式。

第一文主要简述了一下机器学习大致有哪些东西(当然远远不止这些),对大体框架有了一定了解。接着我们根据机器学习的流程一步步来学习吧,掐掉其他不太用得上我们的步骤,精练起来就4步(数据预处理,特征工程,训练模型,模型评估),其中训练模型则是我们的重头戏,基本上所有算法也都是这一步,so,这个最后写,先把其他三个讲了,然后,在结合这三步来进行算法的学习,兴许会好点(个人拙见)。


一、概述

还是先拿出咱们的老朋友,机器学习的流程图。

咱们这主要将数据预处理,而要进行机器学习首先需要数据,然后才能对数据进行预处理。

实际一点讲:数据清理、数据集成、数据变换、数据规约都是数据预处理的主要步骤,但是这四个没有严格意义上的先后顺序,在实际应用时并非全部会被使用(可能一个也不用,比如后面我们直接调用官方的iris包,但在实际自己获得的数据集中就会有各种各样的问题,视情况而定)

二、数据获取

获取数据途径多种多样,(括号内为废话:按理来讲,当今世界数据就是财富,一般而言别人的数据是不可能透露给你的,如果你和我一样还是个学生,可能可以从老师那里拿到数据),我们学习一般使用的是公开的数据集,如下为sklearn数据集(也是需要先安装sklearn库的哈)

(iris为例)

from sklearn.datasets import load_iris
iris = load_iris()

这样就获取到一个数据集了,但是我们还不知道这个数据集的其他性质。load*函数返回的数据类型是 datasets.base.Bunch,本质上是一个 dict,它的键值对可用通过对象的属性方式访问。(我用的是Jupyter Notebook)

主要包含以下属性:

DESCR数据描述
feature_names特征名
target_names标签名
data特征数据数组
target标签数组
filename真实的文件地址
frame特殊返回值

1、DESCR

print(data.DESCR)  

从数据集描述中我们可以得到大量信息,150条数据,4个属性,分为3类等等

2、feature_names

print(iris.feature_names)

4个属性(特征)分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。

3、target_names

print(iris.target_names)

3种分类为三鸢尾、变色鸢尾、维吉尼亚鸢尾(好吧,这个不重要)

4、data

print(iris.data)

4、target

print(iris.target)

(刚好150条,你们快数数,坏笑QvQ)

4、***filename

导入的数据的绝对路径文件名

4、***frame

特殊返回值,其实用不到。

5、绘图查看

在平面上只好展示二维属性对应样本的分类,想看其他属性对应样本的分类对比,更换feature1、feature2的数即可。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

plt.rcParams['font.sans-serif'] = 'SimHei' # 设置字体为SimHei # 显示中文
plt.rcParams['axes.unicode_minus']=False # 修复负号问题

# 0-3
feature1=0
feature2=1

features=["花萼长度","花萼宽度","花瓣长度","花瓣宽度"]
colors=['r','y','b']

x=iris.data[:,(feature1,feature2)]
y=iris.target

class1_x=x[y==0,:]
class2_x=x[y==1,:]
class3_x=x[y==2,:]

plt.scatter(class1_x[:,0],class1_x[:,1],c=colors[0],marker='.')
plt.scatter(class2_x[:,0],class2_x[:,1],c=colors[1],marker='.')
plt.scatter(class3_x[:,0],class3_x[:,1],color=colors[2],marker='.')
plt.xlabel(features[feature1])
plt.ylabel(features[feature2])
plt.title("鸢尾花数据集")
plt.show()

三、【数据清洗】

未完待续

四、【数据集成】

获取数据途径多种多样

五、【数据变换】

获取数据途径多种多样

六、【数据归约】

获取数据途径多种多样

七、数据拆分

数据拆分:机器学习的数据集划分一般分为两个部分:

        训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)

        测试数据:用于模型评估,检验模型是否有效。一般占20%-30%

1、近似值

该处使用的url网络请求的数据。

2、内容

该处使用的url网络请求的数据。

3、思维方式

该处使用的url网络请求的数据。

4、根本课题

该处使用的url网络请求的数据。

1.1、嗡嗡嗡

嗡嗡嗡

1.2、十五万

嗡嗡嗡

举报

相关推荐

0 条评论