文章目录
参考资料
视频链接
一、机器学习的定义
关键词 : 数据、 模型、预测
定义:机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
人类从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略
二、数据集构成
构成元素:特征值 + 目标值
房子面积 | 房子位置 | 房子楼层 | 房子朝向 | 目标值 | |
---|---|---|---|---|---|
数据1 | 80 | 9 | 3 | 0 | 80 |
数据2 | 100 | 9 | 5 | 1 | 120 |
数据3 | 80 | 10 | 3 | 0 | 100 |
-
每一行数据称为 样本
-
有的数据集可以没有目标值
三、机器学习算法分类
学习目标
- 目标
- 说明机器学习算法监督学习与无监督学习的区别
- 说明监督学习中的分类、回归特点
3.1 白话理解
特征值(案例) | 目标值(案例) | 类别 |
---|---|---|
猫 / 狗 的图片 | 猫 / 狗 的类别 | 分类问题 |
房价的各个属性信息 | 房屋价格 -连续型数据 | 回归问题 |
人物的各个属性信息 | 无 | 无监督学习 |
总结:根据目标值来区分问题类型
-
类别 -> 分类
-
连续型数据 -> 回归
-
无目标值 -> 无监督学习 (聚类)
3.2 练习题
- 预测明天的气温是多少度? 回归
- 预测明天是阴、晴还是雨? 分类
- 人脸年龄预测?回归(具体年龄)/ 分类 (老少)
- 人脸识别? 分类
3.3 官方概念
- 监督学习 (supervised learning) (预测)
- 定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出有限个离散值(称作分类)
- 分类常见算法:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
- 回归常见算法:线性回归、岭回归
- 无监督学习(unsupervised learning)
- 定义:输入数据是由输入特征值所组成的
- 常见算法:聚类 k-means
四、机器学习开发流程
- 获取数据
- 数据处理
- 特征工程
- 机器学习算法训练 - 模型
- 模型评估
- 应用
学习目标:
- 学会分析问题,使用机器学习算法的目的,想要算法完成哪种任务
- 掌握算法基本思想,学会对问题用相应的算法解决
- 学会利用库或者框架解决问题
机器学习库与框架参考:
书籍资料参考:
五、总结与收获
机器学习的三大关键因素是数据、模型、预测。
人工智能 > 机器学习 > 深度学习
逻辑回归居然是分类算法而不是回归算法。
分类与回归的区别在于目标值是类别还是连续型的数据
机器学习的过程:数据获取、处理 -> 特征工程 -> 机器学习算法训练构建模型 -> 模型评估
笔者在本学期的机器学习课程里做的最多就是"特征工程", 但因为数学基础较差,评估结果往往不尽人意,最主要的原因还是知识面太少,比如对字段的了解程度、统计学知识的运用等。
现阶段只需要会使用现成的机器学习算法来预测结果就好。
笔者打算系统整理机器学习的知识,将来在做推荐系统的时候会以机器学习为基础,比如一个商品推荐系统的项目就需要用到机器学习的相关知识。
最后需要实现的目标:在拿到一个数据集,能对数据集进行一些处理,并使用机器学习算法对数据进行模型构建,最后再拿这个模型去预测没有目标值的特征值数据。