系列文章目录

更新中

一、什么是机器学习

生活中我们经常会根据自己的经验对新的事物做出判断，我们希望计算机也能通过“学习”获得“经验”从而对新的数据进行判断。因此机器学习的主要内容便是用某些算法指导计算机利用已知数据得出适当的模型，并利用此模型对新的情境给出判断的过程。它更像是对人类生活中学习过程的一个模拟。

PS：图片均来自MOOC

有了学习算法，提供一些“经验”数据，基于这些数据产生模型，在得到新的数据时，模型会提供给我们相应的判断。而在这整个过程中，最关键的是数据，数据，数据！

数据搜集——>数据清洗——>特征工程——>数据建模

数据挖掘；模式识别；语音识别；计算机视觉；自然语言处理；统计学习；

（PS：做个机器人可不是机器学习的研究领域哦）

根据所处理数据种类的不同，可以分为有监督学习，无监督学习和强化学习

监督学习，就是说数据样本会告诉计算机在该情形下的正确输出结果，希望计算机能够在面对没有见过的输入样本时也给出靠谱的输出结果，从而达到预测未知的目的。

就像参加可以科一考试一样，因为系统会判定对错，做出来一题，我们就知道这一题是对了还是错了

根据输出结果是离散值还是连续值，监督学习可以分为分类问题和回归问题两大类。他们在文字、语音、图像识别，垃圾邮件分类与拦截，网页检索，股票预测等方面有着广泛应用。

监督学习常用算法：回归、 K近邻、 SVM决策树、逻辑回归、朴素贝叶斯、XGBoost 、Lightgbm （对于输入数据X能预测Y ）

就好像你做完了试题，但发现练习册没答案，不知道自己做的结果对错

无监督学习可以分为聚类问题和降维问题两大类

无监督学习常用算法：聚类、降维算法、 EM算法（无标签:对于输入数据X能发现什么）

用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

分类（classification）, 回归（regression），聚类（clustering），降维（reduction ）

分类（classification）：即给定一个样本特征 , 我们希望预测其对应的属性值 , 如果其属性值是离散的, 那么这就是一个分类问题（如衣服分S，M，L号），

回归（regression）：给定一个样本特征 , 若我们希望预测的对应的属性值是连续的实数, 这就是一个回归问题（如预测天津房价，房价是连续的，这便是回归问题）。

聚类（clustering）：给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在多维空间的分布, 这就是属于聚类问题。

（如，如何将一个公司的员工按爱好划分为5类？）

降维（reduction）：如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。（如，如何将原高维空间中的数据点映射到低纬度的空间中？）

在机器学习领域中的大多数任务通常都与预测（prediction）有关。

当我们想预测一个数值时，就会涉及到回归问题。常见的例子包括：预测价格（房屋、股票等）、预测住院时间（针对住院病人等）、预测需求（零售销量等）。但不是所有的预测都是回归问题。