统计学习方法——第1章 统计学习及监督学习概论
《统计学习方法》(第二版)李航,学习笔记
1.1 统计学习
1.特点
(1)以计算机及网络为平台,是建立在计算机及网络上的;
(2)以数据为研究对象,是数据驱动的学科;
(3)目的是对数据进行预测与分析
(4)以方法为中心,构建模型并应用模型进行预测与分析;
(5)是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
2.对象
就是数据
3.目的
对数据的预测和分析
学习什么样的模型,怎样学习模型
4.方法
监督学习(supervised learning)
无监督学习(unsupervised learning)
强化学习(reinforcement learning)
5.研究
统计学习方法、理论、应用
一句话讲完:解决实际问题
6.重要性
处理海量数据的有效方法
计算机智能化的有效手段
计算机科学发展的一个重要组成部分
1.2 统计学习的分类
1.基本分类
(1)监督学习
指的是从标注数据中学习预测模型的机器学习问题。
总的来讲,用给标注的数据(数据和标签)分为训练集和测试集,用训练集去训练一个模型,用测试集去测试这个模型,而这个训练出来的模型能反映输入到输出的映射的统计规律。
(2)无监督学习
从无标注数据中心学习预测模型的机器学习问题。
(3)强化学习
指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
(4)半监督学习与主动学习
半监督学习指的是利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习指的是机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
2.按模型分类
(1)概率模型与非概率模型
概率模型:决策树,朴素贝叶斯,隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型
非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析以及神经网络。
逻辑回归既是概率也是非概率。
(2)线性模型与非线性模型
线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析。
非线性模型:核函数支持向量机、AdaBoost、神经网络。
(3)参数化模型与非参数化模型
参数化模型:感知机、朴素贝叶斯、逻辑回归、k均值、高斯混合模型。
非参数化模型:决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配。
3.按算法分类
在线学习:每次接受一个样本,进行预测,学习模型,并不断重复。
批量学习:一次接受所有数据,学习模型,进行预测。
4.按技巧分类
(1)贝叶斯学习
(2)核方法
1.3 统计学习方法三要素
1.4 模型评估与模型选择
1.5 正则化与交叉验证
1.6 泛化能力
1.7 生成模型与判别模型
1.8 监督学习应用