0
点赞
收藏
分享

微信扫一扫

机器学习笔记四 逻辑回归

一、Logistic回归

线性回归预测的是线性值。逻辑回归是一个分类任务。

结果是明确的值,如:0或者1。
逻辑回归与多重线性回归最大的区别就在于它们的因变量不同,其它的基本都差不多。这两种回归都可以归于同一个家族,即广义线性模型(generalizedlinear model)。

  • 如果是连续的,就是多重线性回归
  • 如果是二项分布,就是逻辑回归
  • 如果是Poisson分布,就是Poisson回归
  • 如果是负二项分布,就是负二项回归

逻辑回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更常用,也更加容易解释。所以实际中最常用的是二分类的逻辑回归。逻辑回归的主要用途:

  • 寻找危险因素
  • 预测
  • 判别

逻辑回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。

MLlib 中将逻辑回归分类在分类算法中,也是无监督学习的一个重要算法。

逻辑回归与回归算法的一些区别:

区别项

线性回归

逻辑回归

结果(y)

结果是一个标量值(可以是任意一个符合实际的数值)

结果是一个整数(表示不同类的整数,是离散的)

特征(x)

特征都表示为一个列向量

特别是对于涉及二维图像的逻辑回归,特征是一个二维矩阵,矩阵的每个元素表示图像的像素值,每个像素值是属于0到255之间的整数

损失函数

损失函数是表示每个预测值与其预测结果之间的聚合差异的函数

计算每次预测的正确或错误的结果比较

相似性:

  1. 训练:线性回归和逻辑回归的训练目标都是去学习权重(机器学习笔记四 逻辑回归_预测)和偏置(机器学习笔记四 逻辑回归_机器学习_02
  2. 结果:线性回归与逻辑回归的目标都是利用学习的权重和偏置值去预测或者说对结果进行分类

1. 推导

机器学习笔记四 逻辑回归_线性回归_03

机器学习笔记四 逻辑回归_数据_04

Sigmoid是一个S型的函数。输入是任意的,输出是[0,1]的区间上。 实际上就是把输入换成了概率值。

2. 常用的逻辑回归特征变化与结果转换

对于逻辑回归的计算过程,由现行回归计算方式转变为逻辑回归计算方式,其在过程、步骤以及特征提取和最终结果的显示方面都是有所不同的。
特征变换
首先对于特征变换来说,在上一节介绍线性回归对特征数据的准备时介绍了对于一般的特征数据可以将其设计成矩阵的形式来表示,而常用的矩阵规模就是二维矩阵。而在做逻辑回归时一般将其二维特征转化为一维特征进行处理,即将第一行以外的行数依次放在第一行后面进行处理。这种方式特别适用于逻辑回归模型训练,代码如下:

import numpy as np
a = np.array([[1,2,3],[4,5,6]])
b = a.flatten()
print(b)

结果转换
以于生成结果的转换,对于线性回归来说,生成的结果可能是[0.1,100]之间的任何一个数值,即其本身是一个连续的曲线,通过确定特征值可以很好地在曲线上找到对应的值。而逻辑回归对于特定值的计算较为困难,因为其并不是一条光滑的一条光滑的连续曲线而是一条一系列离散的数值。
为了解决生成值不是连续的问题,逻辑回归的结果被转化成了单独的向量,即最终结果只存在一个单独的列或者行,这里的列或者行中的元素代表逻辑回归应属于的特定分类。而至于如何确定这个分类却是由所计算出属于特定元素的积分确定。

3. 逻辑回归的一般过程

  1. 收集数据
  2. 准备数据
  3. 分析数据
  4. 训练算法
  5. 测试算法
  6. 使用算法

逻辑回归优点:
计算代价不高,易于理解和实现
缺点:
容易欠拟合,分类精度可能不高
适用数据类型:数值型和标称型数据。

4.损失函数

我们想要的函数应该 ,能接受所有的输入然后预测出类别,例如,在两个类的情况下,上述函数输出0或1。*海维德阶跃函数(Heaviside step function)就是这类作用。另一个函数有类似的性质,且数学上更易于处理,这就是Sigmoid函数。
机器学习笔记四 逻辑回归_线性回归_05

其函数图形类似于:
机器学习笔记四 逻辑回归_预测_06

确定了分类器的函数形式之后,现在的问题变成了:最佳回归系数是多少?如何确定它们的大小?
线性分析时使用的sigmoid函数,在逻辑回归中使用softmax函数。
机器学习笔记四 逻辑回归_线性回归_07
即元素所有队列中元素与所有元素指数的和的比值,而采用softmax的好处在于计算较为简单。

最终是逻辑回归的损失函数的定义:
机器学习笔记四 逻辑回归_机器学习_08
在这个损失函数中Y是真实结果转换为one-hot的向量结果,而机器学习笔记四 逻辑回归_预测_09是模型计算值经过softmax和log计算而来的模型输出值,最终取其数据和作为损失函数。

5. 基于最优化方法的最佳回归系数的确定

  1. 梯度上升法
  2. 训练算法:使用梯度上升找到最佳参数训练算法:使用梯度上升找到最佳参数
  3. 分析数据:画出决策边界分析数据:画出决策边界
  4. 训练算法:随机梯度上升训练算法:随机梯度上升
  5. predict预测。



举报

相关推荐

0 条评论