第3章 线性模型
3.1基本形式
 给定d个属性描述的示例x=(
    
     
      
       
        
         x
        
        
         1
        
       
      
      
       x_1
      
     
    x1;
    
     
      
       
        
         x
        
        
         2
        
       
      
      
       x_2
      
     
    x2;…;
    
     
      
       
        
         x
        
        
         d
        
       
      
      
       x_d
      
     
    xd),
    
     
      
       
        
         x
        
        
         i
        
       
      
      
       x_i
      
     
    xi为x在第i个属性上的取值。
 线性模型试图学得一个通过属性的线性组合来进行预测的函数
 
 也可写为(其中w=(
    
     
      
       
        
         w
        
        
         1
        
       
      
      
       w_1
      
     
    w1;
    
     
      
       
        
         w
        
        
         2
        
       
      
      
       w_2
      
     
    w2;…;
    
     
      
       
        
         w
        
        
         d
        
       
      
      
       w_d
      
     
    wd) 注意是分号,故为列向量)
 
 w,b学得之后,模型得以确定
 w直观表达了各属性在预测中的重要性
 3.2线性回归
 1、特殊情形-当属性数目只有一个时。
 (若为离散属性,属性值间有“序”关系,可通过连续化将其转化为连续值。如三值属性"高度"的取值"高" “中” "低"可转化为 {1,0.5,0.0};若属性值间不存在“序”关系,有k个属性值,常转化为k维向量。如属性“瓜类”取值“西瓜”“南瓜”“黄瓜”转化为(0,0,1),(0,1,0),(1,0,0))
 
 以均方误差(对应欧氏距离)为性能度量,试图让其最小化从而确定w,b
 w*, b* 表示w和b的解
 
 基于均方误差最小化进行模型求解的方法称为“最小二乘法”(试图找到一条直线,使得所有样本到直线上的欧氏距离之和最小)。求解过程称为线性回归模型的最小二乘“参数估计”。
 
 将
    
     
      
       
        
         E
        
        
         
          (
         
         
          w
         
         
          ,
         
         
          b
         
         
          )
         
        
       
      
      
       E_{(w,b)}
      
     
    E(w,b)分别对w,b求导得
 
 令其为零可得w,b最优解的闭式解
 
 
 2、更一般情形“多元线性回归”-样本有d个属性描述,此时
 
 数据集D表示为一个m×(d+1)大小的矩阵X(m个样本,d个属性)
 
 把w和b置于向量一个向量形式
    
     
      
       
        
         w
        
        
         ^
        
       
       
        =
       
       
        (
       
       
        w
       
       
        ;
       
       
        b
       
       
        )
       
      
      
       \hat{w}=(w;b)
      
     
    w^=(w;b)
 将标记记为向量y
 
 故而可得
 
 
 可见
    
     
      
       
        
         w
        
        
         ^
        
       
       
        =
       
       
        (
       
       
        w
       
       
        ;
       
       
        b
       
       
        )
       
      
      
       \hat{w}=(w;b)
      
     
    w^=(w;b)的解满足
 
 求解过程
 
 令上式为零可得
    
     
      
       
        
         w
        
        
         ^
        
       
      
      
       \hat{w}
      
     
    w^最优解的闭式解。
 此处的讨论还没太看懂-简单记录
 
    
     
      
       
        
         X
        
        
         T
        
       
       
        X
       
      
      
       X^TX
      
     
    XTX不是满秩矩阵时,可能解出多个
    
     
      
       
        
         w
        
        
         ^
        
       
      
      
       \hat{w}
      
     
    w^,他们都可以使均方误差最小化。此时选择哪个解作为输出,由学习算法的归纳偏好决定,常见做法是引入正则化项。
 简写线性回归模型
  假设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标
假设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标
 
 即“对数线性回归”。实际上是在试图让
    
     
      
       
        
         e
        
        
         
          
           w
          
          
           T
          
         
         
          +
         
         
          b
         
        
       
      
      
       e^{w^T+b}
      
     
    ewT+b逼近y.
 可见形式上仍是线性回归,但是实质上已是在求取输入空间到输出空间的非线性函数映射。
 总结“广义线性模型”
 
 单调可微函数 g(.)称为“联系函数”, g(.)连续且充分光滑
 通俗理解广义线性模型
 
 3.3对数几率回归
 前述讲述如何使用线性模型进行回归学习,若面对分类任务呢?考虑广义线性模型中,需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
 如二分类任务,输出标记
    
     
      
       
        y
       
       
        ∈
       
       
        {
       
       
        0
       
       
        ,
       
       
        1
       
       
        }
       
      
      
       y\in\{0,1\}
      
     
    y∈{0,1},而线性回归模型产生预测值
    
     
      
       
        z
       
       
        =
       
       
        
         w
        
        
         T
        
       
       
        x
       
       
        +
       
       
        b
       
      
      
       z=w^Tx+b
      
     
    z=wTx+b是实值,因此需要将实值z转换为0/1值。
 
 首选“单位阶跃函数”,但是该函数不连续,故不可用
 其次,对数几率函数,可将z值转化为一个接近0 或1 的y值
 
 带入
    
     
      
       
        z
       
       
        =
       
       
        
         w
        
        
         T
        
       
       
        x
       
       
        +
       
       
        b
       
      
      
       z=w^Tx+b
      
     
    z=wTx+b
 
 
 将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值
    
     
      
       
        
         y
        
        
         
          1
         
         
          −
         
         
          y
         
        
       
      
      
       \frac{y}{1-y}
      
     
    1−yy称为“几率”,反映了x作为正例的相对可能性。几率取对数得“对数几率” 
    
     
      
       
        l
       
       
        n
       
       
        
         y
        
        
         
          1
         
         
          −
         
         
          y
         
        
       
      
      
       ln\frac{y}{1-y}
      
     
    ln1−yy.。
 故而实际是用线性回归模型的预测结果去逼近真实标记的对数几率,故称模型为“对数几率回归”。
 求解过程-该部分还没太看懂
 3.4线性判别分析
 LDA是一种经典的线性学习方法,也称“Fisher判别分析”
 LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。二维示意图如下
 
 未完待续…
 3.5多分类学习
3.6类别不平衡










