拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较-CFANZ编程社区

变量选择是高维统计建模的重要组成部分。许多流行的变量选择方法，例如 LASSO，都存在偏差。带平滑削边绝对偏离(smoothly clipped absolute deviation,SCAD)正则项的回归问题或平滑剪切绝对偏差 (SCAD) 估计试图缓解这种偏差问题，同时还保留了稀疏性的连续惩罚。

惩罚最小二乘法

一大类变量选择模型可以在称为“惩罚最小二乘法”的模型族下进行描述。这些目标函数的一般形式是

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_数据

其中

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_数据_02

是设计矩阵，

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_03

是因变量的向量，

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_04

是系数的向量，

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_数据_05

是由正则化参数索引的惩罚函数拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_岭回归_06 .作为特殊情况，请注意 LASSO 对应的惩罚函数为

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_岭回归_07

，而岭回归对应于

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_数据_08

. 回想下面这些单变量惩罚的图形形状。

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_岭回归_09

SCAD

Fan和Li（2001）提出的平滑剪切绝对偏差（SCAD）惩罚，旨在鼓励最小二乘法问题的稀疏解，同时也允许大值的 β
. SCAD惩罚是一个更大的系列，被称为 "折叠凹陷惩罚"，它在以下方面是凹的， R+ 和 R-
. 从图形上看，SCAD 惩罚如下所示：

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_岭回归_10

有点奇怪的是，SCAD 惩罚通常主要由它的一阶导数定义

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_11

，而不是

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_岭回归_12

. 它的导数是

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_13

其中 a 是一个可调参数，用于控制 β 值的惩罚下降的速度，以及函数

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_数据_14

等于拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_数据_15 如果

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_16

, 否则为 0。

我们可以通过分解惩罚函数在不同数值下的导数来获得一些洞察力 λ:

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_17

对于较大的 β 值（其中

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_岭回归_18

)，惩罚对于 β 是恒定的。换句话说，在 β 变得足够大之后，β 的较高值不会受到更多的惩罚。这与 LASSO 惩罚形成对比，后者具有关于 |β|的单调递增惩罚：

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_数据_19

但是，这意味着对于大系数值，他们的 LASSO 估计将向下偏置。

另一方面，对于较小的 β 值（其中 |β|≤λ），SCAD 惩罚在 β 中是线性的。对于 β 的中等值（其中

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_20

），惩罚是二次的。

分段定义，pλ(β) 是

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较_r语言_21

在 Python 中，SCAD 惩罚及其导数可以定义如下：

1.  def scad:
2.      s_lar 
3.      iudic =np.lgicand
4.      iscsat = (vl * laval) < np.abs
5.   
6.      lie_prt = md_val * pab* iliear
7.   
8.      return liprt + urtirt + cosaat