什么是定序回归

定序回归的因变量是定序变量，数据类型是顺序数据。比如不满意，一般，满意；不合格，合格，优秀等。

模型构建

假设因变量是评分，先由单变量回归说起，则普通的线性回归模型为：
$\mathrm{score}=\beta_0+\beta_1\times x_1+\epsilon$
若上式中score不是连续变量，而是分类变量（例如取值为1，2，3，4）。这样等式两边的数据类型不统一，直接进行回归是没有意义的。我们考虑引入连续变量Z, 先让Z进行普通线性回归。
$Z=\beta_0+\beta_1\times x_1+\epsilon.$
并定义Z和score之间存在下面的关系：
$\mathrm{score}=\begin{cases} 1, \quad \text{if} \quad Z<c_1;\\ 2, \quad \text{if} \quad c_1\leq Z<c_2;\\ 3, \quad \text{if} \quad c_2\leq Z<c_3;\\ 4, \quad \text{if} \quad c_3\leq Z.\\ \end{cases}$
进一步可得：
$\begin{aligned} \Pr(\mathrm{score}\leq k)&=\Pr(Z\leq c_k)\\ &=\Pr(\beta_0+\beta_1\times x_1+\epsilon)\\ &=F_\epsilon(\alpha_k-\beta_1\times x_1), \end{aligned}$
其中， $F_\epsilon(\cdot)$ 表示 $\epsilon$ 的分布函数。

通过不同连接函数对 $F_\epsilon(\cdot)$ 进行建模可以得到不同形式的回归模型。

若用正态分布的分布函数 $\Phi(\cdot)$ 表示 $F_\epsilon(\cdot)$ , 可得到定序回归的Probit模型：
$\Pr(\mathrm{score}\leq k)=\Phi(\alpha_k-\beta_1\times x_1).$
进一步，有
$\Phi^{-1}\{\Pr(\mathrm{score}\leq k)\}=\alpha_k-\beta_1\times x_1.$
上式左边可以通过计算得到，右边即为线性表达式。需要注意的是，与OLS相比，截距项 $\alpha_k$ 是有k个。

若用Logist连接函数来表示表示 $F_\epsilon(\cdot)$ , 可得到定序回归的Logist模型：
$\Pr(\mathrm{score}\leq k)=\frac{\exp(\alpha_k-\beta_1\times x_1)}{1+\exp(\alpha_k-\beta_1\times x_1)}.$
进一步，有
$\mathrm{logit}\{\Pr(\mathrm{score}\leq k)\}=\log\left(\frac{\Pr(\mathrm{score}\leq k)}{1-\Pr(\mathrm{score}\leq k)}\right)=\alpha_k-\beta_1\times x_1.$

随后可以利用极大似然估计，得到参数 $\hat{\alpha}_1,\hat{\alpha}_2,...,\hat{\alpha}_4,\hat{\beta}_1$ .
$\hat{\alpha}_1,\hat{\alpha}_2,...,\hat{\alpha}_4,\hat{\beta}_1=\argmax_{\alpha_1,..,\alpha_4,\beta_1}\prod_{i=1}^n p(\alpha_1,..,\alpha_4,\beta_1;x_i),$
其中
$p(x_i)=\begin{cases} F(\alpha_1-\beta_1\times x_1),\quad \text{if}\quad k=1;\\ F(\alpha_k-\beta_1\times x_1)-F(\alpha_{k-1}-\beta_1\times x_1),\quad \text{if}\quad 1<k<4;\\ 1-F(\alpha_3-\beta_1\times x_1),\quad \text{if}\quad k=4. \end{cases}$

定序回归模型

文章目录

什么是定序回归

模型构建

R语言实现