Text classification

Multi-class: many labels, only one correct
Binary-class: two labels, only one correct
Muti-label classification: many labels, several can be correct

我们假设我们有一个带有真实标签的文档集合。分类器的输入是带有标记 $((x_1， \dots， x_n))$ 的文档 $(x=(x_1， \dots， x_n))$ ，输出是一个标签 $\in 1\dots k)$ 。通常，分类器估计类的概率分布，我们希望正确类的概率最高。

文本分类器

特征提取器

经典方法或者学习（神经网络）
分类器

必须为给定文本的特征表示形式分配类概率。最常见的方法是逻辑回归，也可以用贝叶斯分类器或者svm

生成模型：

$p(x|y)\cdot p(y)$

$\max\limits_kp(x|y=k)⋅p(y=k)$

选取联合概率最高的类

条件模型

$p (y ∣ x)$

$ y=arg⁡ \max\limits_kp(y=k|x)$

选取一个条件概率最高的类

经典方法

朴素贝叶斯分类器

朴素贝叶斯是一个生成模型：它对数据的联合概率进行建模。

先验概率 $P (y = k)$ ：查看数据之前的类概率（即，在知道x之前）;
后验概率 $P (y = k ∣ x)$ ：查看数据后的类概率（即，在知道特定的x之后）;
联合概率 $P (x, y)$ ：数据的联合概率（即，示例 x 和标签 y ） ;
最大后验（MAP）估计：我们选择具有最高后验概率的类。

朴素贝叶斯假设：

词序无关
给定类的特征是独立的

$P(x|y=k)=P(x_1,…,x_n|y=k)=∏ \limits_{t=1}^nP(x_t|y=k)$

$P(x_i|y=k)=\frac{N(x_i,y=k)}{\sum\limits_{t=1}^{|V|}N(x_t,y=k)} $

如果 $N(x_i， y=k)=0$ 怎么办？需要避免这种情况！

使用一个简单的技巧：我们将所有单词的计数添加一个小的 $\delta$ ，称为拉普拉斯平滑

$P（x_i|y=k）=\frac{\color{red}{\delta} +\color{black} N（x_i， y=k） }{\sum\limits_{t=1}^{|V|}（\color{red}{\delta} +\color{black}N（x_t， y=k））}= \frac{\color{red}{\delta} +\color{black} N（x_i， y=k） }{\color{red}{\delta\cdot |V|}\color{black} + \sum\limits_{t=1}^{|V|}\color{black}N（x_t， y=k）} $

朴素贝叶斯（以及更广泛的生成模型）根据数据和类的联合概率进行预测： $y^{\ast} = \arg \max\limits_{k}P（x， y=k） = \arg \max\limits_{k} P（y=k）\cdot P（x|y=k）$

在情感分析方面，用单词做指标，累加判断整个句子是正类还是负类

在实践中，我们通常会处理对数概率而不是概率。

最大熵分类器

获取 $h=（f_1，f_2，...，f_n)$ 输入文本的特征表示;
拿 $w(i)=(w_1(i),...,w_n(i))$ - 具有每个类的特征权重的向量;
对于每个类，权衡特征，即取特征表示的点积h具有特征权重 $w^{(k)}:w^{(k)}h=w_1^{(k)}⋅f_1+⋯+w_n{(k)}⋅f_n, k=1,…,K$

为了得到上述总和中的偏差项，我们将其中一个特征定义为1（例如， $f_0=1$ )

$w^{(k)}:w^{(k)}h=w_0^{(k)}+w_1^{(k)}⋅f_1+⋯+w_n{(k)}⋅f_n, k=1,…,K$
使用 softmax 获取类概率： $P(class=k|h)=exp⁡(w^{(k)}h)∑_{i=1}^Kexp⁡(w^{(i)}h)$ .

Softmax 规范化K我们在上一步得到的值是输出类上的概率分布。