词嵌入（WORD2VEC）-CFANZ编程社区

原创：李孟启

1.前言

⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中，词是表义的基本单元。顾名思义，词向量是⽤来表示词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊（word embedding）。近年来，词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。

2.为何不采⽤ONE-HOT向量

假设词典中不同词的数量（词典⼤⼩）为 $N$ ，每个词可以和从 $0$ 到 $N - 1$ 的连续整数⼀⼀对应。这些与词对应的整数叫作词的索引。假设⼀个词的索引为 $i$ ，为了得到该词的one-hot向量表示，我们创建⼀个全 $0$ 的⻓为 $N$ 的向量，并将其第 $i$ 位设成 $1$ 。这样⼀来，每个词就表示成了⼀个⻓度为 $N$ 的向量，可以直接被神经⽹络使⽤。

虽然one-hot词向量构造起来很容易，但通常并不是⼀个好选择。⼀个主要的原因是，one-hot词向量⽆法准确表达不同词之间的相似度，如我们常常使⽤的余弦相似度。对于向量 $\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{d}$ ，它们的余弦相似度是它们之间夹⻆的余弦值:

$\frac{x^{\top} y}{\|x\| y \|} \in[-1,1]$
由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过one-hot向量准确地体现出来。

word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表示成⼀个定⻓的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。word2vec⼯具包含了两个模型，即跳字模型（skip-gram）和连续词袋模型（continuous bag of words，CBOW）。接下来让我们分别介绍这两个模型以及它们的训练⽅法。

3.跳字模型

跳字模型假设基于某个词来⽣成它在⽂本序列周围的词。举个例⼦，假设⽂本序是“the”“man”“loves”“his”“son”。以“loves”作为中⼼词，设背景窗⼝⼤⼩为2。如图1所示，跳字模型所关⼼的是，给定中⼼词“loves”，⽣成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率，即

$\text{ the", "man", "his", "son" } \mid " \text { loves" }) \text {. }$
假设给定中⼼词的情况下，背景词的⽣成是相互独⽴的，那么上式可以改写成

$\mid " loves") \cdot P(" \operatorname{man} " \mid " loves") \cdot P(" his" \mid " loves") \cdot P('son" \mid " loves").$

图1 跳字模型关⼼给定中⼼词⽣成背景词的条件概率

在跳字模型中，每个词被表示成两个 $d$ 维向量，⽤来计算条件概率。假设这个词在词典中索引为 $i$ ，当它为中⼼词时向量表示为 $v_{i} \in \mathbb{R}^{d}$ ，⽽为背景词时向量表示为 $u_{i} \in \mathbb{R}^{d}$ 。设中⼼词 $\mathrm{w}_{\mathrm{c}}$ 在词典中索引为 $c$ ，背景词 $\omega_{o}$ 在词典中索引为o ，给定中⼼词⽣成背景词的条件概率可以通过对向量内积做softmax运算⽽得到：
$P\left(w_{o} \mid w_{c}\right)=\frac{\exp \left(\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}\right)}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)}$
其中词典索引集 $\mathcal{V}=\{0,1, \ldots,|\mathcal{V}|-1\}$ 。假设给定⼀个⻓度为 $T$ 的⽂本序列，设时间步 $t$ 的词为 $w^{(t)}$ 。假设给定中⼼词的情况下背景词的⽣成相互独⽴，当背景窗⼝⼤⼩为 $m$ 时，跳字模型的似然函数即给定任⼀中⼼词⽣成所有背景词的概率

$\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(w^{(t+j)} \mid w^{(t)}\right)$
这⾥⼩于 $1$ 和⼤于 $T$ 的时间步可以忽略。

4.训练跳字模型

跳字模型的参数是每个词所对应的中⼼词向量和背景词向量。训练中我们通过最⼤化似然函数来学习模型参数，即最⼤似然估计。这等价于最⼩化以下损失函数：

$-\sum_{t=1}^{T} \sum_{-m \leq j \leq m, j \neq 0} \log P\left(w^{(t+j)} \mid w^{(t)}\right)$
如果使⽤随机梯度下降，那么在每⼀次迭代⾥我们随机采样⼀个较短的⼦序列来计算有关该⼦序列的损失，然后计算梯度来更新模型参数。梯度计算的关键是条件概率的对数有关中⼼词向量和背景词向量的梯度。根据定义，⾸先看到
$\log P\left(w_{o} \mid w_{c}\right)=\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}-\log \left(\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)\right)$
通过微分，我们可以得到上式中 $\boldsymbol{v}_{c}$ 的梯度

$\begin{aligned} \frac{\partial \log P\left(w_{o} \mid w_{c}\right)}{\partial \boldsymbol{v}_{c}} &=\boldsymbol{u}_{o}-\frac{\sum_{j \in \mathcal{V}} \exp \left(\boldsymbol{u}_{j}^{\top} \boldsymbol{v}_{c}\right) \boldsymbol{u}_{j}}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)} \\ &=\boldsymbol{u}_{o}-\sum_{j \in \mathcal{V}}\left(\frac{\exp \left(\boldsymbol{u}_{j}^{\top} \boldsymbol{v}_{c}\right)}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)}\right) \boldsymbol{u}_{j} \\ &=\boldsymbol{u}_{o}-\sum_{j \in \mathcal{V}} P\left(w_{j} \mid w_{c}\right) \boldsymbol{u}_{j} \end{aligned}$
它的计算需要词典中所有词以 $w_{c}$ 为中⼼词的条件概率。有关其他词向量的梯度同理可得。

训练结束后，对于词典中的任⼀索引为 $i$ 的词，我们均得到该词作为中⼼词和背景词的两组词向量 $\boldsymbol{v}_{i}$ 和 $\boldsymbol{u}_{i}$ 。在⾃然语⾔处理应⽤中，⼀般使⽤跳字模型的中⼼词向量作为词的表征向量。

5.连续词袋模型

连续词袋模型与跳字模型类似。与跳字模型最⼤的不同在于，连续词袋模型假设基于某中⼼词在⽂本序列前后的背景词来⽣成该中⼼词。在同样的⽂本序列“the”“man”“loves”“his”“son”⾥，以“loves”作为中⼼词，且背景窗⼝⼤⼩为2时，连续词袋模型关⼼的是，给定背景词“the”“man”“his”“son”⽣成中⼼词“loves”的条件概率（如图2所示），也就是

图2 连续词袋模型关⼼给定背景词⽣成中⼼词的条件概率

因为连续词袋模型的背景词有多个，我们将这些背景词向量取平均，然后使⽤和跳字模型⼀样的⽅法来计算条件概率。设 $v_{i} \in \mathbb{R}^{d}$ 和 $\boldsymbol{u}_{i} \in \mathbb{R}^{d}$ 分别表示词典中索引为 $i$ 的词作为背景词和中⼼词的向量（注意符号的含义与跳字模型中的相反）。设中⼼词 $w_{c}$ 在词典中索引为 $c$ ，背景词 $w_{o_{1}}, \ldots, w_{o_{2 m}}$ 在词典中索引为 $O_{1}, \ldots, O_{2 m}$ ，那么给定背景词⽣成中⼼词的条件概率

$P\left(w_{c} \mid w_{o_{1}}, \ldots, w_{o_{2 m}}\right)=\frac{\exp \left(\frac{1}{2 m} \boldsymbol{u}_{c}^{\top}\left(\boldsymbol{v}_{o_{1}}+\ldots+\boldsymbol{v}_{o_{2 m}}\right)\right)}{\sum_{i \in \mathcal{v}} \exp \left(\frac{1}{2 m} \boldsymbol{u}_{i}^{\top}\left(\boldsymbol{v}_{o_{1}}+\ldots+\boldsymbol{v}_{o_{2 m}}\right)\right)}$
为了让符号更加简单，我们记 $\mathcal{W}_{o}=\left\{w_{o_{1}}, \ldots, w_{o_{2 m}}\right\}$ ，且 $\overline{\boldsymbol{v}}_{o}=\left(\boldsymbol{v}_{o_{1}}+\ldots+\boldsymbol{v}_{o_{2 m}}\right) /(2 m)$ ，那么上式可以简写成
$P\left(w_{c} \mid \mathcal{W}_{o}\right)=\frac{\exp \left(\boldsymbol{u}_{c}^{\top} \overline{\boldsymbol{v}}_{o}\right)}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \overline{\boldsymbol{v}}_{o}\right)}$

给定⼀个⻓度为 $T$ 的⽂本序列，设时间步 $t$ 的词为 $w^{(t)}$ ，背景窗⼝⼤⼩为 $m$ 。连续词袋模型的似然函数是由背景词⽣成任⼀中⼼词的概率
$\prod_{t=1}^{T} P\left(w^{(t)} \mid w^{(t-m)}, \ldots, w^{(t-1)}, w^{(t+1)}, \ldots, w^{(t+m)}\right)$

6.训练连续词袋模型

训练连续词袋模型同训练跳字模型基本⼀致。连续词袋模型的最⼤似然估计等价于最⼩化损失函数

$-\sum_{t=1}^{T} \log P\left(w^{(t)} \mid w^{(t-m)}, \ldots, w^{(t-1)}, w^{(t+1)}, \ldots, w^{(t+m)}\right)$

注意到

$\log P\left(w_{c} \mid \mathcal{W}_{o}\right)=\boldsymbol{u}_{c}^{\top} \overline{\boldsymbol{v}}_{o}-\log \left(\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \overline{\boldsymbol{v}}_{o}\right)\right)$
通过微分，我们可以计算出上式中条件概率的对数有关任⼀背景词向量 $v_{o_{i}}(i=1, \ldots, 2 m)$ 的梯度

$\frac{\partial \log P\left(w_{c} \mid \mathcal{W}_{o}\right)}{\partial v_{o_{i}}}=\frac{1}{2 m}\left(\boldsymbol{u}_{c}-\sum_{j \in \mathcal{V}} \frac{\exp \left(\boldsymbol{u}_{j}^{\top} \bar{v}_{o}\right) \boldsymbol{u}_{j}}{\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \bar{v}_{o}\right)}\right)=\frac{1}{2 m}\left(\boldsymbol{u}_{c}-\sum_{j \in \mathcal{V}} P\left(w_{j} \mid \mathcal{W}_{o}\right) \boldsymbol{u}_{j}\right)$
有关其他词向量的梯度同理可得。同跳字模型不⼀样的⼀点在于，我们⼀般使⽤连续词袋模型的背景词向量作为词的表征向量。

7.近似训练

跳字模型的核⼼在于使⽤softmax运算得到给定中⼼词 $w_{c}$ 来⽣成背景词 $w_{o}$ 的条件概率

$P\left(w_{o} \mid \boldsymbol{w}_{c}\right)=\frac{\exp \left(\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}\right)}{\sum_{i \in \mathcal{U}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)}$
该条件概率相应的对数损失

$-\log P\left(w_{o} \mid w_{c}\right)=-\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}+\log \left(\sum_{i \in \mathcal{V}} \exp \left(\boldsymbol{u}_{i}^{\top} \boldsymbol{v}_{c}\right)\right)$
由于softmax运算考虑了背景词可能是词典 $\mathcal{V}$ 中的任⼀词，以上损失包含了词典⼤⼩数⽬的项的累加。在上⼀节中我们看到，不论是跳字模型还是连续词袋模型，由于条件概率使⽤了softmax运算，每⼀步的梯度计算都包含词典⼤⼩数⽬的项的累加。对于含⼏⼗万或上百万词的较⼤词典，每次的梯度计算开销可能过⼤。为了降低该计算复杂度，本节将介绍两种近似训练⽅法，即负采样（negative sampling）或层序softmax（hierarchical softmax）。由于跳字模型和连续词袋模型类似，本节仅以跳字模型为例介绍这两种⽅法。

8.负采样

负采样修改了原来的⽬标函数。给定中⼼词 $w_{c}$ 的⼀个背景窗⼝，我们把背景词 $w_{o}$ 出现在该背景窗⼝看作⼀个事件，并将该事件的概率计算为

$P\left(D=1 \mid w_{c}, w_{o}\right)=\sigma\left(\boldsymbol{u}_{o}^{\top} \boldsymbol{v}_{c}\right)$
其中的 $\sigma$ 函数与sigmoid激活函数的定义相同：

$\sigma(x)=\frac{1}{1+\exp (-x)} .$
我们先考虑最⼤化⽂本序列中所有该事件的联合概率来训练词向量。具体来说，给定⼀个⻓度为T的⽂本序列，设时间步t 的词为 $w^{(t)}$ 且背景窗⼝⼤⼩为 $m$ ，考虑最⼤化联合概率

$\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(D=1 \mid w^{(t)}, w^{(t+j)}\right)$
然⽽，以上模型中包含的事件仅考虑了正类样本。这导致当所有词向量相等且值为⽆穷⼤时，以上的联合概率才被最⼤化为1。很明显，这样的词向量毫⽆意义。负采样通过采样并添加负类样本使⽬标函数更有意义。设背景词 $w_{o}$ 出现在中⼼词 $w_{c}$ 的⼀个背景窗⼝为事件 $P$ ，我们根据分布 $P (w)$ 采样 $K$ 个未出现在该背景窗⼝中的词，即噪声词。设噪声词 $w_{k}\quad(k=1, \ldots, K)$ 不出现在中⼼词 $w_{c}$ 的该背景窗⼝为事件 $N_{k}$ 。假设同时含有正类样本和负类样本的事件 $N_{1}, \ldots, N_{K}$ 相互独⽴，负采样将以上需要最⼤化的仅考虑正类样本的联合概率改写为
$\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(w^{(t+j)} \mid w^{(t)}\right)$
其中条件概率被近似表示为

$P\left(w^{(t+j)} \mid w^{(t)}\right)=P\left(D=1 \mid w^{(t)}, w^{(t+j)}\right) \prod_{k=1, w_{k} \sim P(w)}^{K} P\left(D=0 \mid w^{(t)}, w_{k}\right)$
设⽂本序列中时间步 $t$ 的词 $w^{(t)}$ 在词典中的索引为 $i_{t}$ ，噪声词 $w_{k}$ 在词典中的索引为 $h_{k}$ 。有关以上条件概率的对数损失为

$\begin{aligned} -\log P\left(w^{(t+j)} \mid w^{(t)}\right) &=-\log P\left(D=1 \mid w^{(t)}, w^{(t+j)}\right)-\sum_{k=1, w_{k} \sim P(w)}^{K} \log P\left(D=0 \mid w^{(t)}, w_{k}\right) \\ &=-\log \sigma\left(\boldsymbol{u}_{i_{t+j}}^{\top} \boldsymbol{v}_{i_{t}}\right)-\sum_{k=1, w_{k} \sim P(w)}^{K} \log \left(1-\sigma\left(\boldsymbol{u}_{h_{k}}^{\top} \boldsymbol{v}_{i_{t}}\right)\right) \\ &=-\log \sigma\left(\boldsymbol{u}_{i_{t+j}}^{\top} \boldsymbol{v}_{i_{t}}\right)-\sum_{k=1, w_{k} \sim P(w)}^{K} \log \sigma\left(-\boldsymbol{u}_{h_{k}}^{\top} \boldsymbol{v}_{i_{t}}\right) \end{aligned}$
现在，训练中每⼀步的梯度计算开销不再与词典⼤⼩相关，⽽与 $K$ 线性相关。当 $K$ 取较⼩的常数时，负采样在每⼀步的梯度计算开销较⼩。

9.层序softmax

层序softmax是另⼀种近似训练法。它使⽤了⼆叉树这⼀数据结构，树的每个叶结点代表词典中的每个词。

图3 层序softmax。⼆叉树的每个叶结点代表着词典的每个词

假设 $L (w)$ 为从⼆叉树的根结点到词 $w$ 的叶结点的路径（包括根结点和叶结点）上的结点数。设 $n (w, j)$ 为该路径上第 $j$ 个结点，并设该结点的背景词向量为 $\boldsymbol{u}_{n}(w, j)$ 。以图3为例， $L\left(w_{3}\right)=4$ 。层序 softmax将跳字模型中的条件概率近似表示为

leftChild(n) 是结点 n的左⼦结点：如果判断 $x$ 为真，[x]=1 ；反之 [x]=-1。让我们计算图3中给定词 $w_{c}$ ⽣成词 $w_{3}$ 的条件概率。我们需要将 $w_{c}$ 的词向量 $\boldsymbol{v}_{c}$ 和根结点到 $w_{3}$ 路径上的⾮叶结点向量⼀⼀求内积。由于在⼆叉树中由根结点到叶结点 $w_{3}$ 的路径上需要向左、向右再向左地遍历（图10中加粗的路径），我们得到
$P\left(w_{3} \mid w_{c}\right)=\sigma\left(\boldsymbol{u}_{n\left(w_{3}, 1\right)}^{\top} \boldsymbol{v}_{c}\right) \cdot \sigma\left(-\boldsymbol{u}_{n\left(w_{3}, 2\right)}^{\top} \boldsymbol{v}_{c}\right) \cdot \sigma\left(\boldsymbol{u}_{n\left(w_{3}, 3\right)}^{\top} \boldsymbol{v}_{c}\right)$
由于 $\sigma(x)+\sigma(-x)=1$ ，给定中⼼词 $w_{c}$ ⽣成词典 $\mathcal{V}$ 中任⼀词的条件概率之和为1这⼀条件也将满⾜：
$\sum_{w \in \mathcal{V}} P\left(w \mid w_{c}\right)=1$
此外，由于 $L\left(w_{o}\right)-1$ 的数量级为 $\mathcal{O}\left(\log _{2}|\mathcal{V}|\right)$ ，当词典 $\mathcal{V}$ 很⼤时，层序softmax在训练中每⼀步的梯度计算开销相较未使⽤近似训练时⼤幅降低。