引言

在Transformer(三)自注意力机制一节中介绍了位置编码 $(\text{Position Embedding})$ ，本系列针对位置编码再回首，从公式角度重新认识位置编码。本节作为铺垫，介绍一下词向量模型—— $\text{Word2vec}$ 。

回顾：关于词特征表示的 $\text{One-hot}$ 编码

在循环神经网络简单示例中，我们简单介绍了基于 $\text{One-hot}$ 向量的文本表征。

关于某种语言的词汇表 $\mathcal V$ 内包含 $|\mathcal V|$ 个具体词语：
$\mathcal V = \{\omega_1,\omega_2,\cdots,\omega_{|\mathcal V|}\}$
而 $\text{One-hot}$ 编码将 $|\mathcal V|$ 均使用长度为 $|\mathcal V|$ 的向量进行文本表征。并满足：
其中 $j$ 表示词语在 $\mathcal V$ 中的下标; $\omega_j^{(i)}$ 则是某词语 $\omega_j$ 的特征表示过程中，第 $i$ 个特征分量的结果。
$\begin{cases} \begin{aligned} & \sum_{j=1}^{|\mathcal V|} \omega_j^{(i)} = 1 \\ & \omega_j^{(i)} \in \{0,1\} \end{aligned} \end{cases}$
这种词向量的表示方法优点在于：每一个 $\text{One-hot}$ 编码必然与 $\mathcal V$ 中的某个词之间存在恒等映射关系，并且将文本信息转换为 $\text{One-hot}$ 编码过程中，不存在特征信息丢失的情况。
相应地，该编码方式的缺陷也很明显：首先，每个 $\text{One-hot}$ 编码仅有 $1$ 位存在有效信息，其余位均为 $0$ (稀疏编码)；其次，无法表达词语之间的相关性信息。因为各向量之间内积结果必然是 $0$ ，从而使得它们之间线性无关。
但这种表达明显违背了语言自身的‘性质’。在对应的语境下，某些词之间存在关联关系。

目标函数构建

关于语料库与任务目标

我们已知的训练信息就是语料库 $(\text{Corpus})$ 。这个语料库没有标签，只有一段一段地文本。我们将这些文本整合在一起，表示成一个长度为 $\mathcal T$ 的超长序列：
其中这里的 $w_t(t=1,2,\cdots,\mathcal T)$ 表示基于词的随机变量。
$\mathcal D = \{w_1,w_2,\cdots,w_{t-1},w_t,w_{t+1},\cdots,w_{\mathcal T}\}$

而目标是求解基于语料库 $\mathcal D$ 内产生的词汇表 $\mathcal V$ 中每个词的分布式向量 $(\text{Distributed Vector})$ 表示。而这个向量需要满足如下要求：

能够在有限维数条件下尽量完整地描述某个词的语义信息；
向量能够表达出词与词之间的相似度关系。

从语言自身的角度观察，两个词语之间存在相似度关系的依据是：描述各词语对应的上下文 $(\text{Context})$ 进行对比，如果对应上下文之间存在相似性，我们推断这两个词之间存在相似性关系。相反，如果已知两个词语之间存在相似性，那么它们所在文本序列的上下文之间同样存在相似性关系。

似然函数构建

如何使用概率分布描述上下文信息 $?$ 关于语料库 $\mathcal D$ 的联合概率分布表示如下：
$\mathcal P(w_{1:\mathcal T}) = \mathcal P(w_1,w_2,\cdots,w_{\mathcal T})$

如果我们在上下文未知的条件下，想要知道这个长为 $\mathcal T$ 的序列中，第 $\in \{1,2,\cdots,\mathcal T\})$ 个位置的随机变量 $w_t$ 选择某个具体词的概率 $\mathcal P(w_t)$ 。由于没有任何额外信息，这等价于：从词汇表 $\mathcal V$ 中均匀采样出一个样本，而该采样概率是我们想要的具体词的概率，即 $\begin{aligned}\mathcal P(w_t) = \frac{1}{|\mathcal V|}\end{aligned}$ 。
在该条件下, $\mathcal P(w_t)$ 的结果是恒定不变的 $(\text{Constant})$ 。
在 $\mathcal P(w_t)$ 已知的条件下，联合概率分布 $\mathcal P(w_{1:\mathcal T})$ 可表示为：
其中这里的 $\text{Context}(w_t)$ 没有进行约束，即表示 $w_t$ 的上下文。即 $w_1,\cdots,w_{t-1},w_{t+1},\cdots,w_{\mathcal T}$ 。
$\mathcal P(w_{1:\mathcal T}) = \mathcal P(w_t) \cdot \mathcal P[\text{Context}(w_t) \mid w_t]$
如果不对 $\text{Context}(w_t)$ 范围进行约束，那么它的计算量是非常复杂的。为了简化运算，我们引入假设 $(1)$ ：给 $\text{Context}$ 范围设置成有限的窗口大小。我们假设窗口大小为 $2\mathcal C$ 。也就是说：我们仅考虑 $w_t$ 之前与之后的 $\mathcal C$ 个随机变量对 $w_t$ 产生的影响。因而上述公式可改写成如下形式：
很明显，这只是一个‘近似相等’，因假设 $(1)$ 的约束将原始的联合概率分布 $\mathcal P(w_{1:\mathcal T})$ 限制成了 $\mathcal P(w_{t-\mathcal C \text{ : } t+\mathcal C})$ 。
$\mathcal P(w_{1:\mathcal T}) \overset{(1)}{=} \mathcal P(w_t) \cdot \mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t)$
由于 $\mathcal P(w_{t})$ 是一个定值，因而我们关注的对象在条件概率分布 $\mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t)$ 上面。最终关于 $w_t$ 的条件似然 $(\text{Conditional Likelihood})$ 表示如下：
由于 $\mathcal P(w_t)$ 是定值，不会发生变化;因而 $\mathcal P(w_t)$ 的‘似然’不在考虑范围内。
$\mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t)$
由于 $w_t$ 是我们任意指定位置的随机变量，从而得到一个关于 $w_t$ 的条件似然；实际上，我们可以取到 $w_1,w_2,\cdots,w_{\mathcal T}$ 内的任意一个位置，每一个位置均对应一个条件似然：
共存在 $\mathcal T$ 个条件似然。
$\mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t) \quad t=1,2,\cdots \mathcal T$
引入假设 $(2)$ :如果给定对应 $w_t(t \in\{1,2,\cdots,\mathcal T\})$ 的条件下，任意两个条件似然分布之间相互独立，那么完整的条件似然可以表示为上述 $\mathcal T$ 个条件似然的乘积结果：
$\prod_{t=1}^{\mathcal T} \mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t)$
为了简化上述的连乘形式，在此基础上，增加均值和 $\text{log}$ 函数，得到均值化的条件对数似然 $(\text{Average Conditional Log Likelihood})$ ：
均值和 $\log$ 函数并不影响‘完整条件似然’的单调性。
$\frac{1}{\mathcal T} \sum_{t=1}^{\mathcal T} \log \mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t)$
继续观察 $\mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t)$ ，它可看作是 $w_t$ 条件下，窗口内 $2\mathcal C - 1$ 个词的联合概率分布，继续对其进行分解。引入假设 $(3)$ ：在给定 $w_t$ 的条件下， $w_{t-\mathcal C},\cdots,w_{t-1},w_{t+1},\cdots,w_{t+\mathcal C}$ 之间独立同分布。基于该假设：可以将 $\mathcal P(w_{t-\mathcal C \text{ : } t-1},w_{t+1 \text{ : } t+\mathcal C} \mid w_t)$ 分解成更细致地连乘形式：
该部分需要注意：这里说的是 $w_{t-\mathcal C} \mid w_t,\cdots,w_{t-1} \mid w_t,w_{t+1} \mid w_t,\cdots,w_{t+\mathcal C} \mid w_t$ 它们之间独立同分布，而不仅仅是 $w_{t-\mathcal C},\cdots,w_{t-1},w_{t+1},\cdots,w_{t+\mathcal C}$ 独立同分布。如果是第二种情况，下面公式不成立。
$\begin{aligned} \mathcal I & = \frac{1}{\mathcal T} \sum_{t=1}^{\mathcal T} \log \prod_{ i \in [-\mathcal C,\mathcal C] ;i \neq 0} \mathcal P(w_{t+i} \mid w_t) \\ & = \frac{1}{\mathcal T} \sum_{t=1}^{\mathcal T} \sum_{i = -\mathcal C(\neq 0)}^{\mathcal C} \log \mathcal P(w_{t+i} \mid w_t) \end{aligned}$

至此，通过 $3$ 个假设，将完整似然 $\begin{aligned}\prod_{t=1}^\mathcal T \mathcal P[\text{Context}(w_t) \mid w_t]\end{aligned}$ 简化并分解成了上述形式。基于上述的分解结果，仅需要对 $\mathcal P(w_{t+i} \mid w_t)$ 进行建模，就可将该似然求解出来。而 $\mathcal P(w_{t+i} \mid w_t)$ 的物理意义是：给定一个中心词 $w_t$ ，基于该词所在窗口内的某个词 $w_{t+i}(i \leq \mathcal C)$ 的后验概率。
重点：由于假设窗口内的其他词 $w_{t-\mathcal C},\cdots,w_{t-1},w_{t+1},\cdots,w_{t+\mathcal C}$ 在给定 $w_t$ 情况下是‘独立同分布’的，因此这些词之间已经失去了顺序关系。

从极大似然估计的角度也能看出来，它将整个似然函数 $\begin{aligned}\prod_{t=1}^\mathcal T \mathcal P[\text{Context}(w_t) \mid w_t]\end{aligned}$ 分解成若干个 $\log \mathcal P(w_{t+i} \mid w_t)$ 并各自独立地求解最大值。因此基于这种策略求解的 $\text{Vector}$ 结果并不包含序列信息。

最终，将极大似然估计转换成常见的优化问题：
其中 $\theta$ 表示模型参数，并转换成最小化问题。
$\mathcal J(\theta) = - \frac{1}{\mathcal T} \sum_{t=1}^{\mathcal T} \sum_{i = -\mathcal C(\neq 0)}^{\mathcal C} \log \mathcal P(w_{t+i} \mid w_t)$

$\text{Word2vec}$ 模型结构

基于上述描述，我们将对 $\mathcal P(w_{t+i} \mid w_t)$ 进行建模。由于 $\mathcal P(w_{t+i} \mid w_t)$ 内已经不包含窗口内词语的序列信息，因此将 $\mathcal P(w_{t+i} \mid w_t)$ 简化成如下形式：
其中 $w_i$ 表示输入的词语信息; $w_o$ 表示基于 $w_i$ 的，模型输出的词语分布。
$\mathcal P(w_{t+i} \mid w_t) = \mathcal P(w_o \mid w_i)$
假设我们的 $w_i$ 取的是词汇表中的第 $k$ 个词语 $\omega_k$ ，对应的输入就是 $\omega_k$ 的 $\text{One-hot}$ 编码：
当然, $\text{One-hot}$ 编码自身就是一个很‘极端’的离散型分布。
$w_i = \omega_k = (0,0,\cdots,\underbrace{1}_{位置k},0,\cdots,0)^T$
关于 $w_o$ 可能取值的后验结果见下表：

$w_o \mid w_i = \omega_k$	$\omega_1$	$\omega_2$	$\cdots$	$\omega_j$	$\cdots$	$\omega_{\mid\mathcal V\mid}$
$\mathcal P(w_o \mid w_i = \omega_k)$	$p_1$	$p_2$	$\cdots$	$p_j$	$\cdots$	$p_{\mid\mathcal V \mid}$

既然是概率值，自然满足：
$\sum_{j=1}^{|\mathcal V|} p_j = 1 \quad \begin{cases} p_j = \mathcal P(w_o = \omega_j \mid w_i = \omega_k) \\ p_j \in (0,1] \end{cases}$
对于这样一个离散的后验分布，通常会想到多分类任务。因而可以使用 $\text{Softmax}$ 函数对各离散概率进行表示：
公式中的 $x_j$ 表示模型学习特征信息中的第 $j$ 个分量,也就是下面所说的隐藏层的第 $j$ 个输出;对应的 $\text{Softmax}$ 结果就是关于概率 $p_j$ 的预测结果。
$\begin{aligned} p_j & = \mathcal P(w_o = \omega_j \mid w_i = \omega_k) \\ & = \text{Softmax}(x_j) \end{aligned}$
由于 $\mathcal P(w_o = \omega_j \mid w_i = \omega_i)$ 本质上依然是一个以 $w_o$ 作为输入，输出是各词对应概率分布的复杂函数，因此可以利用神经网络的通用逼近定理进行描述：

其中模型的输入就是 $w_i = \omega_k$ 对应的 $\text{One-hot}$ 编码，长度为 $|\mathcal V|$ ;并且第 $k$ 个位置的元素是 $1$ ;对应输出是随机变量 $w_o$ 对应各词的概率分布结果，长度同样是 $|\mathcal V|$ 。
其中 $\text{Softmax}$ 的函数表示式为 $\begin{aligned} \text{Softmax}(x_i) = \frac{\exp(x_i)}{\sum_{j=1}^{|\mathcal V|} \exp(x_j)} \end{aligned}$ ,其中 $x_i(i\in\{1,2,\cdots,|\mathcal V|\})$ 表示隐藏层的输出结果。该函数的输出结果保证了 $\begin{aligned}\sum_{j=1}^{|\mathcal V|} p_j = 1 ; p_j \in (0,1]\end{aligned}$ 的条件约束。

关于 $\text{Word2vec}$ 模型，它的隐藏层并没有设置激活函数，或者说它的激活函数就是一个恒等映射。其目的依然是为了计算过程简便。如果加入了激活函数，由于输入和输出都是 $|\mathcal V|$ 个神经元，对应隐藏层的计算量是非常恐怖的。因而只有在输出层保留一个 $\text{Softmax}$ 激活函数，其余层均只有线性计算操作。

由于隐藏层部分没有激活函数，仅包含线性运算操作，因而可以将其视作矩阵之间的乘法运算.下面剖析该神经网络隐藏层的执行过程：

关于输入 $\omega_i \in \mathbb R^{|\mathcal V| \times 1}$ 对应隐藏层的权重信息使用矩阵进行表示。分别记作 $\mathcal W \in \mathbb R^{|\mathcal V| \times d},\mathcal U \in \mathbb R^{d \times |\mathcal V|}$ ：
基于上述定义，输入层 $\Rightarrow$ 隐藏层，隐藏层 $\Rightarrow$ 输出层的矩阵乘法操作分别表示为：
$\begin{cases} [\omega_i]_{1 \times |\mathcal V|}^T \cdot \mathcal W_{|\mathcal V| \times d} \in \mathbb R^{1 \times d} \\ \left\{[\omega_i]^T \cdot \mathcal W \right\}_{1 \times d} \cdot \mathcal U_{d \times |\mathcal V|} \in \mathbb R^{1 \times |\mathcal V|} \end{cases}$

观察第一次矩阵乘法操作，由于 $\omega_i$ 是一个 $\text{One-hot}$ 编码向量(第 $i$ 分量为 $1$ )，那么 $[\omega_i]^T \cdot \mathcal W$ 操作就是将 $\mathcal W$ 内的第 $i$ 行元素 $\in \mathbb R^{1 \times d}$ 取出而已。记 $\mathcal W$ 为如下形式：
其中 $w_1,w_2,\cdots,w_{|\mathcal V|}$ 表示 $\mathcal W$ 每行元素组成的列向量。
$\mathcal W = \begin{bmatrix} (w_1)^T \\ (w_2)^T \\ \vdots \\ (w_{|\mathcal V|})^T \end{bmatrix}$
同理，对应 $\mathcal U$ 表示为如下形式：
其中 $u_1,u_2,\cdots,u_{|\mathcal V|}$ 表示 $\mathcal U$ 每一列的列向量。
$\mathcal U = (u_1,u_2,\cdots,u_j\cdots,u_{|\mathcal V|})$

至此，上面的矩阵乘法操作可以描述成如下形式：
$\begin{cases} [\omega_i]^T \cdot \mathcal W = (w_i)^T \\ \begin{aligned} (w_i)^T \cdot \mathcal U & \Rightarrow (w_i)^T \cdot (u_1,u_2,\cdots,u_{|\mathcal V|}) \\ & = \left[(w_i)^T u_1,(w_i)^T u_2,\cdots,(w_i)^T u_{|\mathcal V|}\right] \end{aligned} \end{cases}$
因而关于输出层(执行 $\text{Softmax}$ 前一层)中第 $\in \{1,2,\cdots,|\mathcal V|\})$ 个神经元的输出 $x_j$ 可直接表示为如下形式：
它就是一个标量。
$x_j = (w_i)^T u_j$
最终经过 $\text{Softmax}$ 函数，求出第 $j$ 个位置的概率分布 $p_j$ 。同理，通过这种操作可以求解其他概率分布 $p_1,p_2,\cdots,p_{|\mathcal V|}$ 。
而最后的优化函数中的参数 $\theta$ 指的就是 $\text{Word2vec}$ 中的权重信息 $\mathcal W,\mathcal U$ 。

重点总结

本质上 $\text{Word2vec}$ 本身是一个特殊的神经网络，因为这个网络中没有激活函数。并且该模型遵循的优化策略是负均值化的对数似然：
$\mathcal J(\theta) = - \frac{1}{\mathcal T} \sum_{t=1}^{\mathcal T} \sum_{i = -\mathcal C(\neq 0)}^{\mathcal C} \log \mathcal P(w_{t+i} \mid w_t)$
该似然函数中的 $3$ 个假设使得该优化过程中丢失了序列信息。它的底层逻辑就是描述输出词与输入词之间的相似性关系。

相关参考：
词向量(Word Vector)【白板推导系列】

深度学习笔记之Transformer——Position Embedding铺垫：Word2vec

引言