这篇文章是我的笔记分享，内容主要来自吴恩达老师的深度学习课程。^[AI中国官网-全球领先的线上AI教育、实践平台 (deeplearningai.net)]
这篇文章是叫定向搜索的改进，实际上是接续着上一篇束搜索 Beam search algorithm^[束搜索 Beam search]来讲的。本文的主要内容是在实际应用中束搜索会存在的一些问题以及对应的改进方法。

现存问题

上一节我们提到束搜索要做的其实就是：

$$
\arg \max {y} \prod{t=1}^{T_{y}} P\left(y^{<t>} \mid x, y^{<1>}, \ldots, y^{<t-1>}\right)
$$

其中
$$
p\left(y^{(1)} \ldots y^{\left(T_{y}\right)} | (x)\right)=p\left(y^{(1)} \mid x\right) \times p\left(y^{(2)} \mid x, y^{(1)}\right) \times ... \times p\left(y^{(T y)}|x, y^{(1)} \ldots, y^{(T_y-1)}\right)
$$

这个计算公式在实际的计算过程中会产生两个问题。

计算下溢：首先在实际的计算过程当中，因为这些概率都是一个小于1的值。当多个小于1的值进行相乘的时候，很可能会出现数据下溢的情况。
判断失误：因为我们要求的是$\arg \max {y} \prod{t=1}^{T_{y}} P\left(y^{<t>} \mid x, y^{<1>}, \ldots, y^{<t-1>}\right)$，也就是说要对这个公式进行最大化计算。所以会造成一个问题，就是他会倾向于更短的句子。因为同样都是小于一的数字相乘，乘出来的数字会越来越小。$0.1 \times 0.1 \times 0.1 \times 0.1 \times 0.1 $和$0.1 \times 0.1 \times 0.1 \times 0.1 \times 0.1 \times 0.1 \times 0.1 \times 0.1 \times 0.1 $哪个更小一目了然。当然实际过程中并不是每个概率都是0.1。但是短的句子总会取得较大的计算值这个是毋庸置疑的。所以输出通常会偏向于更短的句子。