总体介绍

英文中的word embedding译成中文的意思为词嵌入。相比较中文，英文由于有天然的分隔符（空格）存在，因此识别英文中的单词变得非常容易。而如果想把中文转化成数值向量常见的有两种方法：

char embedding（字嵌入），也就是将中文的一个一个的字转化成对应的数值向量；
word embedding（词嵌入），先用分词工具（如jieba）进行分词，再将每个单词映射到固定维度的词向量。

该篇文章主要探讨了对于中文来讲词嵌入和字嵌入哪一个更好。

基于单词的模型 Word-based models

基于单词的模型存在一些天生的问题。首先是词汇表外的单词——out-of-vocabulary (OOV)的存在。众所周知，想要把所有的单词都放到词汇表是中是一件不太可能的事情，因为这会导致数据矩阵的稀疏性（很多单词出现的频率极低），从而增加模型过拟合的风险，因为更多的单词通常以为着更多的参数。另一方面，如果我们减少词汇表的大小，又会增加OOV单词存在的风险，从而限制模型的学习能力。除此之外，不同的标准对于单词的界限也不尽相同，如图1所示。
在这里插入图片描述

图1 CTB和PKU分词示意

第二点就是分词任务的错误积累。目前最优秀的分词性能仍然不能满足研究的要求，而这也是由于中文单词的复杂性和多意新而导致的。
第三点是分词是否真的能带来可观的语义信息。为什么要进行分词？因为在常识上我们认为分词以后可以更明确其所代表的语义信息和上下文（context）。但实际上它比字嵌入的提升究竟有多少，始终不是很明确，而且在这篇文献当中，所列举的有关字嵌入和词嵌入的探讨的文献中的结论表明，词嵌入并不一定优于字嵌入。

文章实验

这篇文章的实验室采用了apples-to-apples的方式，意图是将由于外部因素而导致的模型间的差异变小。在这里插入图片描述

图2 不同模型中的语言建模的困难

PPL（Perplexity）是用在自然语言处理领域（NLP）中，用来衡量语言模型好坏的指标。一般来说越小越好。
hybird即为同时使用词向量和字向量，当然这篇文章的代码并没有开源，因此我也只能浅显的理解为在输入阶段二者单纯的拼接在一起。作者出于比较的目的，还实现了一个伪混合模型，用hybrid（char-only）表示，在该模型中，确实使用分词器对文本进行分割，但仅使用其组成字符的嵌入来获得单词表示。
实验结果是字嵌入普遍优于词嵌入，这里就不再张贴了。

分析

一个模型要想得到充分的学习，可能不在词汇表的词汇不能太多，但这确实基于单词的模型的一个难以逾越的阻碍。作者也做了相应的实验，但减少OOV时，两个模型的差异会变小，而这又极容易导致模型过拟合的问题。

总结

作者通过一系列实验发现，基于单词的模型表现不如基于字的模型的主要原因在于OOV的存在，并由此引发的稀疏性和过拟合问题。作者也希通过这篇文章来探讨CWS（中文分词）任务存在必要性。

思考

不能否认的是，由于无法很好的解决OOV和中文单词分隔界限的问题而导致基于单词的模型应用到下游NLP任务的局限性。但是对于中文来讲一个词代表的信息和每个字代表的信息并不会总是等价的，完全忽略中文的词汇也必不可少的会成为未来中文NLP发展的一个局限。
若要解决上述问题，我浅显的认为，首先应当有一个较为明确的分词标准，其次对于OOV的存在能否借助于WordPiece算法来缓解相应的问题。
[1]Is Word Segmentation Necessary for Deep Learning of Chinese Representations?