n-gram是deep-learning时代之前的语言模型
1 n-gram
n-gram是连续的n个词组成的序列
2 基于n-gram的语言模型
2.1 马尔科夫假设
一个单词的概率,只依赖于之前的n-1个单词
2.2 举例
2.3 n-gram的问题
2.3.1 距离太远的词
不难发现,之前离得太远的词,即使对预测很有帮助,也不会被考虑
2.3.2 稀疏性问题