- 词表:{我,在,清华大学,读书,生活,美丽的,清华园,中}
- 词向量:
清华大学=[0,0,1,0,0,0,0,0]
清华园=[0,0,0,0,0,0,1,0]
美丽的=[0,0,0,0,0,1,0,0]
- 特点:向量太长,每两个向量之间的距离都是一样的。
猪向量=[1.0,0.1,1.0]
羊向量=[1.0,0.2,1.0]
熊猫=[1.0,0.3,0]
白菜=[0,1.0,1.0]
竹子=[0,1.0,0.1]
可计算向量间的距离。
- 给定一句话的前n-1个词,预测第n个词是什么词的概率。
- 用神经网络实现的,为神经网络语言模型。
可以用梯度下降法了。