学习笔记,仅供参考,有错必纠
文档信息的向量化
一个简单模型在大数据量上的表现会比复杂模型在小数据量上的表现更好.
数据中蕴含的信息量决定一切
文本信息的分布式表示
如何将分布式表示用于NLP
- 不直接考虑词与词在原文中的相对位置、距离、语法结构等,先把每个词看作一个单独的向量
- 根据一个词在上下文中的临近词的含义,应当可以归纳出词本身的含义
- 单个词的词向量不足以表示整个文本,能表示的仅仅是这个词本身
分布式表示的步骤
- 需要事先决定用多少维度的向量来表示词条
- 维度以50维和100维比较常见
- 向量中每个维度的取值由模型训练来决定,且不再是唯一的
- 所有的词都在同一个高维空间中构成不同的向量
- 从而词与词之间的关系就可以用空间中的距离来加以表述
- 所有训练方法都是在训练语言模型的同时,顺便得到词向量的
- 语言模型其实就是看一句话是不是正常人说出来的,具体表现为词条先后出现的的顺序和距离所对应的概率是否最大化