0
点赞
收藏
分享

微信扫一扫

Distributed Representations of Words and Phrasesand their Compositionality

phpworkerman 2022-01-13 阅读 22

摘要

首先表明continuous Skip-gram 模型学习到的distributed vector representations 可以捕获到语法和语义关系。对高频词的下采样有助于提升训练速度,且可以learn more regular word representations。用negative sampling来代替hierarchical softmax 。

word representations无法区别词序,也无法表示短语。文中举例,“Air Canada”(加拿大航空公司)的含义是很难对"Canada"、“Air”的含义进行组合来得到的。针对这种现象,提出了一种发现短语的方法,并表示是可以百万级别短语的词向量表示的。

举报

相关推荐

0 条评论