position embedding BERT 里的实现:

 要思考一个问题,什么是position embedding,
 就是:
 如果每个position的位置用0,1,2,3,4…来表示的话,
 怎样像word embedding似的输进模型里呢,
 就是两种办法:
 one-hot
 或者
 把position的0,1,2,3,4看成word id一样用embedding_lookup表示成和word embedding同样维数,也就是用一个vector代表0,用一个vector代表1,用一个vector代表2……
 position 0,1,2,3,4每个id或index都会转成一个vector,合起来也就是一个随机矩阵!所以看position embedding的另一种实现:


                










