0
点赞
收藏
分享

微信扫一扫

基于单词生成句子的重要trick——padding和truncation


比如GPT模型,
每条数据如下
keyword111 ### generation-result1keyword22222 ### generation-result2keyword3333 ### generation-result3

如果不加padding和truncation处理的话,在keywords的长度不同的情况下,预测的时候,会出现生成结果也是keywords里的一部分的情况,

比如输入keyword111生成为keyword11132 ### generation-result1

所以应该把数据处理:
padding(补齐)到相同的长度
truncation(舍弃长度多出的token)到相同的长度

即处理为
keyword1110 ### generation-result1keyword2222 ### generation-result2keyword3333 ### generation-result3


举报

相关推荐

0 条评论