基于单词生成句子的重要trick——padding和truncation

郝春妮 2023-03-25 阅读 65

比如GPT模型，
每条数据如下
keyword111 ### generation-result1keyword22222 ### generation-result2keyword3333 ### generation-result3

如果不加padding和truncation处理的话，在keywords的长度不同的情况下，预测的时候，会出现生成结果也是keywords里的一部分的情况，

比如输入keyword111生成为keyword11132 ### generation-result1

所以应该把数据处理：
padding（补齐）到相同的长度
truncation（舍弃长度多出的token）到相同的长度

即处理为
keyword1110 ### generation-result1keyword2222 ### generation-result2keyword3333 ### generation-result3

0 条评论

关注