0
点赞
收藏
分享

微信扫一扫

提升BERT fine-tune正确率0.2%-0.3%的一个细节

夹胡碰 2022-07-27 阅读 65


字级别分词,不要用官方的tokenizer (https://github.com/google-research/bert/blob/master/tokenization.py)

自己重写一个

def tokenize_to_str_list(textString):
split_tokens = []
for i in range(len(textString)):
split_tokens.append(textString[i])
return split_tokens

def convert_to_int_list(split_tokens):
output = []
for token in split_tokens:
if token in char2id:
output.append(char2id[item])
return


举报

相关推荐

0 条评论