Closed chosenone75 closed 8 months ago
input_ids = tokenizer.encode(txt, return_tensors='pt') infer代码中使用bert tokenizer默认会在末尾加入特殊符号[SEP],影响效果,改为 input_ids = tokenizer.encode(txt, return_tensors='pt',add_special_tokens=True) 效果如下:
input_ids = tokenizer.encode(txt, return_tensors='pt')
input_ids = tokenizer.encode(txt, return_tensors='pt',add_special_tokens=True)
你 是 谁 的 错? 我 和 男 朋 友 在 一 起 快 一 年 了, 我 们 是 大 学 同 学, 他 是 我 .......
代码中其他的diff是由于notebook保存时是个字典,无顺序,其实内容一致。
input_ids = tokenizer.encode(txt, return_tensors='pt')
infer代码中使用bert tokenizer默认会在末尾加入特殊符号[SEP],影响效果,改为input_ids = tokenizer.encode(txt, return_tensors='pt',add_special_tokens=True)
效果如下:代码中其他的diff是由于notebook保存时是个字典,无顺序,其实内容一致。