yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
3.04k stars 369 forks source link

Chinese GPT2推理fix #168

Closed chosenone75 closed 8 months ago

chosenone75 commented 9 months ago

input_ids = tokenizer.encode(txt, return_tensors='pt') infer代码中使用bert tokenizer默认会在末尾加入特殊符号[SEP],影响效果,改为 input_ids = tokenizer.encode(txt, return_tensors='pt',add_special_tokens=True) 效果如下:

你 是 谁 的 错? 我 和 男 朋 友 在 一 起 快 一 年 了, 我 们 是 大 学 同 学, 他 是 我 .......

代码中其他的diff是由于notebook保存时是个字典,无顺序,其实内容一致。