Morizeyao / GPT2-Chinese

Chinese version of GPT2 training code, using BERT tokenizer.
MIT License
7.48k stars 1.7k forks source link

finetune需要的语料量+output上限 #280

Open jyan1999 opened 1 year ago

jyan1999 commented 1 year ago

请问一下,我想用这个生成短篇小说,目标大概是至少1000到2000字,但如果可以的话越多越好。请问这个模型能够输出这么多token么?如果想达到比较好的效果需要多少语料?非常感谢!

greatmfc commented 1 year ago

输出的字符长度可以自己改。如果要有比较好的生成效果的话个人实测模型参数量要300M以上,语料大小要在200MB以上

lishangru commented 1 year ago

thankyou