Morizeyao / GPT2-Chinese

Chinese version of GPT2 training code, using BERT tokenizer.
MIT License
7.46k stars 1.7k forks source link

生成文字中老是出来一个符号[UNK],啥原因啊 #236

Open cricketshen opened 2 years ago

cricketshen commented 2 years ago

生成文字中老是出来一个符号[UNK],啥原因啊

Dragon-GCS commented 2 years ago

[UNK]是不在字典里的字符,可能你训练的时候太多字不在字典里了

bibibi-bug commented 2 years ago

我也差不多这样,但我看了下词库里面是存在的

xruifan commented 2 years ago

原因在這裡, 如果無法解決可以嘗試在生成文本時把[UNK] token的logits設為-float('Inf')

cywjava commented 1 year ago

词表里没有你这个词,就会用UNK代替。