l4rz / gpt-2-training

Training GPT-2 on a Russian language corpus
86 stars 28 forks source link

Decoding not working? #4

Open NightShadow777 opened 4 years ago

NightShadow777 commented 4 years ago

Hello! I decided to try to train the model for the Russian language myself and during the training or starting the generation of the text, all the texts are in the form as in the picture. Doesn't decoding happen? I looked at your code like everything is the same. Thank you in advance for your help!

Привет! Решил попробовать сам обучить модель для русского языка и вовремя обучения или запуске генерации текста все тексты идут в таком виде как на картинке. Получается не происходит декодирование? Смотрел твой код вроде все так же. Заранее благодарю за помощь!

1

l4rz commented 4 years ago

Странно. А ты точно используешь sentencepiece токенайзер (а не тот BPE, который шел с gpt-2)?

import encoder_sp as encoder

NightShadow777 commented 4 years ago

Да использую sentencepiece и encoder_sp

NightShadow777 commented 4 years ago

Если будет у тебя время, посмотри пожалуйста код свежим глазом. Может, где-то ошибка закралась... Мой email: rudolf_miller@ukr.net, скину доступ к серверу.

NightShadow777 commented 4 years ago

Заменил свои sp.model и sp.vocab на твои. 1

l4rz commented 4 years ago

Написал, посмотри pls в почту.