Closed 01vanilla closed 1 year ago
你好,这个问题主要是由于lstm默认的tokenizer是BartTokenizer,因此不适用于多语任务。如果你想要评测wmt16-en-ro,可以更改--tokenizer_path
和--vocab_size
来进行修改,同时建议使用更大的学习率--learning_rate
。例如
python run_textbox.py --model=lstm --num_layers=2 --tokenizer_path=google/mt5-small --encoder_bidirectional=True --dataset=wmt16-en-ro --src_lang=en_XX --tgt_lang=ro_RO --epochs=1 --vocab_size=250112 --learning_rate=1e-3
描述这个 bug 我想使用lstm训练wmt16-en-ro,我是把wmt16-ro-en的数据集的src和tgt互换得到的数据,在训练时发现bleu始终为0,打开generation.txt查看发现生成的全是乱码,在查看数据集发现数据集是正常的,但是生成出来的却是乱码
如何复现 run_textbox.py --model=lstm --num_layers=2 --encoder_bidirectional=True --dataset=wmt16-en-ro --src_lang=en_XX --tgt_lang=ro_RO
日志 后附generation.txt generation.txt