IlyaGusev / rulm

Language modeling and instruction tuning for Russian
Apache License 2.0
455 stars 50 forks source link

Why results are much worse on V100? #24

Closed igroboy closed 1 year ago

igroboy commented 1 year ago

Why results of Saiga 2 are much worse on V100? I tried inference model on V100, and indeed results sucks. What's the reason? And can I somehow fix it?

Andrew-MK commented 1 year ago
IlyaGusev commented 1 year ago

Answered here: https://huggingface.co/IlyaGusev/saiga2_7b_lora/discussions/1

Проблемы могут быть только при использовании LLM.int8 (load_in_8bits в transformers). Это никак не связано с обучением.

Цифра посередине - ничьи. При сравнении с gpt-3.5 вторая Сайга лучше первой. В лидерборде её нет без особенных причин.