Inconsistent Evaluation Results

bigscience-workshop / multilingual-modeling

BLOOM+1: Adapting BLOOM model to support a new unseen language

https://arxiv.org/abs/2212.09535

Apache License 2.0

69 stars 15 forks source link

Inconsistent Evaluation Results #17

Open yongzx opened 2 years ago

yongzx commented 2 years ago

I am getting different results by running training/eval together and separately. Rerunning evaluation after training (by removing --do_train) gives me a better result than running training+eval together.