mixtral 8*7B的最佳训练参数，推理参数可以提供一个吗?

OpenLLMAI / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & Mixtral)

https://openrlhf.readthedocs.io/

Apache License 2.0

1.71k stars 160 forks source link

Closed harvinyou closed 3 weeks ago

hijkzzz commented 3 weeks ago

大致参考 llama 70b 即可，细微的性能参数要手工调整了。