Closed dhcode-cpp closed 8 months ago
问题1:按照官方教程,在mindrlhf工程里没有run_mindformer.py 程序 解决方案:库上的教程目前是基于mindformers改动网络,然后在mindformers中运行的,所以该文件在mf中。 问题2: 没有GPT2Reward model 解决方案:参考mindformers中https://gitee.com/mindspore/mindformers/blob/dev/mindformers/models/bloom/bloom_reward.py的实现,可以修改gpt2模型 问题3:运行时,模型文件缺失tokenizer_config.json; 解决方案:需要用户手动下载对应模型的tokenizer.model和json 问题4:运行到这里不再执行,无法进一步训练 解决方案:看你的报错是mindrecord中没有数据,可以开info日志,定位一下
这是最新的教程,可以试一下:https://github.com/mindspore-lab/mindrlhf/pull/58
感谢 llama2 的 reward model 训练运行成功。
environment: ModelArts Ascend 910A(32GB) x 8
需求补充reward model模型完整训练的文档。
以下为调试reward model过程遇到的问题
mindrlhf
工程里没有run_mindformer.py
程序examples/reward_model_train_tutorial/README.md
:问题2: 没有GPT2Reward model
查找
mindformers
库和mindrlhf
均无GPT2RewardModel
2. LLaMA2 Reward Model 训练
--train.jsonl无数据,test.jsonl有数据
运行时,模型文件缺失tokenizer_config.json
手动拉入tokenizer_config.json,生成出训练数据集
运行到这里不再执行,无法进一步训练