Closed LEOMessi6 closed 1 year ago
训练脚本如下:
替换模型文件后重试 https://github.com/hiyouga/LLaMA-Efficient-Tuning/blob/main/tests/modeling_baichuan.py
大佬,我将之前huggingface上的modeling_baichuan.py用最新的modeling_baichuan.py替换了,但还是出现上述情况。并且很神奇的是大部分为nan的loss中,混入了一个有值的loss
我使用的PPO数据带有history字段,我使用实例数据(alpaca_gpt4_zh)则loss不为空 ,reward为负数。初步认为是训练数据的问题
PPO时,loss正常,reward为负数,但将STF模型与PPO模型合在一起,推理乱码: 合并代码脚本为:
推理结果为: