cyzhh / MMOS

Mix of Minimal Optimal Sets (MMOS) of dataset has two advantages for two aspects, higher performance and lower construction costs on math reasoning.
69 stars 3 forks source link

MMOS-DeepSeekMath 7B SC's performance experiment #4

Open LRegan666 opened 6 months ago

LRegan666 commented 6 months ago

在gsmk8和math数据上复现SC方法下模型性能遇到了困难,初步认为是使用的prompt有问题,按照TORA的prompt生成结果不太好,代码基本是调的库里的源码,但没有找到prompt相关的配置文件,能给我些建议和帮助吗

cyzhh commented 6 months ago

感谢你的提醒,如果是复现gsm8k和math的训练数据,我们使用的方法是按照ToRA的prompt去生成的结果,prompt的相关配置文件我会马上上传更新~ 如果是复现deepseek-math的SC结果,你可以看一下你构造的数据集格式是不是类似于utils/utils.py里的construct_prompt函数的这一行的格式,如果你想要符合你的数据格式也可以修改这个地方的代码。

full_prompt = f"<|user|>\n{example['question']}\n<|assistant|>\n"
cyzhh commented 6 months ago

我已经上传了prompt 不知道是否对你有帮助?

LRegan666 commented 5 months ago

emmm...发现库中更新的prompt和发问题之前实验用的prompt一样,在实验数据(类似,但并非math和gsmk8的原始数据集)上测试若干次,生成结果能力上deepseek-math的mmos版较原版有退化,个人考虑是泛化能力受到了影响。由于实验尚不严谨充足,所以当前反馈问题仅供参考,这段时间如在上述方法继续实验有其它问题,会继续反馈。

Zui-C commented 4 months ago

如果题型有差距、例如中文、奥数、算术,SFT过的相对比base 泛化能力下降是肯定的,跟文章对待MATH一样,用MMOS方法采样、微调就会明显提高。

LRegan666 commented 4 months ago

明白了,感谢建议,由于实验限制,目前在推进其它方案,如若继续演进该方法,遇到问题再沟通