Open Jintao-Huang opened 2 months ago
fine-tuning document: modelscope/ms-swift#1969
Hi, Jintao 我现在有微调mplugowl3的需求,但是我是希望owl3训练成为一个决策模型。所以msswift的那种在最开始就完全给出输入输出的方式可能并不适用于我的任务需求。
因为训练过程中我需要使用模型中间生成的决策来和环境交互获得当前步的gt,然后计算loss更新参数,但是msswift的框架下,所有的gt和输入都是需要在最开始就给定的,并不能随着模型的决策而变化。
我想请问一下,如果我需要实现我上述的需求的话,这个代码需要更改哪些文件呢?在msswift框架下是可以实现的吗?因为我不想放弃swift的训练,而且owl3目前只给了swift的训练。
祝工作顺利
fine-tuning document: https://github.com/modelscope/ms-swift/issues/1969