测试任务提示词能否尝试和代码生成方向进行对齐？

xhkxhk commented 3 months ago

SFT数据都是基于问题和表格进行代码生成的，训练出来的专业模型泛化性不太高，很难跟随简单提示词直接固定输出格式，测试时发现很多问题SFT模型能进行拒绝，但无法按格式输出yes或者no。能否考虑将提示词修改成类似于SFT数据的形式，比如拒绝测试变成模型生成代码就算接受，不生成就算拒绝之类的？

qianxiao1111 commented 3 months ago

@xhkxhk 对于无法正确拒绝和期望的SFT数据形式，能给一个例子吗？

qianxiao1111 commented 3 months ago

@xhkxhk 根据周报中的这段描述，你们应该考虑是不是SFT过程中对模型跨任务的泛化能力造成了较大的影响。

对于几个evaluation 指标（or 脚本），都应先对初始的chat-model做检测，如果初始chat-model中仍有大量类似情况，才考虑对评估方法、评估prompt等做修改。

但其实参考其他eval项目，采取的方式要么是在固定llm+固定prompt，或者是固定prompt + 可变llm情况下进行评估，prompt的差异肯定会对llm输出的效果产生影响，但在固定一套后不应该随意变动。

qianxiao1111 / evaluation