qianxiao1111 / evaluation

0 stars 7 forks source link

测试任务提示词能否尝试和代码生成方向进行对齐? #12

Open xhkxhk opened 3 months ago

xhkxhk commented 3 months ago

SFT数据都是基于问题和表格进行代码生成的,训练出来的专业模型泛化性不太高,很难跟随简单提示词直接固定输出格式,测试时发现很多问题SFT模型能进行拒绝,但无法按格式输出yes或者no。能否考虑将提示词修改成类似于SFT数据的形式,比如拒绝测试变成模型生成代码就算接受,不生成就算拒绝之类的?

qianxiao1111 commented 3 months ago

@xhkxhk 对于无法正确拒绝和期望的SFT数据形式, 能给一个例子吗?

qianxiao1111 commented 3 months ago

image @xhkxhk 根据周报中的这段描述, 你们应该考虑是不是SFT过程中对模型跨任务的泛化能力造成了较大的影响。

对于几个evaluation 指标(or 脚本), 都应先对初始的chat-model做检测, 如果初始chat-model中仍有大量类似情况, 才考虑对评估方法、评估prompt等做修改。

但其实参考其他eval项目, 采取的方式要么是在固定llm+固定prompt, 或者是固定prompt + 可变llm情况下进行评估,prompt的差异肯定会对llm输出的效果产生影响,但在固定一套后不应该随意变动。