Closed Lyn-Qiu closed 2 weeks ago
BFCL认为当模型针对fc微调时,就认为是FC模型;benchmark显示的hammer系列模型结果是线上评测的,hammer1.0-7b和hammer1.0-1.5b模型在BFCL-V2有官方评测结果,其余对比模型都是来源于BFCL-V2官方。由于BFCL更新到V3版,V2版不再更新,但是你可以在这个链接下面查询BFCL-V2的最新评测结果:https://github.com/ShishirPatil/gorilla/commit/2bc9c4a47b2687b83c35c9e8e9171609eb5b6235#diff-02da29b1a8e4b34345a87490a33d6cf512c0759cb966f628b2529c8c6823a139
可是table 6 里同一个模型可以有prompt和fc两个版本,而且prompt还比fc效果好?比如GPT-40-2024-05-13系列,这是为什么?
BFCL认为当模型针对fc微调时,就认为是FC模型;benchmark显示的hammer系列模型结果是线上评测的,hammer1.0-7b和hammer1.0-1.5b模型在BFCL-V2有官方评测结果,其余对比模型都是来源于BFCL-V2官方。由于BFCL更新到V3版,V2版不再更新,但是你可以在这个链接下面查询BFCL-V2的最新评测结果:ShishirPatil/gorilla@2bc9c4a#diff-02da29b1a8e4b34345a87490a33d6cf512c0759cb966f628b2529c8c6823a139
可是table 6 里同一个模型可以有prompt和fc两个版本,而且prompt还比fc效果好?比如GPT-40-2024-05-13系列,这是为什么?
BFCL认为当模型针对fc微调时,就认为是FC模型;benchmark显示的hammer系列模型结果是线上评测的,hammer1.0-7b和hammer1.0-1.5b模型在BFCL-V2有官方评测结果,其余对比模型都是来源于BFCL-V2官方。由于BFCL更新到V3版,V2版不再更新,但是你可以在这个链接下面查询BFCL-V2的最新评测结果:ShishirPatil/gorilla@2bc9c4a#diff-02da29b1a8e4b34345a87490a33d6cf512c0759cb966f628b2529c8c6823a139
这个是BFCL测的,您如果有兴趣的话可以去了解BFCL相关数据和评测。对于prompt和fc两个版本,其实本质上只是prompt不一样,fc版本的prompt是一个通用的fc prompt,不一定在BFCL上效果就是最好的
可是table 6 里同一个模型可以有prompt和fc两个版本,而且prompt还比fc效果好?比如GPT-40-2024-05-13系列,这是为什么?
BFCL认为当模型针对fc微调时,就认为是FC模型;benchmark显示的hammer系列模型结果是线上评测的,hammer1.0-7b和hammer1.0-1.5b模型在BFCL-V2有官方评测结果,其余对比模型都是来源于BFCL-V2官方。由于BFCL更新到V3版,V2版不再更新,但是你可以在这个链接下面查询BFCL-V2的最新评测结果:ShishirPatil/gorilla@2bc9c4a#diff-02da29b1a8e4b34345a87490a33d6cf512c0759cb966f628b2529c8c6823a139
这个是BFCL测的,您如果有兴趣的话可以去了解BFCL相关数据和评测。对于prompt和fc两个版本,其实本质上只是prompt不一样,fc版本的prompt是一个通用的fc prompt,不一定在BFCL上效果就是最好的
那你们测评sft后的模型有用到sft时候的system prompt模板吗?
有的,可以参考bfcl-hammer
BFCL认为当模型针对fc微调时,就认为是FC模型;benchmark显示的hammer系列模型结果是线上评测的,hammer1.0-7b和hammer1.0-1.5b模型在BFCL-V2有官方评测结果,其余对比模型都是来源于BFCL-V2官方。由于BFCL更新到V3版,V2版不再更新,但是你可以在这个链接下面查询BFCL-V2的最新评测结果:ShishirPatil/gorilla@2bc9c4a#diff-02da29b1a8e4b34345a87490a33d6cf512c0759cb966f628b2529c8c6823a139
可是BFCL声称fc模型不能用它的那套system prompt模板?https://gorilla.cs.berkeley.edu/blogs/8_berkeley_function_calling_leaderboard.html
是的啊,所以它以是否使用它统一的prompt区分prompt模型和fc模型,fc模型使用fc模型自带的prompt。
为什么benchmark上显示hammer用的是fc模式,但是代码中构造微调数据的时候把tools写在了prompt里?tools不是传模型的时候作为list输入的吗? 以及为什么GPT-4-0125-Preview相关数据集上的准确率会比gpt4o高20+%? 这个评测结果是public的吗?