FinEval最优参数组合咨询

尊敬的FinEval团队：您好！我有一些问题希望咨询。我在FinEval框架使用自己的金融试题eval集（与Fineval评测题库相似）进行测试，评估中文模型和自己微调的模型。我发现对于CoT/answer-only、zeroshots/fewshots、是否constrained-decode这多种场景，模型表现非常不同。目前只有answer-only+few-shots+constrained-decode，中文模型才能正常预测(50%以上准确率)，其他组合均只能略微领先随机选择。此外，对于chatgpt的评测，还没找到合适的组合（低于50%）。我希望了解：

是否benchmark里中文模型一般都采用answer-only+few-shots+constrained-decode取得最高准确率吗？
chatgpt应该采取哪种组合方式取得最高准确率呢？如果您能分享下正确的参数组合，能帮助我节省非常多时间。非常感谢您的关注！期待您的回复！

SUFE-AIFLM-Lab / FinEval

FinEval最优参数组合咨询 #5