Open Tsukumizu opened 1 year ago
尊敬的FinEval团队: 您好!我有一些问题希望咨询。我在FinEval框架使用自己的金融试题eval集(与Fineval评测题库相似)进行测试,评估中文模型和自己微调的模型。我发现对于CoT/answer-only、zeroshots/fewshots、是否constrained-decode这多种场景,模型表现非常不同。目前只有answer-only+few-shots+constrained-decode,中文模型才能正常预测(50%以上准确率),其他组合均只能略微领先随机选择。此外,对于chatgpt的评测,还没找到合适的组合(低于50%)。 我希望了解:
尊敬的FinEval团队: 您好!我有一些问题希望咨询。我在FinEval框架使用自己的金融试题eval集(与Fineval评测题库相似)进行测试,评估中文模型和自己微调的模型。我发现对于CoT/answer-only、zeroshots/fewshots、是否constrained-decode这多种场景,模型表现非常不同。目前只有answer-only+few-shots+constrained-decode,中文模型才能正常预测(50%以上准确率),其他组合均只能略微领先随机选择。此外,对于chatgpt的评测,还没找到合适的组合(低于50%)。 我希望了解: