请问是否有in-context learning或者few shot learning相关的评估脚本或者评估设置?
评估设置主要包括:数据集对应的instruction(类似于'Answer in a word or phrase.'这种)、数据集的评估metric,以okvqa为例,是否与VQA数据集metric一致(https://github.com/GT-Vision-Lab/VQA/blob/master/README.md)、**model状态**,README中提到(We evaluate the pretraining ckpt without SFT.)是否代表您是使用未发布的,不带instruction tuning的model ckpt版本的model进行测试的(我使用huggingface的int4量化版本ckpt并不能复现结果,zero-shot性能已经和README中4-shot性能接近)、示例选取方法(手工的示例、RICES或者是其他示例选取方法)
进一步地,如果您使用不带instruction tuning的model ckpt版本的model进行测试,zero-shot的性能较差的前提是否因为输出的为一个句子而不是一个单词或短语而导致的ACC比较低?
起始日期 | Start Date
No response
实现PR | Implementation PR
No response
相关Issues | Reference Issues
No response
摘要 | Summary
请问是否有in-context learning或者few shot learning相关的评估脚本或者评估设置? 评估设置主要包括:数据集对应的instruction(类似于'Answer in a word or phrase.'这种)、数据集的评估metric,以okvqa为例,是否与VQA数据集metric一致(https://github.com/GT-Vision-Lab/VQA/blob/master/README.md)、**model状态**,README中提到(We evaluate the pretraining ckpt without SFT.)是否代表您是使用未发布的,不带instruction tuning的model ckpt版本的model进行测试的(我使用huggingface的int4量化版本ckpt并不能复现结果,zero-shot性能已经和README中4-shot性能接近)、示例选取方法(手工的示例、RICES或者是其他示例选取方法) 进一步地,如果您使用不带instruction tuning的model ckpt版本的model进行测试,zero-shot的性能较差的前提是否因为输出的为一个句子而不是一个单词或短语而导致的ACC比较低?
基本示例 | Basic Example
缺陷 | Drawbacks
需要复现README中few-shot结果
未解决问题 | Unresolved questions
No response