OLTQA 模型，针对MMMLU数据集的测试，为什么测试集只有284呢？

AlibabaResearch / DAMO-ConvAI

DAMO-ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI.

MIT License

1.1k stars 178 forks source link

OLTQA 模型，针对MMMLU数据集的测试，为什么测试集只有284呢？ #56

Closed wanng-ide closed 1 year ago

wanng-ide commented 1 year ago

如题，MMMLU的数据集非常庞大，为什么测试集只会有284个samples？

https://huggingface.co/datasets/ncoop57/mmmlu

关于Table 2中，OLTQA模型是在unseen的数据上测试，但是其他的baseline也是如此吗？那些模型会在21个seen数据集上进行训练，然后再在这些unseen数据集上进行测试吗？

wanng-ide commented 1 year ago

而且我还有一点疑问是关于OnestepQA的，https://github.com/berzak/onestop-qa/tree/master显示他们的question是486个samples。为什么文中是324呢？

debby1103 commented 1 year ago

[1] MMMLU的数据集非常庞大，为什么测试集只会有284个samples？-- 为了与之前的多任务统一问答工作对齐，即UnifiedQA (paper)(code)、ProQA (paper) (code)，我们使用了UnifiedQA统一格式后的数据集，样本统计与其一致。 [2] 关于Table 2中，OLTQA模型是在unseen的数据上测试，但是其他的baseline也是如此吗？那些模型会在21个seen数据集上进行训练，然后再在这些unseen数据集上进行测试吗？-- 所有方法一致，在seen dataset的训练集上训练，在(un)seen dataset的测试集测试。EPR由于只有in-context learning with LLM，所以没有训练过程。 [3] 而且我还有一点疑问是关于OnestepQA的，显示他们的question是486个samples。为什么文中是324呢 -- 见[1]

wanng-ide commented 1 year ago

[1] MMMLU的数据集非常庞大，为什么测试集只会有284个samples？-- 为了与之前的多任务统一问答工作对齐，即UnifiedQA (paper)(code)、ProQA (paper) (code)，我们使用了UnifiedQA统一格式后的数据集，样本统计与其一致。 [2] 关于Table 2中，OLTQA模型是在unseen的数据上测试，但是其他的baseline也是如此吗？那些模型会在21个seen数据集上进行训练，然后再在这些unseen数据集上进行测试吗？-- 所有方法一致，在seen dataset的训练集上训练，在(un)seen dataset的测试集测试。EPR由于只有in-context learning with LLM，所以没有训练过程。 [3] 而且我还有一点疑问是关于OnestepQA的，显示他们的question是486个samples。为什么文中是324呢 -- 见[1]

原来如此，非常感谢您的回答！非常感谢您优秀的工作~

SXxinxiaosong commented 8 months ago

你们好，请问提供的数据集网盘可以打开吗，我这里显示不存在，请求一下帮助