AlibabaResearch / DAMO-ConvAI

DAMO-ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI.
MIT License
1.1k stars 178 forks source link

OLTQA 模型,针对MMMLU数据集的测试,为什么测试集只有284呢? #56

Closed wanng-ide closed 1 year ago

wanng-ide commented 1 year ago

如题,MMMLU的数据集非常庞大,为什么测试集只会有284个samples?

https://huggingface.co/datasets/ncoop57/mmmlu

关于Table 2中,OLTQA模型是在unseen的数据上测试,但是其他的baseline也是如此吗?那些模型会在21个seen数据集上进行训练,然后再在这些unseen数据集上进行测试吗?

wanng-ide commented 1 year ago

而且我还有一点疑问是关于OnestepQA的,https://github.com/berzak/onestop-qa/tree/master显示他们的question是486个samples。为什么文中是324呢

debby1103 commented 1 year ago

[1] MMMLU的数据集非常庞大,为什么测试集只会有284个samples?-- 为了与之前的多任务统一问答工作对齐,即UnifiedQA (paper)(code)、ProQA (paper) (code),我们使用了UnifiedQA统一格式后的数据集,样本统计与其一致。 [2] 关于Table 2中,OLTQA模型是在unseen的数据上测试,但是其他的baseline也是如此吗?那些模型会在21个seen数据集上进行训练,然后再在这些unseen数据集上进行测试吗?-- 所有方法一致,在seen dataset的训练集上训练,在(un)seen dataset的测试集测试。EPR由于只有in-context learning with LLM,所以没有训练过程。 [3] 而且我还有一点疑问是关于OnestepQA的,显示他们的question是486个samples。为什么文中是324呢 -- 见[1]

wanng-ide commented 1 year ago

[1] MMMLU的数据集非常庞大,为什么测试集只会有284个samples?-- 为了与之前的多任务统一问答工作对齐,即UnifiedQA (paper)(code)、ProQA (paper) (code),我们使用了UnifiedQA统一格式后的数据集,样本统计与其一致。 [2] 关于Table 2中,OLTQA模型是在unseen的数据上测试,但是其他的baseline也是如此吗?那些模型会在21个seen数据集上进行训练,然后再在这些unseen数据集上进行测试吗?-- 所有方法一致,在seen dataset的训练集上训练,在(un)seen dataset的测试集测试。EPR由于只有in-context learning with LLM,所以没有训练过程。 [3] 而且我还有一点疑问是关于OnestepQA的,显示他们的question是486个samples。为什么文中是324呢 -- 见[1]

原来如此,非常感谢您的回答!非常感谢您优秀的工作~

SXxinxiaosong commented 8 months ago

你们好,请问提供的数据集网盘可以打开吗,我这里显示不存在,请求一下帮助