AlibabaResearch / DAMO-ConvAI

DAMO-ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI.
MIT License
1.08k stars 176 forks source link

[OLTQA] 运行python gen_lt.py后数据集数量与论文中不同 #113

Closed BAOOOOOM closed 6 months ago

BAOOOOOM commented 6 months ago

你好,我在步骤Construct Pareto Long-Tail subset of raw data中,发现抽出的数据集与论文中报道的不同,请问能否直接提供抽取后的数据集呢 image image

debby1103 commented 6 months ago

你好!抱歉造成困扰,我们设计长尾分布时考虑的是训练集的分布,在Squad2上预先抽取3k个验证样本,所以实际上Squad2的训练集只有127319,后续的尾分布会因此减少。验证集按照和训练集的固定比例从原集中抽出(除Squad1,2和MultiRC外,训练集:验证集为8:1),不计入长尾分布。