Closed BAOOOOOM closed 6 months ago
你好,我在步骤Construct Pareto Long-Tail subset of raw data中,发现抽出的数据集与论文中报道的不同,请问能否直接提供抽取后的数据集呢
你好!抱歉造成困扰,我们设计长尾分布时考虑的是训练集的分布,在Squad2上预先抽取3k个验证样本,所以实际上Squad2的训练集只有127319,后续的尾分布会因此减少。验证集按照和训练集的固定比例从原集中抽出(除Squad1,2和MultiRC外,训练集:验证集为8:1),不计入长尾分布。
你好,我在步骤Construct Pareto Long-Tail subset of raw data中,发现抽出的数据集与论文中报道的不同,请问能否直接提供抽取后的数据集呢