Closed mzh1996 closed 2 months ago
我注意到,项目里对于数据集各个路径下的指标如下图
因为知识库范围对效果的影响很大,我提一个关于数据集选用的最基本问题,还烦请您看到解答:
我现在希望复现论文中QA任务(1doc、2doc和3doc)的效果,那么我的检索知识库应该选用上图里的哪个文件? 是用80000_docs路径下的全部80000个doc? 还是用crud路径下从CRUD_DATA.zip中解压得到的1doc_QA.json、2doc_QA.json和3doc_QA.json这些文件中包含的3199条news? 还是用crud_split路径下的split_merged.json中对应任务key对应的value list中全部的news1(似乎是800条)?
你好,论文里用的是80000_docs路径下的全部80000个doc
收到 感谢 给您发的咨询邮件内容和这个issue相同,烦请忽略!
我注意到,项目里对于数据集各个路径下的指标如下图
因为知识库范围对效果的影响很大,我提一个关于数据集选用的最基本问题,还烦请您看到解答:
我现在希望复现论文中QA任务(1doc、2doc和3doc)的效果,那么我的检索知识库应该选用上图里的哪个文件? 是用80000_docs路径下的全部80000个doc? 还是用crud路径下从CRUD_DATA.zip中解压得到的1doc_QA.json、2doc_QA.json和3doc_QA.json这些文件中包含的3199条news? 还是用crud_split路径下的split_merged.json中对应任务key对应的value list中全部的news1(似乎是800条)?