FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
6.88k stars 498 forks source link

微调数据集预处理问题 #698

Closed Qingchen-Yu closed 5 months ago

Qingchen-Yu commented 5 months ago

您好!我正在按照您给出的数据集(T2-Ranking,DuReader,MedQA等数据集)复现您的微调实验。但是发现这些原始数据集的格式并不统一,想询问一下您这边有对应的代码或者方法,统一将这些数据处理成您给出的{"query": str, "pos": List[str], "neg":List[str]}格式吗?非常感谢!

staoxiao commented 5 months ago

您好,可以直接从https://huggingface.co/datasets/Shitao/bge-reranker-data和https://huggingface.co/datasets/Shitao/bge-m3-data下载其中的中文数据

Qingchen-Yu commented 5 months ago

好的!感谢您的分享!

i1995wqh commented 2 months ago

链接有包含列出来的英文数据吗?如果没有,是否也有对应的存放地址

您好,可以直接从https://huggingface.co/datasets/Shitao/bge-reranker-data和https://huggingface.co/datasets/Shitao/bge-m3-data下载其中的中文数据