wjn1996 / InstructGraph

A framework to empover LLMs on graph reasoning and generation. Refer to our paper: https://arxiv.org/pdf/2402.08785.pdf
MIT License
73 stars 5 forks source link

Request for instruction finetuning datasets #16

Open Wilboludriver opened 5 months ago

Wilboludriver commented 5 months ago

作者您好,

祝贺你们的工作被Findings of ACL 2024接受!

这篇工作的数据集准备部分给了我很大启发,我在自己合成instruction ft datasets的时候发现有部分步骤不太完整:

  1. 在2.1 Graph Caption Generation 部分的 group (1) Wikipedia + Wikidata5M 中,我加载的是了wiki5m官网发布的corpus,该文件的数据数量比jupyter notebook上的记录要少1/5,导致在构造子图和三元组的部分跑不出来,而完整的wikipedia最新corpus数据量过大不便操作。请问能否开源你们使用的Wikipedia corpus呢?
  2. 在2.2 Graph Question Answering的FreeBase预加载中,我没有在freebase下载网页上找到你们使用的“rel2id.pickle","entity_name.pickle","ent2id.pickle"。 请问方便开源或者告知获取方法吗。
  3. 在 3.1 Knowledge Graph Generation的InstructIE部分,请问train.json 需要额外处理吗,我直接load后发现没有“input”这个key,导致text = example["input"]报错。
  4. 请问您方便开源用gpt合成的第四部分graph thought modelin的数据集吗?

非常感谢你们的贡献,祝学术工作顺利~

Wilbolu

wjn1996 commented 5 months ago

感谢。

  1. wikipedia的数据量很大,建议采用提供的链接的数据。本人获取wikipedia和wikidata5M按照如下流程:
    Wikipedia Dumps:
    - 统一使用200301,Wikipedia Dumps页面:https://dumps.wikimedia.org/enwiki/20220301/
    - 下载到本地后,使用wikiextractor:https://github.com/attardi/wikiextractor;
    执行python -m wikiextractor.WikiExtractor <Wikipedia dump file>
    - 下载Wikidata5M:https://deepgraphlearning.github.io/project/wikidata5m
  2. freebase:这里freebase使用项目组已有的数据,不过获取途径暂时没有公开,后面再告知,部分数据集提供了处理过的freebase,可直接使用(详见脚本)
  3. InstructIE需要预处理;
  4. graph thought modeling的合成数据可以详见脚本graph_preference_data.ipynb。

InstructGraph的指令微调数据暂时受到保护,因此目前可能只能开源一部分数据,不过数据构建的脚本全部开源,全量数据建议暂时独立构造。 感谢您的支持

wjn1996 commented 4 months ago

Hello, we release the sft data, and you can download from https://huggingface.co/datasets/wjn1996/InstructGraph.

Wilboludriver commented 4 months ago

Hello, we release the sft data, and you can download from https://huggingface.co/datasets/wjn1996/InstructGraph.

Thank you so much for your kind open-sourced datasets.