zjunlp / DeepKE

[EMNLP 2022] An Open Toolkit for Knowledge Graph Extraction and Construction
http://deepke.zjukg.cn/
MIT License
3.25k stars 664 forks source link

re的few-shot自备数据集 #192

Closed LittleZ2022 closed 1 year ago

LittleZ2022 commented 1 year ago

请问re的few-shot训练自定义数据集时有测试中文的经验吗,需要注意些什么问题?目前看到提供的数据集是英文的。

比如,如果可以训练中文数据集,请问怎么准备数据集的格式,是按照目前英文数据集的四个文件的格式来吗?现在已经用doccano标注好数据了。

xxupiano commented 1 year ago

改用中文LM和中文tokenizer,格式可参考目前的英文数据集。 建议参考Knowprompt中文实现:https://github.com/zjunlp/LREBench, 其中有中文数据集DuIE2.0和CMeIE示例,运行脚本见https://github.com/zjunlp/LREBench/tree/main/scripts, 但是不包含validation和调参