我想用自己的KG训练ERNIE，但不知道如何组织数据集

thunlp / ERNIE

Source code and dataset for ACL 2019 paper "ERNIE: Enhanced Language Representation with Informative Entities"

MIT License

1.41k stars 267 forks source link

我想用自己的KG训练ERNIE，但不知道如何组织数据集 #87

Closed ly934060690 closed 2 years ago

ly934060690 commented 2 years ago

作者您好！我的疑问点如下：我目前有自己的KG数据集，通过TransE训练得到了Graph Embedding；下一步想要训练ERNIE；

我尝试wget英文wiki数据(19G)，但是它确实太大导致我无法下载成功；从而我无法复现pretrain_data的任何工作；
我对使用自己的数据去训练ERNIE时，完全不清楚如何组织我的数据集；

zzy14 commented 2 years ago

https://github.com/thunlp/ERNIE/tree/9deccfd894bfa81adef73952c1a3ded69991ceb3 在早期的时候提供过预训练数据集的样例，您可以参考一下。

ly934060690 commented 2 years ago

您好，首先感谢回复！如果我想要用您的数据预处理代码，中文数据集，可行吗？我的理解如下：首先准备一些raw数据集，这是我的无监督数据集；例如一篇一篇的文本，我以txt存放至文件夹中；其次准备TransE训练得到的vec，entity_map和entity2id是按照KG中entity先一一对应生成例如“Qxx”？然后一一生成连续id？以及我想询问下anchor2id我需要如何去构建？和entity_map一致还是有哪些区别呢？再次感谢！