thunlp / ERNIE

Source code and dataset for ACL 2019 paper "ERNIE: Enhanced Language Representation with Informative Entities"
MIT License
1.41k stars 267 forks source link

我想用自己的KG训练ERNIE,但不知道如何组织数据集 #87

Closed ly934060690 closed 2 years ago

ly934060690 commented 2 years ago

作者您好!我的疑问点如下: 我目前有自己的KG数据集,通过TransE训练得到了Graph Embedding;下一步想要训练ERNIE;

  1. 我尝试wget英文wiki数据(19G),但是它确实太大导致我无法下载成功;从而我无法复现pretrain_data的任何工作;
  2. 我对使用自己的数据去训练ERNIE时,完全不清楚如何组织我的数据集;
zzy14 commented 2 years ago

https://github.com/thunlp/ERNIE/tree/9deccfd894bfa81adef73952c1a3ded69991ceb3 在早期的时候提供过预训练数据集的样例,您可以参考一下。

ly934060690 commented 2 years ago

您好,首先感谢回复! 如果我想要用您的数据预处理代码,中文数据集,可行吗? 我的理解如下: 首先准备一些raw数据集,这是我的无监督数据集;例如一篇一篇的文本,我以txt存放至文件夹中; 其次准备TransE训练得到的vec,entity_map和entity2id是按照KG中entity先一一对应生成例如“Qxx”?然后一一生成连续id? 以及我想询问下anchor2id我需要如何去构建?和entity_map一致还是有哪些区别呢? 再次感谢!