Closed ly934060690 closed 2 years ago
https://github.com/thunlp/ERNIE/tree/9deccfd894bfa81adef73952c1a3ded69991ceb3 在早期的时候提供过预训练数据集的样例,您可以参考一下。
您好,首先感谢回复! 如果我想要用您的数据预处理代码,中文数据集,可行吗? 我的理解如下: 首先准备一些raw数据集,这是我的无监督数据集;例如一篇一篇的文本,我以txt存放至文件夹中; 其次准备TransE训练得到的vec,entity_map和entity2id是按照KG中entity先一一对应生成例如“Qxx”?然后一一生成连续id? 以及我想询问下anchor2id我需要如何去构建?和entity_map一致还是有哪些区别呢? 再次感谢!
作者您好!我的疑问点如下: 我目前有自己的KG数据集,通过TransE训练得到了Graph Embedding;下一步想要训练ERNIE;