MaximTian / TransX

Trans系列之TransE and TransH, PTransE
33 stars 12 forks source link

中文数据集 #3

Open summerzpy opened 5 years ago

summerzpy commented 5 years ago

您好: 想请教一下,如果自己构造中文数据集,关系和实体姓名较长时,需要分词处理吗?一般要处理成什么格式呢? 谢谢

MaximTian commented 5 years ago

您好: 想请教一下,如果自己构造中文数据集,关系和实体姓名较长时,需要分词处理吗?一般要处理成什么格式呢? 谢谢 不需要的,都会统一处理成entity2id,relation2id,即id映射的形式

summerzpy commented 5 years ago

您好: 请问您那有可以在thunlp实验室开源的transx框架上跑的中文数据集么? (好像不可以贴图==) relation2id 数据 eg:自行车 12 水泥P·O 42.5R_纸塑复合袋 50kg_润丰 13 七匹狼(软灰) 14…… 这样的数据格式是否还需要进一步处理呢?

MaximTian commented 5 years ago

他们实验室做的都是公开的英文数据集。wikidata好像有中文数据部分,你可以找一找 这样的数据格式处理方法,应该没什么问题

summerzpy commented 5 years ago

好的,谢谢!