thunlp / PL-Marker

Source code for "Packed Levitated Marker for Entity and Relation Extraction"
MIT License
260 stars 35 forks source link

中文数据集搭建 #63

Open mumuyeye opened 11 months ago

mumuyeye commented 11 months ago

您好,请问一下,我想使用自己标注的中文实体识别和关系识别的数据集,在将标注好的数据转换成您readme中要求的那种形式时,我有一个疑问,关于“sentences”部分,中文数据该如何构建呢?是分词后的结果吗?如果是,那对应的实体和关系中的boundaries要如何修改?因为原有的boundaries是在未分词的情况下做的。