Closed WarmLight7 closed 3 years ago
DocRED 格式的 CDR 数据集见这里,处理后的 CDR 数据集pos为绝对位置index。
pos
注:原始 CDR 数据集标注是字符级别的,论文使用了 stanford-corenlp 做 tokenize,然后将 CDR 数据标注转换为token级别的。其中有些样本由于 tokenize 后对齐有问题,通过人工检查修改得到。
字符级别
token级别
十分感谢您的帮助
DocRED 格式的 CDR 数据集见这里,处理后的 CDR 数据集
pos
为绝对位置index。注:原始 CDR 数据集标注是
字符级别
的,论文使用了 stanford-corenlp 做 tokenize,然后将 CDR 数据标注转换为token级别
的。其中有些样本由于 tokenize 后对齐有问题,通过人工检查修改得到。