131250208 / TPlinker-joint-extraction

433 stars 95 forks source link

tok_span问题 #58

Open kanhuimin opened 2 years ago

kanhuimin commented 2 years ago

您好,非常感兴趣您的工作,并尝试调试了一下,我用的百度关系数据集,并在BuildData时遇到了一些问题,出现了IndexError: list index out of range的问题,具体如下 image bi您知道是什么原因造成的吗?非常感谢!

Jason7even commented 2 years ago

我今天出现了这个问题,在第4728/5684条数据处出错了,后来我把这一条数据删掉,问题解决。 猜测是,这条数据本身的错误,要么是本身char_span出错了,要么是去计算token_span的时候出错了,总之你可以尝试删掉这一条试一下。 你的前30%没错,说明前边的数据还是没问题的。

131250208 commented 2 years ago

这种情况就直接在出错那行代码打断点查

lelechallc commented 2 years ago

我也想问一下大佬这是什么问题

Jason7even commented 2 years ago

您好,我已经收到您的邮件,祝生活愉快。

YaleFeng commented 1 year ago

我也遇到过类似的,原因是我在数据标注的时候不小心将空格' '也标注进去了,导致token方面最后index出现了-1。case可能不太一样,仅供参考