taishan1994 / pytorch_triple_extraction

基于pytorch的中文三元组提取(命名实体识别+关系抽取)
330 stars 41 forks source link

re_process.py与data_loader.py中的'\t'问题 #23

Closed Lv-shuai closed 1 year ago

Lv-shuai commented 1 year ago

bert_re中,通过re_process.py中处理文本,将故障:未知的文本用‘ ’空格隔开。 但是在data_loader中,处理文本时,item.split('\t'),,利用\t来分割。 会出现,list index out of range问题。 微信图片_20230214204030

taishan1994 commented 1 year ago

bert_re中,通过re_process.py中处理文本,将故障:未知的文本用‘ ’空格隔开。 但是在data_loader中,处理文本时,item.split('\t'),,利用\t来分割。 会出现,list index out of range问题。 微信图片_20230214204030

感谢指出,已经将re_process.py里面的空格换为\t。

Lv-shuai commented 1 year ago

啊,但是修改后,虽然可以正常训练,但是进行测试时,会出现下面的问题, enumerate(self.test_loader)时,在test_loader中的第355个数据会出现list index out of range的问题。如下: 微信图片_20230214215752

查看这355条数据,但是不知道该怎么办。或许有办法跳过dataloader中出问题的数据,继续进行测试。

taishan1994 commented 1 year ago

啊,但是修改后,虽然可以正常训练,但是进行测试时,会出现下面的问题, enumerate(self.test_loader)时,在test_loader中的第355个数据会出现list index out of range的问题。如下: 微信图片_20230214215752

查看这355条数据,但是不知道该怎么办。或许有办法跳过dataloader中出问题的数据,继续进行测试。

你可以重新生成下数据。

Lv-shuai commented 1 year ago

啊,但是修改后,虽然可以正常训练,但是进行测试时,会出现下面的问题, enumerate(self.test_loader)时,在test_loader中的第355个数据会出现list index out of range的问题。如下: 微信图片_20230214215752 查看这355条数据,但是不知道该怎么办。或许有办法跳过dataloader中出问题的数据,继续进行测试。

你可以重新生成下数据。

我看您在另一个问题下的贴图,您的测试数据是166条,正好是把所有的故障类型为”未知“的数据剔除之后的数量。但这样训练的时候,也把”未知“给跳过了

taishan1994 commented 1 year ago

我看您在另一个问题下的贴图,您的测试数据是166条,正好是把所有的故障类型为”未知“的数据剔除之后的数量。但这样训练的时候,也把”未知“给跳过了

你也可以不过滤。