v-mipeng / LexiconAugmentedNER

Reject complicated operations for incorporating lexicon for Chinese NER.
438 stars 66 forks source link

关于测试集的实体信息加入gaz的问题 #33

Open xueyouluo opened 3 years ago

xueyouluo commented 3 years ago

您好,我在阅读代码时发现main代码中的data_initialization函数有data.build_gaz_alphabet(test_file,count=True)这段,这里面会把test_file中的实体信息也加入到gaz中。但是实际情况应该是我们是不知道测试集中的实体信息的,这样是不是存在信息泄露的问题?

不知道我理解的对不对,请指正,谢谢。

v-mipeng commented 3 years ago

这里的build_gaz是统计词(不是仅仅是实体)的频度信息。当时考虑到数据的大小,我们把测试集合也加入到统计集中。作为改进措施,可以收集一个同领域的无标注数据,然后在该数据上统计词频信息。

xueyouluo commented 3 years ago

谢谢您的回复。我看到build_gaz_alphabet中,只有len(line) > 3时才会加入到统计中,从data下的数据来看,也只有是实体的数据它们那一行的长度大于3,所以我觉得是只统计了实体的频度,而不是全部词的频度。当然如果有词典的话,我们也是可以直接统计测试集所有词的词频的。

DSXiangLi commented 3 years ago

@v-mipeng 你好请问是所有数据集的测试集都在统计词频时被用到么?这回不回有data leakage的问题?

SomeoneNotLikeYou commented 3 years ago

测试集的词频应该不能算进去吧