Open xueyouluo opened 3 years ago
这里的build_gaz是统计词(不是仅仅是实体)的频度信息。当时考虑到数据的大小,我们把测试集合也加入到统计集中。作为改进措施,可以收集一个同领域的无标注数据,然后在该数据上统计词频信息。
谢谢您的回复。我看到build_gaz_alphabet
中,只有len(line) > 3
时才会加入到统计中,从data下的数据来看,也只有是实体的数据它们那一行的长度大于3,所以我觉得是只统计了实体的频度,而不是全部词的频度。当然如果有词典的话,我们也是可以直接统计测试集所有词的词频的。
@v-mipeng 你好请问是所有数据集的测试集都在统计词频时被用到么?这回不回有data leakage的问题?
测试集的词频应该不能算进去吧
您好,我在阅读代码时发现main代码中的data_initialization函数有
data.build_gaz_alphabet(test_file,count=True)
这段,这里面会把test_file中的实体信息也加入到gaz中。但是实际情况应该是我们是不知道测试集中的实体信息的,这样是不是存在信息泄露的问题?不知道我理解的对不对,请指正,谢谢。