Closed liuwei1206 closed 3 years ago
崔老师,您好,
我下载完维基百科数据集,然后再使用wikiextractor处理之后的统计如下: 我也统计了一下总共有多少个paragraph,大概有5975674(约6M)个段落,感觉和您论文中的13.6M lines input text还有很大的区别,即使转为繁体字版本加起来也就12M,还是有差别.
所以想问一下是我的处理方式有问题吗? 我使用的是最新的wiki百科库。
看上面的pages的数量和我们的是差不多的。 中间文件已经找不到了,最后处理过后的txt大小是1.2G,会送到BERT的tfrecords生成的函数中。 主要还是总数据量的大小,因为根据你的max_seq_length设置的不同,最终的”段落数“还是会变化的。
嗯嗯,谢谢了
崔老师,您好,
我下载完维基百科数据集,然后再使用wikiextractor处理之后的统计如下: 我也统计了一下总共有多少个paragraph,大概有5975674(约6M)个段落,感觉和您论文中的13.6M lines input text还有很大的区别,即使转为繁体字版本加起来也就12M,还是有差别.
所以想问一下是我的处理方式有问题吗? 我使用的是最新的wiki百科库。