ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)
https://ieeexplore.ieee.org/document/9599397
Apache License 2.0
9.56k stars 1.38k forks source link

中文维基百科数据集 #145

Closed liuwei1206 closed 3 years ago

liuwei1206 commented 4 years ago

崔老师,您好,

我下载完维基百科数据集,然后再使用wikiextractor处理之后的统计如下: image 我也统计了一下总共有多少个paragraph,大概有5975674(约6M)个段落,感觉和您论文中的13.6M lines input text还有很大的区别,即使转为繁体字版本加起来也就12M,还是有差别.

所以想问一下是我的处理方式有问题吗? 我使用的是最新的wiki百科库。

ymcui commented 4 years ago

看上面的pages的数量和我们的是差不多的。 中间文件已经找不到了,最后处理过后的txt大小是1.2G,会送到BERT的tfrecords生成的函数中。 主要还是总数据量的大小,因为根据你的max_seq_length设置的不同,最终的”段落数“还是会变化的。

liuwei1206 commented 4 years ago

嗯嗯,谢谢了