中文维基百科数据集

ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

https://ieeexplore.ieee.org/document/9599397

Apache License 2.0

9.56k stars 1.38k forks source link

Closed liuwei1206 closed 3 years ago

liuwei1206 commented 4 years ago

崔老师，您好，

我下载完维基百科数据集，然后再使用wikiextractor处理之后的统计如下：我也统计了一下总共有多少个paragraph，大概有5975674(约6M)个段落，感觉和您论文中的13.6M lines input text还有很大的区别，即使转为繁体字版本加起来也就12M，还是有差别.

所以想问一下是我的处理方式有问题吗? 我使用的是最新的wiki百科库。

ymcui commented 4 years ago

看上面的pages的数量和我们的是差不多的。中间文件已经找不到了，最后处理过后的txt大小是1.2G，会送到BERT的tfrecords生成的函数中。主要还是总数据量的大小，因为根据你的max_seq_length设置的不同，最终的”段落数“还是会变化的。

liuwei1206 commented 4 years ago

嗯嗯，谢谢了