RandolphVI / Text-Pairs-Relation-Classification

About Text Pairs (Sentence Level) Classification (Similarity Modeling) Based on Neural Network.
Apache License 2.0
191 stars 55 forks source link

数据量多大呢? #7

Closed zle1992 closed 4 years ago

zle1992 commented 7 years ago

博主您好, 请问你这个数据量有多大呢、?我现在遇到的问题是数据量太大,有50w篇文章,用Word2vec训练完,embeddings size 128,每篇文章取300个词。就是50w300128,无法全部读进内存,无法训练,这个问题改如何解决那?

RandolphVI commented 7 years ago

读取数据并进行预处理是有两种方法:

  1. 先全部读进内存,在通过迭代器将数据分成各个 mini-batch,代码里面有 batch_size,就是每次处理的数据批次大小,针对大数据量的问题,解决的办法应该可以通过使用实验室服务器(如果你有的话)或者升级一下内存(读取的数据大小和内存有着直接联系)。 这种办法适合小型数据集,也比较直接易懂。
  2. 直接使用迭代器,每次仅读取迭代器中 get 到的数据 batch,这需要你重新自己构建迭代器,具体到我这个项目中,主要就是通过修改 data_helpers.py 代码文件中的 batch_iter() 函数,然后在 train_cnn.py 训练代码文件中修改读取文件并进行预处理的代码部分。
SeekPoint commented 6 years ago

what's the details of the dataset

RandolphVI commented 6 years ago

@loveJasmine Sorry, research data may attract copyright protection under China law. Thus, there is no details of dataset. Basically, the dataset contains the label info(1 or 0) and two sentence text info.

SeekPoint commented 6 years ago

ok, so, would you give us a dataset format description and some samples?

RandolphVI commented 6 years ago

@loveJasmine Sorry, I can't.