liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project
Apache License 2.0
8 stars 5 forks source link

GPT并行合成数据(跑97%accuracy的版本) #35

Closed liyongsea closed 1 year ago

liyongsea commented 1 year ago
voidf commented 1 year ago
  1. 改preprocess代码,确认没有问题了更新一下hf的dataset
  2. 生产脚本把数据集的名称写到args里(?)
  3. 先重新跑1k份左右
  4. 肉眼看一下确认了没有问题,再重新跑1w份的代码
  5. 生产脚本得到的batch_cache\batch_sequential_cache_dir的内容很重要(实际上.list文件反而是次要的),跑完之后将这些本地文件打包分发一下

以下是以后的计划

  1. 从打包好的cache_dir里得到成好段的英文段落,这些段落可以拿去统一机翻
  2. 我的方案可以做一些小文件的中英对齐,先做出来看看效果,以及有没有和其它对齐方案讨论的余地
  3. 做一套metric来评估我们对齐的效果
voidf commented 1 year ago

⚠重跑脚本的注意事项⚠

  1. 改上游数据集名字:un_pdf_random10032_preprocessed
  2. 删除本地文件夹batch_cache(这些是缓存内容,包括数据集的缓存)
voidf commented 1 year ago

目前的数据集的流向:

  1. digitallibrary里爬下来的PDF文本
  2. 用脚本把PDF每页文本导出(存在分页信息,即页码,页眉,页脚等噪声),传至hf:https://huggingface.co/datasets/ranWang/un_pdf_text_data_test
  3. 用脚本把上一步中的数据做预处理,去除部分分页噪声,做成新的数据集传至hf:https://huggingface.co/datasets/bot-yaya/un_pdf_random10032_preprocessed
  4. (接下来要做的)把上一步中的数据集拉下来使用gpt做成段,得到的数据存在本地
voidf commented 1 year ago

预处理脚本已经确认基本上没有问题了,等待merge。

预处理脚本主要做的事情:

voidf commented 1 year ago

预处理后的数据集已经上传至huggingface:ranWang/un_pdf_random_preprocessed,此数据集由之前随机生成的相互没有交集的两个1万条和更早的3千条合并得到。过滤掉乱码和小文件后剩余15,293条。我们希望英文段落成段的生产脚本应该在此数据集上跑。

liyongsea commented 1 year ago

5刀->950个文件,如果跑完9万个文件需要500刀 改变策略:

liyongsea commented 1 year ago