GPT并行合成数据（跑97%accuracy的版本） - Githubissues

liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project

Apache License 2.0

8 stars 5 forks source link

GPT并行合成数据（跑97%accuracy的版本） #35

Closed liyongsea closed 1 year ago

liyongsea commented 1 year ago

合成10000条数据
python paragraph_assembler.py --key=sk-xxxxxx --test=false
说明一下怎么配置wandb

voidf commented 1 year ago

改preprocess代码，确认没有问题了更新一下hf的dataset
生产脚本把数据集的名称写到args里（？）
先重新跑1k份左右
肉眼看一下确认了没有问题，再重新跑1w份的代码
生产脚本得到的batch_cache\batch_sequential_cache_dir的内容很重要（实际上.list文件反而是次要的），跑完之后将这些本地文件打包分发一下

以下是以后的计划

从打包好的cache_dir里得到成好段的英文段落，这些段落可以拿去统一机翻
我的方案可以做一些小文件的中英对齐，先做出来看看效果，以及有没有和其它对齐方案讨论的余地
做一套metric来评估我们对齐的效果

voidf commented 1 year ago

⚠重跑脚本的注意事项⚠

改上游数据集名字：un_pdf_random10032_preprocessed
删除本地文件夹batch_cache（这些是缓存内容，包括数据集的缓存）

voidf commented 1 year ago

目前的数据集的流向：

digitallibrary里爬下来的PDF文本
用脚本把PDF每页文本导出（存在分页信息，即页码，页眉，页脚等噪声），传至hf：https://huggingface.co/datasets/ranWang/un_pdf_text_data_test
用脚本把上一步中的数据做预处理，去除部分分页噪声，做成新的数据集传至hf：https://huggingface.co/datasets/bot-yaya/un_pdf_random10032_preprocessed
（接下来要做的）把上一步中的数据集拉下来使用gpt做成段，得到的数据存在本地

voidf commented 1 year ago

预处理脚本已经确认基本上没有问题了，等待merge。

预处理脚本主要做的事情：

过滤掉只有1页或者2页的小文件，这些小文件成段效果不好
过滤掉乱码文件，英文字符总长度在总文件长度中占比小于0.2的文件
过滤掉文件中出现得比较频繁的页眉噪声和页脚注解，这些噪声会影响成段以及之后的对齐效果
过滤掉重复的换行的空字符，保证预处理后的文本每一行中至少都含有一个非空字符

voidf commented 1 year ago

预处理后的数据集已经上传至huggingface：ranWang/un_pdf_random_preprocessed，此数据集由之前随机生成的相互没有交集的两个1万条和更早的3千条合并得到。过滤掉乱码和小文件后剩余15,293条。我们希望英文段落成段的生产脚本应该在此数据集上跑。

liyongsea commented 1 year ago

5刀->950个文件，如果跑完9万个文件需要500刀改变策略：

跑两千个成段数据
自己训练一个模型

liyongsea commented 1 year ago

除噪声(继续打磨算法)
继续训练自己模型(LSTM, BERT, ChatGLM)
联系和寻找pdf以外的数据形式 (word, xml) Xec