Closed liyongsea closed 1 year ago
batch_cache\batch_sequential_cache_dir
的内容很重要(实际上.list
文件反而是次要的),跑完之后将这些本地文件打包分发一下以下是以后的计划
⚠重跑脚本的注意事项⚠
un_pdf_random10032_preprocessed
batch_cache
(这些是缓存内容,包括数据集的缓存)目前的数据集的流向:
预处理脚本已经确认基本上没有问题了,等待merge。
预处理脚本主要做的事情:
预处理后的数据集已经上传至huggingface:ranWang/un_pdf_random_preprocessed,此数据集由之前随机生成的相互没有交集的两个1万条和更早的3千条合并得到。过滤掉乱码和小文件后剩余15,293条。我们希望英文段落成段的生产脚本应该在此数据集上跑。
5刀->950个文件,如果跑完9万个文件需要500刀 改变策略: