s-JoL / Open-Llama

The complete training code of the open-source high-performance Llama model, including the full process from pre-training to RLHF.
https://huggingface.co/s-JoL/Open-Llama-V2
MIT License
30 stars 4 forks source link

wudao数据集的下载预处理脚本问题 #42

Closed skepsun closed 1 year ago

skepsun commented 1 year ago

首先是下载链接我试了自己账号申请的链接无法下载,只能用scidb的链接,不需要登录,然后用curl下载老是出错(下完了文件md5不一致,也没法解压),就换成了wget,终于下载成功。我用的下载代码是(没有循环):

wget -v -c 'https://download.scidb.cn/download?fileId=63a30383fed6a8a9e8454302&dataSetType=organization&fileName=WuDaoCorporaText-2.0-open.rar' -O data/WuDaoCorpus2.0_base_200G.rar

然后解压的命令没有指定保存路径,如果是在项目根目录运行这个sh文件的话会解压到根目录里(Open-LLama/WuDaoCorpus2.0_base_200G/)。需要将其移到data文件里,或者修改data/preprocess_wudao.py里的路径。 另外pile真的很难下(还得翻墙)……

s-JoL commented 1 year ago

感谢对下载数据集部分的建议,这个下载方法看起来不错,我已经加到了readme里 并且@你了。我用了循环是因为wudao那个链接不太稳定,每下载1G会中断,不得不加个循环不断的继续下载才行。

curl和wget可能是处理redirect有区别,在下载instruct数据集的时候也有几个用curl下载不了的。

unrar没指定路径的问题,刚刚更新了。