esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MIT License
3.49k stars 246 forks source link

如何校验下载内容? #11

Closed PussyCat0700 closed 1 year ago

PussyCat0700 commented 1 year ago

您好:

我注意到下载列表只提供了链接,没有提供类似md5的校验码,想请教一下我应该如何校验本地下载文件与网盘文件的一致性呢?

十分感谢!

esbatmop commented 1 year ago

都是加了密码的压缩包,我理解加了密码的压缩包,只要有点错,就解压报错啦。

xclimbing commented 1 year ago

微力同步提供的下载都加上了md5校验码,但这也是我从百度网盘下载后才加上的。