esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MIT License
3.49k stars 246 forks source link

huggingface 上的数据现在有多大,下载的话硬盘最少要多少 #51

Closed zonggit closed 9 months ago

zonggit commented 9 months ago

有人给个介绍吗,huggingface上没有看到数据大小,开个服务器需要知道弄多大硬盘

esbatmop commented 9 months ago

huggingface的数据包含多个分类,总共需要几个T的硬盘空间,请按需下载。