esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MIT License
3.49k stars 246 forks source link

现在已经清洗好10G了吗 #33

Closed Sweetclover closed 1 year ago

esbatmop commented 1 year ago

清洗好了

Sweetclover commented 1 year ago
是从5400G里清洗了10G吗,在hugging face上可以下载的那个10G吗 15022435237

@. | ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年08月17日 17:17 | | 收件人 | esbatmop/MNBVC @.> | | 抄送人 | Sweetclover @.>, Author @.***> | | 主题 | Re: [esbatmop/MNBVC] 现在已经清洗好10G了吗 (Issue #33) |

清洗好了

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>