esbatmop / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
MIT License
3.38k stars 231 forks source link

如何处理json文件, 每个json文件格式不太一样? #12

Closed Mddct closed 1 year ago

Mddct commented 1 year ago

首先,非常感谢这个项目 现在有个疑问, “如何处理json文件, 每个json文件格式不太一样?”, 或者我去哪里可以找到对应的json字段定义呢?

感谢!

esbatmop commented 1 year ago

随着我们不断的清洗,json格式最终会趋于一致。目前同一个json文件内都肯定是一个格式,取第一行看一下即可。