charent / Phi2-mini-Chinese

Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型,支持接入langchain加载本地知识库做检索增强生成RAG。Training your own Phi2 small chat model from scratch.
Apache License 2.0
467 stars 50 forks source link

请问对应的资源文件要去哪里获取呢? #2

Closed cjxx2016 closed 6 months ago

cjxx2016 commented 8 months ago

这是个很棒的项目, 我在代码中看到 ./data/wiki.simple.txt, 等资源数据文件, 是否有对应的说明和获取方式呢?

charent commented 8 months ago

详细的数据清洗过程在我的另外一个项目,raw_data_process.py#L599,以及raw_data_process.py#L975

自己也可以去wiki 下载地址:https://dumps.wikimedia.org/zhwiki/,下载zhwiki-[存档日期]-pages-articles-multistream.xml.bz2文件,大概2.7GB, 将下载的bz2文件转换为wiki.txt参考:WikiExtractor,最后利用OpenCC库转换为简体中文就是了。

cjxx2016 commented 8 months ago

了解了, 谢谢解答~