DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

没有找到medical_qa_144w #2

Closed Yuiceee closed 1 year ago

Yuiceee commented 1 year ago

其他的预训练和用于微调的数据都找到了,但是没有“medical_qa_144w.csv”,请问这部分数据在哪里呢?

DLLXW commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈,可以自行处理,也不一定非要转csv的

Deep1994 commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈,可以自行处理,也不一定非要转csv的

这部分数据也是用来预训练的是吧,也就是说,预训练出来的模型其实已经具备一定的医学问答的能力了?能不能预训练的时候不用这部分数据,在sft的时候使用,这跟预训练就一起训练有什么区别吗?哪种方式下的模型的医学问答能力更强?

Deep1994 commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈,可以自行处理,也不一定非要转csv的

在公司下不了百度网盘,https://huggingface.co/datasets/TigerResearch/pretrain_zh,这个数据如果想拿来替代百度百科数据进行预训练的话,该怎么使用呢?我看里面都是.parquet格式的数据,但是,貌似可以直接通过datasets.load_dataset('TigerResearch/pretrain_zh')导入,这样的数据怎么接入你的代码呢

DLLXW commented 1 year ago

如果想要模型在某一专有领域表现好,预训练里面也肯定是加得越多相关领域的语料,SFT后模型的效果越好。

tiger数据是.parquet格式,可以用专门的python包读取,很简单的,自己百度一下即可。读出来也是类似csv的表格吧。然后再参考data_process.py里面几个例子对它进行分词存为.bin即可。估计总共代码不会超过30行,你照着data_process.py自己写下

DLLXW commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈,可以自行处理,也不一定非要转csv的

在公司下不了百度网盘,https://huggingface.co/datasets/TigerResearch/pretrain_zh,这个数据如果想拿来替代百度百科数据进行预训练的话,该怎么使用呢?我看里面都是.parquet格式的数据,但是,貌似可以直接通过datasets.load_dataset('TigerResearch/pretrain_zh')导入,这样的数据怎么接入你的代码呢?

你可以在个人电脑下载,再传到公司电脑?