没有找到medical_qa_144w

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.42k stars 296 forks source link

没有找到medical_qa_144w #2

Closed Yuiceee closed 1 year ago

Yuiceee commented 1 year ago

其他的预训练和用于微调的数据都找到了，但是没有“medical_qa_144w.csv”，请问这部分数据在哪里呢？

DLLXW commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈，可以自行处理，也不一定非要转csv的

Deep1994 commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈，可以自行处理，也不一定非要转csv的

这部分数据也是用来预训练的是吧，也就是说，预训练出来的模型其实已经具备一定的医学问答的能力了？能不能预训练的时候不用这部分数据，在sft的时候使用，这跟预训练就一起训练有什么区别吗？哪种方式下的模型的医学问答能力更强？

Deep1994 commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈，可以自行处理，也不一定非要转csv的

在公司下不了百度网盘，https://huggingface.co/datasets/TigerResearch/pretrain_zh，这个数据如果想拿来替代百度百科数据进行预训练的话，该怎么使用呢？我看里面都是.parquet格式的数据，但是，貌似可以直接通过datasets.load_dataset('TigerResearch/pretrain_zh')导入，这样的数据怎么接入你的代码呢？

DLLXW commented 1 year ago

如果想要模型在某一专有领域表现好，预训练里面也肯定是加得越多相关领域的语料，SFT后模型的效果越好。

tiger数据是.parquet格式，可以用专门的python包读取，很简单的，自己百度一下即可。读出来也是类似csv的表格吧。然后再参考data_process.py里面几个例子对它进行分词存为.bin即可。估计总共代码不会超过30行，你照着data_process.py自己写下

DLLXW commented 1 year ago

这部分是https://huggingface.co/datasets/shibing624/medical/tree/main/finetune这里的数据转成的csv格式。README.md里面也给了哈，可以自行处理，也不一定非要转csv的

在公司下不了百度网盘，https://huggingface.co/datasets/TigerResearch/pretrain_zh，这个数据如果想拿来替代百度百科数据进行预训练的话，该怎么使用呢？我看里面都是.parquet格式的数据，但是，貌似可以直接通过datasets.load_dataset('TigerResearch/pretrain_zh')导入，这样的数据怎么接入你的代码呢？

你可以在个人电脑下载，再传到公司电脑？