medical_qa.bin 没有用上

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.42k stars 296 forks source link

medical_qa.bin 没有用上 #9

Closed Deep1994 closed 1 year ago

Deep1994 commented 1 year ago

medical_qa.bin没有拼接在预训练数据中，是不是漏了= =

Deep1994 commented 1 year ago

还有个问题想请教一下，如果我的预训练数据量很大，比如100g，我是在预处理的时候就保存成mmap，还是说保存成bin，然后在在加载的时候打开memmap=True？这两种做法有区别吗？我看你的代码中是都保存成bin，然后设置memmap=True。但是readme中你提到：“如果语料过大，避免内存溢出，可以选择mmap格式。”，我有点疑惑，是不是不代码中这么做就已经是给出了mmap的解决方案了？

DLLXW commented 1 year ago

medical_qa.bin没有拼接在预训练数据中，是不是漏了= =

en...整理代码的时候比较随意，可能很多地方并不是最新版本，周末有时间我会再跟新一下代码，把一些细节完善下

DLLXW commented 1 year ago

前面存的时候都存成了.bin，后面用mmap读取或者直接读取都是可以的。memmap=True就表示希望通过mmap方式读取了，算是给出了mmap的解决方案了。你说的那种存的时候就存成mmap，貌似也是一种方式，你可以尝试一下