DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

medical_qa.bin 没有用上 #9

Closed Deep1994 closed 1 year ago

Deep1994 commented 1 year ago

medical_qa.bin没有拼接在预训练数据中,是不是漏了= =

Deep1994 commented 1 year ago

还有个问题想请教一下,如果我的预训练数据量很大,比如100g,我是在预处理的时候就保存成mmap,还是说保存成bin,然后在在加载的时候打开memmap=True?这两种做法有区别吗?我看你的代码中是都保存成bin,然后设置memmap=True。但是readme中你提到:“如果语料过大,避免内存溢出,可以选择mmap格式。”,我有点疑惑,是不是不代码中这么做就已经是给出了mmap的解决方案了?

DLLXW commented 1 year ago

medical_qa.bin没有拼接在预训练数据中,是不是漏了= =

en...整理代码的时候比较随意,可能很多地方并不是最新版本,周末有时间我会再跟新一下代码,把一些细节完善下

DLLXW commented 1 year ago

前面存的时候都存成了.bin,后面用mmap读取或者直接读取都是可以的。memmap=True就表示希望通过mmap方式读取了,算是给出了mmap的解决方案了。你说的那种存的时候就存成mmap,貌似也是一种方式,你可以尝试一下