DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

处理百度数据集的时间报错 #25

Open hopeforus opened 11 months ago

hopeforus commented 11 months ago

处理到473000 左右的时候,系统就kill掉了,不知道是什么原因,内存128,GPU 显存48G 不过这个时候还用不到显存吧?

DLLXW commented 11 months ago

处理到473000 左右的时候,系统就kill掉了,不知道是什么原因,内存128,GPU 显存48G 不过这个时候还用不到显存吧?

难道是内存炸裂了?按道理不应该啊,你这128G的内存,或许可以试试分片处理

hopeforus commented 11 months ago

我试了几次,又看了日志,确实是内存炸了,我尝试用unlimit - v限制内存好像也不管用,分片具体怎么实现呢? 小白一个,请指导

hopeforus commented 11 months ago

4730000 这个位置,不知道后面还有多少?

AClolinta commented 11 months ago

建议分片处理数据,我是分成了10片,然后在统一的整合到pretrain.bin里头

DLLXW commented 11 months ago

我试了几次,又看了日志,确实是内存炸了,我尝试用unlimit - v限制内存好像也不管用,分片具体怎么实现呢? 小白一个,请指导

最简单的把json分成10个小json文件,依次处理

hopeforus commented 11 months ago
多谢! 胡红亮

@. | ---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2023年09月09日 11:54 | | 收件人 | DLLXW/baby-llama2-chinese @.> | | 抄送人 | hopeforus @.>, Author @.***> | | 主题 | Re: [DLLXW/baby-llama2-chinese] 处理百度数据集的时间报错 (Issue #25) |

建议分片处理数据,我是分成了10片,然后在统一的整合到pretrain.bin里头

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>