请问大数据量怎么加载呢？

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.47k stars 305 forks source link

Open CaesarGo opened 4 months ago

CaesarGo commented 4 months ago

很有帮助的repo！我看里面有大数据量的训练，例如（140亿 Tokens和634亿 Tokens），按照repo内的读取数据，内存就爆掉了，请问应该如何操作呢？