DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.47k stars 305 forks source link

请问大数据量怎么加载呢? #77

Open CaesarGo opened 4 months ago

CaesarGo commented 4 months ago

很有帮助的repo!我看里面有大数据量的训练,例如(140亿 Tokens和634亿 Tokens),按照repo内的读取数据,内存就爆掉了,请问应该如何操作呢?