DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.34k stars 288 forks source link

请问单卡16G显存的4060Ti能训练吗? #64

Closed XiaoluJiayou closed 3 months ago

XiaoluJiayou commented 4 months ago

money有限,只有单卡请16G显存的4060Ti,但是也想从头训练或者微调一下大语言模型,了解一下从分词到训练再到最后测试的这么一个过程。请问大佬有没有什么建议

DLLXW commented 3 months ago

money有限,只有单卡请16G显存的4060Ti,但是也想从头训练或者微调一下大语言模型,了解一下从分词到训练再到最后测试的这么一个过程。请问大佬有没有什么建议

可以跑起来代码,但batch会很小,训练很慢。所以可以用作学习,但是很难训练出智能