DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

上下文长度32K #6

Closed CanvaChen closed 1 year ago

CanvaChen commented 1 year ago

上下文长度扩大到32K,是否直接修改参数就可以呢?是否会引发问题?

DLLXW commented 1 year ago

上下文长度扩大到32K,是否直接修改参数就可以呢?是否会引发问题?

直接改就行,只要你算力顶得住就行。如果是>torch2.0话,应该会默认开启Flash-attention,还能省不少算力