Closed Degfy closed 1 year ago
模型的常识很大程度还是需要依赖预训练阶段,BELLE基于BLOOM,且目前重点关注instruct阶段如何激发指令理解能力。我们也在探讨如何加强知识注入,将来有机会也会开源相关进展。
多大的资源跑起来的?
多大的资源跑起来的?
不做量化的话,显存大概需要28G左右。
常识很大程度还是需要依赖预训练阶段
我这里是用的 NVIDIA V100
确实如README里面所提到,基于当前数据和基础模型训练得到的SFT模型,在效果上仍存在以下问题:在涉及事实性的指令上可能会产生违背事实的错误回答。
后续计划会加强对知识的注入。
模型进一步训练的化,需要多少卡?8张A100 42G显存够不够?
大佬,怎么跑起来的呀,运行哪个文件呢