DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

可以给个测评结果吗? #1

Closed linonetwo closed 1 year ago

linonetwo commented 1 year ago

很多评测样例其实出现在了SFT数据中,所以让我误以为模型具备很流畅的问答能力

这个对于生产其实问题不大,这说明对于生产所需的问答对,也能流畅问答了。我是没想到 50M 就能用了,而平时用 7B 的都笨得要死。

DLLXW commented 1 year ago

很多评测样例其实出现在了SFT数据中,所以让我误以为模型具备很流畅的问答能力

这个对于生产其实问题不大,这说明对于生产所需的问答对,也能流畅问答了。我是没想到 50M 就能用了,而平时用 7B 的都笨得要死。

离生产可用差太远了。我用的是一个比赛数据集,由于一些协议原因我暂时没法把数据集开源出来哈。比赛地址:https://competition.huaweicloud.com/information/1000041928/html12。比赛数据3000条左右吧,我留了100条验证,这个比赛的blue的话,在~0.02x,初赛排行榜上50名开外吧哈哈哈,主要是参数量太小了。人肉评测的话。基本可以听懂人类指令和意图,但是回答的都是东拼西凑的,正确性很低

linonetwo commented 1 year ago

好吧,所以说至少还是得上 b 了,M 级的难说。我有空自己试试…

franklyd commented 1 year ago

多大的参数规模会好一些呢?