可以给个测评结果吗？ - Githubissues

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.42k stars 296 forks source link

可以给个测评结果吗？ #1

Closed linonetwo closed 1 year ago

linonetwo commented 1 year ago

很多评测样例其实出现在了SFT数据中，所以让我误以为模型具备很流畅的问答能力

这个对于生产其实问题不大，这说明对于生产所需的问答对，也能流畅问答了。我是没想到 50M 就能用了，而平时用 7B 的都笨得要死。

DLLXW commented 1 year ago

很多评测样例其实出现在了SFT数据中，所以让我误以为模型具备很流畅的问答能力

这个对于生产其实问题不大，这说明对于生产所需的问答对，也能流畅问答了。我是没想到 50M 就能用了，而平时用 7B 的都笨得要死。

离生产可用差太远了。我用的是一个比赛数据集，由于一些协议原因我暂时没法把数据集开源出来哈。比赛地址：https://competition.huaweicloud.com/information/1000041928/html12。比赛数据3000条左右吧，我留了100条验证，这个比赛的blue的话，在～0.02x，初赛排行榜上50名开外吧哈哈哈，主要是参数量太小了。人肉评测的话。基本可以听懂人类指令和意图，但是回答的都是东拼西凑的，正确性很低。

linonetwo commented 1 year ago

好吧，所以说至少还是得上 b 了，M 级的难说。我有空自己试试…

franklyd commented 1 year ago

多大的参数规模会好一些呢？