Closed temberature closed 1 year ago
不知道为什么,evaluation_code.ipynb 好像比ChatLuotuo.ipynb好不少
感谢您的详细测试与关注,我们的网页版的prompt是没有进行修正的,我们会在近几天更新网页版的代码,以保证和evaluation_code有相同的效果。骆驼0.1现在还是一个非常粗浅的尝试,训练的语料和手段也相对简单,我们会在后续进一步改进他的性能,欢迎持续关注与讨论!
感谢大佬的比对! 可以关注我们git的更新。0.3模型似乎有更多的提升,语料不覆盖的部分在跨语言显然是行不通的。不过后续我们准备去尝试直接对中文基模型进行lora finetune。那样应该能够得到很好的效果。
我发现你问的都是电影问题,这些问题在52k问题中是不覆盖的,可以考虑后面准备专门的垂直语料去finetune
我觉得这是个很有意思的问题,大佬您可以去收集一下IMDB前100电影相关的问题和讨论,准备大概10k左右的语料,我觉得就可以做电影专有模型了。
@temberature 大哥,你的问题我加到long todo list里面了,后期我们收集一波电影特化的数据,训个模型再和您汇报!
我又测试了更多样数据,现在看起来很有希望
之前发的是我随手测的真格基金Zbench 前几个
另外我发现一个很有趣的现象 translate to chinese: What was the highest grossing movie in the world in 2008? 7b 做不到,30b 就可以 这可能和模型中保留的跨语言能力有关
感谢您的关注与详细的测试!这个现象我们也会自己尝试复现,大模型的参数大小、训练过程等更多技术细节尚未完全清楚,欢迎持续关注与讨论!