dandelionsllm / pandallm

Panda项目是于2023年5月启动的开源海外中文大语言模型项目,致力于大模型时代探索整个技术栈,旨在推动中文自然语言处理领域的创新和合作。
Apache License 2.0
1.07k stars 91 forks source link

有做和ChatGLM对比的评测吗 #6

Open lanyuer opened 1 year ago

SparkJiao commented 1 year ago

目前没有,但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

Zombiessss commented 1 year ago

目前没有,但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

和chinese-llama-alpaca相比怎么样呢,https://github.com/ymcui/Chinese-LLaMA-Alpaca 有做过对比吗,感觉你贴出来pandas的效果很差呀,都是llama底座的情况下

SparkJiao commented 1 year ago

目前没有,但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

和chinese-llama-alpaca相比怎么样呢,https://github.com/ymcui/Chinese-LLaMA-Alpaca 有做过对比吗,感觉你贴出来pandas的效果很差呀,都是llama底座的情况下

我们没有和Chinese-LLaMA-Alpaca做对比是出于时间关系,从instruction tuning的数据量上看belle是更全面的(直觉上性能也会更好),所以我们优先测了belle,但我们忙完这段时间之后会尽可能补充现有的中文模型。倒不是刻意回避更强的模型,因为chatGLM-6B和Moss应该肯定会比我们强,但是我现在还没来得及补全这部分推理的框架,需要时间。

关于效果很差,我们的模型并不擅长做对话(因为COIG本身就没有很多chat的数据,以问答和翻译为主,我们没有用alpaca的数据)。目前在对话流畅性和事实性方面,除非有新的高质量instruction tuning数据集出现,否则其实大家都不会有什么本质的区别(我们预训练阶段和Chinese-LLaMA-alpaca是一致的,或者说目前这是最通用的语料)。

我们还是希望从基础能力方面去测评模型,并持续改进,这方面的评测相比case study或者少量样本人工主观判断,我们觉得还是更客观地去直接算准确率更合理,当然目前也有很多不足,比如现在全是zero-shot answer-only的设置,需要引入CoT和few-shot的设置。我们会持续完善。