有做和ChatGLM对比的评测吗

SparkJiao commented 1 year ago

目前没有，但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

Zombiessss commented 1 year ago

目前没有，但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

和chinese-llama-alpaca相比怎么样呢，https://github.com/ymcui/Chinese-LLaMA-Alpaca 有做过对比吗，感觉你贴出来pandas的效果很差呀，都是llama底座的情况下

SparkJiao commented 1 year ago

目前没有，但在我们的计划上。不过目前来看由于数据的原因7B的模型比较难超过ChatGLM-6B。

和chinese-llama-alpaca相比怎么样呢，https://github.com/ymcui/Chinese-LLaMA-Alpaca 有做过对比吗，感觉你贴出来pandas的效果很差呀，都是llama底座的情况下

我们没有和Chinese-LLaMA-Alpaca做对比是出于时间关系，从instruction tuning的数据量上看belle是更全面的（直觉上性能也会更好），所以我们优先测了belle，但我们忙完这段时间之后会尽可能补充现有的中文模型。倒不是刻意回避更强的模型，因为chatGLM-6B和Moss应该肯定会比我们强，但是我现在还没来得及补全这部分推理的框架，需要时间。

关于效果很差，我们的模型并不擅长做对话（因为COIG本身就没有很多chat的数据，以问答和翻译为主，我们没有用alpaca的数据）。目前在对话流畅性和事实性方面，除非有新的高质量instruction tuning数据集出现，否则其实大家都不会有什么本质的区别（我们预训练阶段和Chinese-LLaMA-alpaca是一致的，或者说目前这是最通用的语料）。

我们还是希望从基础能力方面去测评模型，并持续改进，这方面的评测相比case study或者少量样本人工主观判断，我们觉得还是更客观地去直接算准确率更合理，当然目前也有很多不足，比如现在全是zero-shot answer-only的设置，需要引入CoT和few-shot的设置。我们会持续完善。

dandelionsllm / pandallm

有做和ChatGLM对比的评测吗 #6