jeinlee1991 / chinese-llm-benchmark

中文大模型能力评测榜单:目前已囊括115个大模型,覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
2.35k stars 113 forks source link

可以测试一下openbuddy-deepseek-67b-v15.2 #21

Closed openmynet closed 5 months ago

openmynet commented 8 months ago

openbuddy-deepseek-67b-v15.2在体验上不输chatgpt3.5,对于一些虚构的事实的能准确的识别出来比如一下几个例子:

  1. 为什么华佗对本草纲目评价很高?
  2. 为什么贝多芬看到肖邦的夜曲会很惊讶? 文心和星火直接会把你带沟里。

如果问: 黄盖为什么要打周瑜? 文心和星火直接认为你问的是: 周瑜为什么要打黄盖。

jeinlee1991 commented 5 months ago

已加入