Closed soloice closed 4 months ago
能否提供评测方法与评测结果呢? 我们明白强于GPT35,这么说明是希望DeepSeek能够替代掉GPT35的套壳,但达到GPT4水平暂时还没有足够的评测支撑。
论文里都有,谢谢。
这里需要明确的是: 1、GPT-4 有很多版本,不同日期的版本能力也有较大差距; 2、英文能力确实和 GPT-4 还有差距,但中文能力国内头部大模型都已经至少超越某些版本的 GPT-4 了。
当然我理解你们的顾虑,不想做标题党。如果不愿意提 GPT-4,那么至少希望换成【GPT-3.5 高替/优替】,否则会让小白用户误解我们的水平。
发这个帖子的另一个作用还是希望给国内做基座模型的团队正名,毕竟大部分人并不关心国产大模型如何,只盯着 O/A 两家看。我希望大家的努力都能被看到。
好的,我会采纳这个建议。
@soloice 在多方调研后,确定中文能力可达到GPT4水平,已更新简介和文档站点,感谢反馈。
根据我们自己以及首批用户的测试,模型能力显著强于 GPT-3.5,应该是 GPT-4 的水平。建议修改措辞为 【GPT-4 平替】。
另:以上并非自嗨或者拉踩,其实国内头部大模型(至少在中文领域)都已经明显超过 3.5 的了,友商也都做得很好。只是对普通用户或者不做基座模型的研究者不太关心这方面而已。