THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)
https://llmbench.ai
Apache License 2.0
2.15k stars 150 forks source link

增加对Cluade3的评测 #126

Open xqun3 opened 7 months ago

xqun3 commented 7 months ago

很好的一项工作,最近 Anthropic 也放出了 Claude3 系列模型,能否增加对 Claude3 系列模型的评测结果呢?

zhc7 commented 6 months ago

Hi, 感谢您的建议,我们也很期待Claude3的评测结果,但是我们目前还没有Claude3的API

qzd-1 commented 5 months ago

对于有key和secret的模型怎么设置