增加对Cluade3的评测

THUDM / AgentBench

A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24)

https://llmbench.ai

Apache License 2.0

2.15k stars 150 forks source link

Open xqun3 opened 7 months ago

xqun3 commented 7 months ago

很好的一项工作，最近 Anthropic 也放出了 Claude3 系列模型，能否增加对 Claude3 系列模型的评测结果呢？

zhc7 commented 6 months ago

Hi, 感谢您的建议，我们也很期待Claude3的评测结果，但是我们目前还没有Claude3的API

qzd-1 commented 5 months ago

对于有key和secret的模型怎么设置