Open klb3713 opened 8 months ago
恕我直言,从给的例子来看,这个评测和真实agent开发的情况离得太远了 给的例子,大部分更像是在评测『创作』能力,或者更形象点,有的像教小白编程的问题……
agent是应用,agent需要的大模型能力主要是面向开发者的,建议参考openai 11月发布会的新功能,构造更接近真实场景的用例
感谢反馈。 第一阶段测试的是,LLM作为agent需要具备的基础核心能力,从工具使用、任务规划到长短期记忆。
如果你对LLM agent方面感兴趣,可以阅读相关材料:LLM Powered Autonomous Agents
恕我直言,从给的例子来看,这个评测和真实agent开发的情况离得太远了 给的例子,大部分更像是在评测『创作』能力,或者更形象点,有的像教小白编程的问题……
agent是应用,agent需要的大模型能力主要是面向开发者的,建议参考openai 11月发布会的新功能,构造更接近真实场景的用例