[Paper Reading]The Rise and Potential of Large Language Model Based Agents: A Survey

The Birth of An Agent: Construction of LLM-based Agents

作者认为一个 AutoAgent 可主要围绕以下三个方面来构建：

大脑运转的整体逻辑：

一旦接收到外接的多模态信息之后，需要转化成文本信息，从而让大模型来处理
接着将在外接知识库当中做知识检索，在历史对话当中做相关内容召回。检索出来的信息会有助于 Brain 做 Plan、Reasoning以及 Make decision（我感觉在模型层面，是通过 prompt 来控制以上三种不同的任务的）
Agent 能够存储相关的历史聊天内容、外部的知识库，这些都可以 embedding 化，从而用 RAG 来做知识召回。同时也会做知识更新，其中包括常识和垂类知识。

现在 LLM 已经发展的非常成熟，能够理解和生成复杂的文本语言，甚至文本中包含的潜在含义也能够理解出来，所以与 LLM 之间的交互最好是通过自然语言进行交互。

用自然语言交互更适合与人之间的交互。
即使是人类，一轮对话都很难得到全部的信息，甚至是感觉到疑惑，所以多轮对话能够让信息更加明确。
- 可是一旦涉及到多轮对话，就会加入：多个说话者，多个主题，信息不连续等问题，让整个内容理解变得非常复杂。
- 主要分为以下三步
- 理解对话历史信息
- 根据历史对话决策到底要执行什么样的 action
- 根据对话历史和 action 的结果生成回复（response）
高质量自然语言生成
- 高质量自然语言回复其实就是让 LLM 的生成更符合真人专家的回复，从语义的角度更符合真实回复。
- 即使你的query 存在一定的语法错误，甚至描述的很粗糙，LLM 通常也是能够清晰的理解你的意图。

不同的知识其实可以通过以下层面来划分：

有一些学者常识 Edit Large Language Model（删除旧知识，装载新知识，听起来很懵逼，不过有相关的论文，建议看看A Comprehensive Study of Knowledge Editing for Large Language Models）。

还有一种现象：LLM 可能会生成一些与真实不符合的内容，这种情况称之为：幻觉（这个是当前的热点，也是当前比较靠谱的解决方案）。

参考论文：

hain-of-thought prompting elicits reasoning in large language models
nvestigating the factual knowledge boundary of large language models with retrieval augmentation.
Augmented language models: a survey.

记忆通常包含用户的输入（query）、自己的思考（thoughts）、自己的输出（生成的文本）。

通常 LLM 支持的最大文本长度是有限的，那如何有效存储与用户相关的知识呢？通常有如下方法：

用支持更大长度的 LLM 模型
对 memory 进行总结，用短的文本来表示长文本中包含的核心知识。
将 memory 转化成向量或者特定的数据结构。
- 将文本转化为三元组配置，参考论文：[ET-LLM: towards a general read-write memory for large language models. ]
- memory sandbox: Transparent and interactive memory management for conversational agents.
- 通过 SQL 与知识库进行交互：Chatdb: Augmenting llms with databases as their symbolic memory、LLM as DBA.

如何搜索最合适的相关 memory 呢，可通过以下指标来衡量：

我怎么感觉这三个指标说了跟没说是一样的。

其实对话历史应该是可以：修改、添加或者总结。用户理论上也应该可以编辑对应的对话历史，从而调整Agent 相关的 memory 数据信息。

。。。

在面对负责问题的时候，需要接入外部工具来解决模型无法解决的问题，比如说外部知识、实时性信息等。

模型回复的内容受限于：

工具能够增强 LLM 一些基础能力，比如说：获取当前时间、获取当前天气信息等，更或者说医学界最新的论文列表，从而在其中总结出最新的知识列表。

每个 tool 都有自己的输入输出描述、工具作用描述以及 few-shot 示例描述，现在的 LLM 几乎能够理解 tool 的用法并能够抽取出对应位置上的关键数据。