一文搞懂AI Agent，再聊聊Manus_老虎社区_美港股上老虎

一文搞懂AI Agent，再聊聊Manus

DeepSeek的技能还没消化，AI Agent又被Manus点燃了，消息铺天盖地，其实没那么悬乎。

AI Agent直译过来就是智能代理，也叫智能体，首先他是个应用。和我们现在熟悉的DeepSeek（应用）、豆包这类对话式AI 应用的区别是，对话式AI应用只是参谋，你给出指令，它思考后给出建议，具体执行还得人来；AI Agent更像是助手，真正的执行者，收到需求后，他交付的直接是最终成果。

比如我下周去北京旅游需要制定行程，DeepSeek会给出详细攻略，AI Agent不仅给出攻略，还帮你直接把票订好了。

订好票是最终的成果，在这之前，AI Agent会做哪些事儿呢？

第一，通过互联网搜索以及调用各种应用程序接口，收集和北京旅游相关的大量数据。

第二，把整个旅游规划任务拆解成可以执行的步骤，比如可能要按照景点、美食、交通、住宿等方面来规划，确定从哪些平台订票。

第三，根据拆解的步骤，搜索“记忆”，精准调用各种外部工具完成任务，比如调用地图、订票软件、景点官网来实现预定。

第四，根据结果验证是不是满足需求，不满足就会改进执行策略。下一次再做规划，它也能记得你的偏好做出更合适的选择。

这四个步骤，就正好对应了AI Agent的运行模式，感知、规划、记忆、行动。那AI Agent是怎么做到的呢？

他完成所有事的前提是有个思考的大脑，负责任务理解和逻辑规划，这个大脑和现在的对话式AI应用的大脑是相似的，都是大语言模型（LLM），大脑的能力制约着智能体的能力。这也是为什么智能体前两年就有，但咱们普通人体感不明显。

明明都有相似的大脑，为什么智能体看起来比对话式AI厉害？在现阶段最明显的区别就是工具使用和记忆系统。

一个是说智能体能调用外部工具来完成实际任务，拓展了大语言模型本身的能力。

另一个就是智能体的记忆系统，它分为短期记忆和长期记忆。这俩的区别就有点像你在完成开卷考试和闭卷考试的大脑记忆状态。

短期记忆像在做开卷考试，是说智能体在做一个任务时，能够记得这个任务相关的关键信息，比如搜索到的、推理过程中产生的、最终的任务目标等等，所以能连续执行任务步骤，不至于前面做完后面忘。

长期记忆就像在做闭卷考试，可以理解为持续学习、持续工作积累下来的所有知识的融会贯通，是对过去事件、知识、经验的回忆和调用，再反馈到大脑里让智能体形成策略。这两种记忆模式在智能体里是一起运作的。

讲到这儿是不是觉得细思极恐，这完全是人类的行为，会使用工具，会自主思考、决策、还会反思复盘，但这是理想情况下的。

智能体遇到复杂任务成功率目前是很低的，获取信息、推理规划、调用工具、执行验证这些事情实际是同步进行的。任务一复杂、步骤一多，智能体的CPU可能就给干冒烟了。复杂任务也会消耗大量的算力，成本就上去了；而且推理步骤越多，tokens消耗越猛，AI幻觉率会被成倍放大。

智能体也没有真正感知复杂环境和交互的能力，需要靠人帮忙搭建环境，所以现在智能体大多是在某个垂直领域，人部署好了既定任务流程，他照本宣科复现就行了。要真正落地，得有通用性的适配环境。

前两天爆火的Manus号称“全球首个通用Agent”，就是因为他从产品视角针对这些问题做出了一些尝试。Manus的底层大脑是好几种大模型，还用多个智能体协同的方式来分别扮演规划、执行、验证的角色，提升了复杂任务的处理能力；另外Manus还通过虚拟机新建任务环境，在云端调用各类工具，完成各种操作，不受本地设备影响。Manus的方法已经被复刻开源了。

Manus更多被认为是工程化的产物，也就是他把各种大模型的能力攒成了一个可以执行的智能体方案，但不能真正做到场景通用、没有推广性。

抛开营销来说，Manus的出现至少预示着今年会有越来越多类似的智能体工具应用出现。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

一文搞懂AI Agent，再聊聊Manus

评论

热议股票