一文搞懂AI Agent,再聊聊Manus
DeepSeek的技能还没消化,AI Agent又被Manus点燃了,消息铺天盖地,其实没那么悬乎。
AI Agent直译过来就是智能代理,也叫智能体,首先他是个应用。和我们现在熟悉的DeepSeek(应用)、豆包这类对话式AI 应用的区别是,对话式AI应用只是参谋,你给出指令,它思考后给出建议,具体执行还得人来;AI Agent更像是助手,真正的执行者,收到需求后,他交付的直接是最终成果。
比如我下周去北京旅游需要制定行程,DeepSeek会给出详细攻略,AI Agent不仅给出攻略,还帮你直接把票订好了。
订好票是最终的成果,在这之前,AI Agent会做哪些事儿呢?
第一,通过互联网搜索以及调用各种应用程序接口,收集和北京旅游相关的大量数据。
第二,把整个旅游规划任务拆解成可以执行的步骤,比如可能要按照景点、美食、交通、住宿等方面来规划,确定从哪些平台订票。
第三,根据拆解的步骤,搜索“记忆”,精准调用各种外部工具完成任务,比如调用地图、订票软件、景点官网来实现预定。
第四,根据结果验证是不是满足需求,不满足就会改进执行策略。下一次再做规划,它也能记得你的偏好做出更合适的选择。
这四个步骤,就正好对应了AI Agent的运行模式,感知、规划、记忆、行动。那AI Agent是怎么做到的呢?
他完成所有事的前提是有个思考的大脑,负责任务理解和逻辑规划,这个大脑和现在的对话式AI应用的大脑是相似的,都是大语言模型(LLM),大脑的能力制约着智能体的能力。这也是为什么智能体前两年就有,但咱们普通人体感不明显。
明明都有相似的大脑,为什么智能体看起来比对话式AI厉害?在现阶段最明显的区别就是工具使用和记忆系统。
一个是说智能体能调用外部工具来完成实际任务,拓展了大语言模型本身的能力。
另一个就是智能体的记忆系统,它分为短期记忆和长期记忆。这俩的区别就有点像你在完成开卷考试和闭卷考试的大脑记忆状态。
短期记忆像在做开卷考试,是说智能体在做一个任务时,能够记得这个任务相关的关键信息,比如搜索到的、推理过程中产生的、最终的任务目标等等,所以能连续执行任务步骤,不至于前面做完后面忘。
长期记忆就像在做闭卷考试,可以理解为持续学习、持续工作积累下来的所有知识的融会贯通,是对过去事件、知识、经验的回忆和调用,再反馈到大脑里让智能体形成策略。这两种记忆模式在智能体里是一起运作的。
讲到这儿是不是觉得细思极恐,这完全是人类的行为,会使用工具,会自主思考、决策、还会反思复盘,但这是理想情况下的。
智能体遇到复杂任务成功率目前是很低的,获取信息、推理规划、调用工具、执行验证这些事情实际是同步进行的。任务一复杂、步骤一多,智能体的CPU可能就给干冒烟了。复杂任务也会消耗大量的算力,成本就上去了;而且推理步骤越多,tokens消耗越猛,AI幻觉率会被成倍放大。
智能体也没有真正感知复杂环境和交互的能力,需要靠人帮忙搭建环境,所以现在智能体大多是在某个垂直领域,人部署好了既定任务流程,他照本宣科复现就行了。要真正落地,得有通用性的适配环境。
前两天爆火的Manus号称“全球首个通用Agent”,就是因为他从产品视角针对这些问题做出了一些尝试。Manus的底层大脑是好几种大模型,还用多个智能体协同的方式来分别扮演规划、执行、验证的角色,提升了复杂任务的处理能力;另外Manus还通过虚拟机新建任务环境,在云端调用各类工具,完成各种操作,不受本地设备影响。Manus的方法已经被复刻开源了。
Manus更多被认为是工程化的产物,也就是他把各种大模型的能力攒成了一个可以执行的智能体方案,但不能真正做到场景通用、没有推广性。
抛开营销来说,Manus的出现至少预示着今年会有越来越多类似的智能体工具应用出现。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


