人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。针对这一痛点,Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法。在大型实验中,DiscoRL 不仅在...
网页链接人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。针对这一痛点,Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法。在大型实验中,DiscoRL 不仅在...
网页链接
精彩评论