【长期主义】第274期智能说:Andrej Karpathy最新访谈,吴恩达演讲,Mistral CEO Arthur观点分享

OpenAI创始成员、前特斯拉AI高级总监Andrej Karpathy,近日在美国红杉资本AI Ascent活动上,与投资人Stephanie Zhan对话,Andrej分享构建更加开放与充满活力的AI生态系统重要性、与马斯克合作感觉、如何利用AI让构建事物变得更容易等内容。

斯坦福大学教授、著名AI专家吴恩达,近日在美国红杉资本AI Ascent活动上,分享AI Agent最新趋势与洞察,表示AI Agent工作流程,与传统使用大语言模型LLM方式不同,更加迭代与对话式,认为未来AI Agent能力将大幅扩展,人们需要学会将任务委托给AI Agent,耐心等待结果,不是追求即时响应。

法国AI初创公司Mistral创始人Arthur Mensch,近日在美国红杉资本AI Ascent活动上,分享关于开源大模型发展与未来趋势的观点。Arthur表示,未来5年,AI将向更加自主的智能体Agent与助手发展,能完成越来越多复杂任务,制作这种智能体,将变得越来越容易。

本期长期主义,选择Andrej Karpathy、吴恩达、Arthur Mensch,在美国红杉资本AI Ascent活动上分享内容,有新Newin发布,六合商业研选精校,分享给大家,Enjoy! 

正文:

全文20,382字

预计阅读41分钟

Andrej Karpathy美国红杉资本最新访谈,达到AGI或需全新架构

时间:2024年3月27日

来源:有新Newin

字数:9,758

OpenAI创始成员、前特斯拉AI高级总监Andrej Karpathy,在美国红杉资本AI Ascent活动上,与投资人Stephanie Zhan对话。

Andrej Karpathy早年师从Jeff Hinton、李飞飞,成名作是在斯坦福的深度学习课程,2015年共同创立OpenAI,随后受马斯克邀请加入特斯拉AI团队。这场美国红杉活动上,Andrej分享构建更加开放与充满活力的AI生态系统重要性,与马斯克合作的感觉,以及如何利用AI让构建事物变得更容易等内容。

以下是Andrej Karpathy与Stephanie Zhan对话内容:

Stephanie Zhan:回到共同创立OpenAI的时光,你最喜欢的时刻是什么?

AK:就在那里,第一个办公室,之前可能是在Greg公寓里,也许这不算。我们可能在这里待了大约2年,巧克力工厂就在楼下,总是闻起来很香。

我想团队大概是10~20个人左右。我们在这里有过一些非常有趣的经历,其中一个是Jensen在GTC上暗示的,就在昨天或前天。

Jensen描述了他是如何带来第一个DGX,并将其交付给OpenAI。就是发生在那里的,我们都在那边房间签字。

Stephanie Zhan:即使在7年前,AGI似乎也是极其不可能实现的任务,甚至在我们一生中。现在它似乎近在眼前,你对未来10年看法是什么?

AK:我想几年前,我觉得AGI并不清楚它会如何实现。这非常学术化,你会考虑不同方法,现在情况很明朗,有很多空间,每个人都在试图填补这个空间,有很多的优化。

大致上,事情发展的方式,是每个人都在尝试构建我称之为LLMs的东西。基本上我喜欢把它看作是一个操作系统,你必须获得一堆基本的外设,将它们连接到这个新的CPU或类似东西上。

外设当然包括文本、图像、音频与所有模态,然后你有一个CPU,即LLM Transformer本身,然后它也连接到我们已经为自己建立起来的所有Software 1.0 Infra。

每个人都在尝试构建类似东西,将其作为一种可定制的东西,提供给经济的所有不同角落。大致上每个人都在努力构建这样的东西。

整体上,它的发展方向是我们可以启动与关闭这些相对独立的Agent,我们可以给它们提供高层次的任务,并在各种方面进行专业化。

这将会是非常有趣与令人兴奋的,而且不只是一个Agent,而是许多Agent。

Stephanie Zhan:如果未来的这种看法是正确的,我们应该怎样改变我们的生活方式?

AK:我不知道。我猜我们必须试图去构建它,影响它,确保它是好的,只是尽力确保它能够良好发展。

Stephanie Zhan:我想谈一下大家都在谈论的问题,OpenAI正在主导生态系统。今天这里大多数观众都是创始人,他们试图创造一个小的利基,祈祷OpenAI不会一夜之间把他们干掉。你认为其他玩家在哪些领域,存在建立新独立公司的机会?OpenAI将在哪些领域继续主导,即使它的野心在增长?

AK:OpenAI正在努力构建LLMs操作系统,就像我们今天早些时候听到的一样,它正试图开发这个平台,上面可以安置不同行业的不同公司。

现在,操作系统的类比非常有趣,当你看到像Windows之类东西时,这些也是操作系统,它们附带一些默认的APP,就像浏览器随Windows一起提供,你可以使用Edge浏览器。

以同样的方式,OpenAI或任何其他公司可能会推出一些默认的APP,打引号说,但这并不意味着你不能有不同浏览器在其上运行,就像不同的聊天Agent在Infra上运行一样。

可能会有一些默认的APP,也可能会有一个繁荣的生态系统,包含各种调整到经济的不同角落的应用程序。

我真的很喜欢早期iPhone应用的类比,以及它们的样子。它们都有点像笑话,需要时间才能发展。

我绝对认同,我们现在正在经历同样的事情。人们正在努力弄清楚这个东西擅长什么?它不擅长什么?我该如何使用它?我该如何编程?我该如何调试?我该如何实际执行真正的任务?以及什么样的监督?

它相当自主,又不是完全自主。监督是什么样?评估又是什么样?有许多事情需要考虑,并且要了解它的心理学。这需要一些时间来确切了解如何使用Infra,我们会在接下来几年里看到这一点。

Stephanie Zhan:目前,LLMs、OpenAI、Anthropic、Mistral、Llama、Gemini以及整个开源模型生态系统,现在有一整套小模型的长尾。你如何预见生态系统的未来发展?

AK:操作系统的类比很有趣,比如说,我们基本上有几个专有系统的寡头,比如说Windows、MacOS等。我们也有Linux,Linux有无穷无尽的发行版,我想也许它会看起来有点像那样。

我也认为我们在命名方面要小心,你列出的很多,比如Llama、Mistral等,我不会说它们是开源的,就像将一个二进制文件扔给一个操作系统一样,你可以用它工作。它有用,但不是完全有用。

还有一些上限,完全开源的LLM会更好一些,他们完全公开了编译操作系统所需的全部Infra,从数据中训练模型、收集数据等。

当你只是得到一个二进制文件时,当然会更好,你可以finetune模型,这是有用的,但这有点微妙,你不能完全finetune模型,你finetune模型越多,它就越可能在其他方面退化。

如果你想增加功能,不想减弱其他功能,可能会想在以前的数据集分布与新的数据集分布之间进行某种混合训练,你不想减弱以前分布,你应该增加知识。如果你只给出权重,你就做不到这一点,你需要训练循环,你需要数据集等。

你在如何使用这些模型方面受到限制。它肯定是有帮助的,我们需要稍微更好的语言来描述它。有开放权重模型、开源模型,然后是专有模型,我想这可能是生态系统。可能它看起来会与我们今天拥有的非常相似。

Stephanie Zhan:另一个我想谈的是规模。规模似乎是唯一重要的,数据规模,计算规模。大型研究实验室、大型科技巨头,如今拥有巨大的优势。你对此持什么看法?这难道就是全部吗?如果不是,还有什么其他因素?

AK:我会说规模绝对是第一位的,我确实认为在那里有细节需要处理。很多也涉及到数据集的准备等,使其非常好与干净等,非常重要,这些都是你可以获得的计算效率提升。有数据、算法,然后当然,模型的训练,使其变得非常庞大。

规模将是主要的决定因素,确实是第一个原则性组成部分,但还有许多其他你需要做对的事情,这就像规模设置了某种速度限制,你确实需要一些其他的东西,但如果你没有规模,你基本上就无法训练一些庞大的模型。

如果你只是进行finetune等训练模型,也许规模要求就不那么高,但是,我们还没有真正看到这种情况完全实现。

Stephanie Zhan:你能分享更多你认为同样重要,但在规模之后的一些因素吗?

AK:首先是,你不能只是训练这些模型。如果你只给了钱与规模,实际上要构建这些模型仍然非常困难。部分原因是Infra还是很新的,还在发展中,还没有完全成熟,但是在规模上训练这些模型非常困难,它是一个非常复杂的分布式优化问题。

目前这方面的人才相对稀缺。基本上变成了这种疯狂的事情,在数以万计的GPU上运行,所有这些GPU在不同时间点,都会随机出现故障,监控与让它正常运行,实际上是非常困难的挑战。

直到最近,GPU并不是为像万级的GPU工作负载而设计的。很多Infra都在这种压力下发出吱吱声,我们需要解决这个问题。

现在,如果你只是给某人大量资金或大量规模或大量GPU,我不确定他们是否可以轻松制造出这样的模型,这就是为什么,这不仅仅是规模的问题。

你实际上需要大量专业知识,无论是Infra方面、算法方面,还是数据方面,都需要小心处理,这些是主要的组成部分。

Stephanie Zhan:生态系统发展如此迅速,即使我们1年前认为存在的一些挑战,也越来越多得到解决。幻觉、上下文、窗口、多模态能力、推理能力,都在变得更好、更快、更便宜。在你看来,今天LLM研究,面临让你夜不能寐的挑战是什么?你认为哪些问题,是即时的,也是可解决的,我们可以继续努力解决的?

AK:算法方面,我正在思考的一个问题是,扩散模型与自回归模型之间的明显分歧。它们都是表示概率分布的方式,事实证明,不同的情景似乎对其中一种方式更适合。可能有一些空间可以将它们统一起来,或者以某种方式将它们连接起来。还有一些最佳方案,或者找出如何得到混合架构之类的东西。

对我来说,有些奇怪的是,我们在模型空间中有两个单独的点,它们都非常好。我觉得有些不对劲,中间什么都没有。我们会看到这个空间被挖掘出来,那里有一些有趣的问题。还有可能我会指出的另一件事是,在运行所有这些东西的能量效率方面,仍然存在巨大差距。

我的大脑大约是20瓦。Jensen刚在GTC上谈到,他们即将建造的庞大超级计算机。现在,这些数字是以兆瓦为单位,也许你不需要那么多来运行一个大脑。我不知道你确切需要多少,但可以肯定地说,我们的能源效率可能低了1千~1百万倍。因为我们设计的计算机,只是不适合这样的工作负载。

英伟达GPU在这方面是一个不错的方向,你需要极高的并行性。我们实际上并不关心某种程度上顺序计算,这种计算在某种程度上是数据相关的。我们只需要将相同的算法,传播到许多不同的数组元素或者某种程度上进行操作。

我会说,第一点是将计算机架构调整到新的数据工作流。第二点是在一些我们目前正在看到改进的领域上继续努力。也许第一点可能是精度。我们看到精度从最初的64位双精度降低到,我不知道是4、5、6或者甚至1.58,这取决于你读哪些论文,精度是一个重要的杠杆。

第二个杠杆当然是稀疏性,这也是另一个重要的差距,就像你的大脑并不总是完全激活一样。稀疏性是另一个重要的杠杆,但是最后一个杠杆,我也觉得,就是冯·诺依曼体系结构,以及它们构建计算机的方式,你正在将数据在内存与处理器之间来回传递,处理器在做所有的计算。

这都是有问题的,有些是因为你的大脑是如何工作的,这也是为什么它效率如此高的原因。现在是计算机架构非常令人兴奋的时候。我不是计算机架构师,但,似乎我们的效率低了1千~1百万倍,或者是这个数量级。应该有非常令人兴奋的创新,可以将其降低。

Stephanie Zhan:你曾与我们这一代的许多伟大人物一起工作过。Sam、Greg、OpenAI团队的其他成员,还有马斯克。

马斯克分享了构建文化与团队方面的许多哲学,一个有关划船队的美国队与日本队的笑话,假设你有两个队,日本队有4名划手与1名舵手,美国队有4名舵手与1名划手,有人猜到美国队何时失败吗?也就是他们解雇了划手。

马斯克分享了这个例子,这是他思考如何招聘合适人员、构建合适团队的一种反映,从与这些不可思议的领导者密切合作中,你学到了什么?

AK:马斯克经营这家公司的方式非常独特,我实际上认为人们不太能够理解这种独特性。你甚至阅读了很多关于他的东西,仍然无法理解,这很难描述。我甚至不知道从哪里开始,但这是一个非常独特、不同寻常的事情。

我喜欢说他不经营最大的初创公司,这是一种...我甚至不知道如何描述。我觉得我需要花更多时间去思考,但第一点是,他喜欢非常小、强大、高度技术化的团队。

公司中,通常情况下,团队会成长壮大。马斯克一直都是对增长持反对态度的力量,我必须努力招聘人才,基本上是乞求才能雇佣人才,另一件事是,通常情况下,在大公司中,你很难摆脱低绩效者。

马斯克对默认情况下剔除低绩效者非常友好。实际上,我不得不为了留住人才而努力。他默认情况下会想要解雇人员,这是一件事情,保持一个小、强大、高度技术化的团队,没有非技术的中层管理。

第二点是这个公司的运作方式与氛围,当他走进办公室时的感觉,他希望这是充满活力的地方,人们在走来走去,他们在忙碌工作,他们在绘制某些东西,他们在编码,他不喜欢停滞,他不希望看起来像那样,他不喜欢大型会议,总是鼓励人们如果会议没用就离开。

你实际上确实可以看到这一点,或者你知道这是一个大型会议,有些人如果你既不贡献也不学习,就离开。这是完全鼓励的,这是你不经常看到的。

氛围是第二个重要的杠杆,他在文化上真正灌输了这一点。也许这其中的一部分也是因为很多变得更大的公司,他们会宠爱员工,这种情况要少得多。文化上,你在那里是为了做最好的技术工作,那里充满紧张与其他因素。

最后一个非常独特、非常有趣、非常奇怪的是,他与团队的联系有多密切。通常情况下,一家公司CEO是一个远程人,远在5层楼之上,他与VP交谈,VP与下属、主管交谈,最终你与你的经理交谈,这不是你经常遇到的公司。

比如马斯克会来到办公室,他会与工程师交谈。我们许多会议就是这样的,马斯克与50个人在房间里,他直接与工程师交谈,他不只是想与VP与主管交谈,通常人们会花99%时间,也许是在与VP交谈,可能花50%的时间,他只想与工程师交谈。

如果团队是小而强大的,工程师与代码就是真相的源头,他们拥有真相的源头,而不是某个经理。马斯克希望与他们交谈,了解实际情况,以及应该采取什么措施来改进。我会说,他与团队的联系程度,不是什么遥远的东西,这也是独特的,还有他在组织内部行使它的意愿。

如果他与工程师交谈,他们提到了什么在阻碍你,如果他听到两次这样的情况,他会说,这是个问题,我们的时间表是什么?当你没有满意的答案时,他会说,我想与负责GPU集群的人谈一谈,然后有人打电话,他就会说,现在就把集群扩大一倍,从现在起,我们每天都要有会议,直到集群的规模增加一倍,然后他们有些推迟,他们说,好吧,我们已经有了这个采购计划。

我们有了这个时间表,而且视频说我们没有足够GPU,需要6个月左右才能准备好。他眉毛一挑,就会说,我想与Jensen谈谈,他就会解决瓶颈。

他非常投入,并消除瓶颈,行使他的权力,这也是不被人们所重视的。

有很多这样的方面是非常独特的,我会说,也非常有趣。老实说,去一个普通公司,你绝对会错过其中的一些方面,也许这是一个很长的话题,但这只是一种是非常独特、非常有趣的东西。

我想这可能是我没有涵盖所有要点,这是一个非常独特的事情,非常有趣的事情。

Stephanie Zhan:放眼未来,你已经帮助打造了一些最有影响力的公司之一。你也是许多人进入AI领域的关键推动者,许多人就在今天的观众中。根据你的了解,你最关心的是普及AI教育工具,帮助整个生态系统创造更多质量,还有更多的优胜者。当你考虑你人生下一个篇章时,什么给了你最多意义?

AK:你描述得很对。我大脑默认反应是,我为一家公司工作过,最终我更关心的不是任何一个具体的公司,我更关心的是整个生态系统,希望生态系统健康,希望它蓬勃发展,希望它像珊瑚礁一样,有许多酷炫、令人兴奋的初创公司,并且在整个经济的各个角落都有,希望整个生态系统都像充满了酷炫东西并沸腾的汤,希望它是一个很酷的地方。

我爱初创公司,我爱公司,我希望有一个充满活力的初创公司生态系统。默认情况下,我会对5家大公司接管,尤其是AGI是权力放大器这一点,感到有些犹豫。我对这可能会变成什么样,感到有些担忧,我需要更多时间思考,但我喜欢这个生态系统,我希望它健康、充满活力。

Stephanie Zhan:你会推荐创始人遵循马斯克的管理方法,还是这种方法对他而言是独特的?某种程度上是独特的,你不应该尝试模仿他吗?

AK:这是个很好的问题。这取决于创始人DNA,就像你必须拥有相同DNA与某种氛围。当你雇佣团队时,非常重要的一点,是你要在一开始就清楚表明,这是你公司的类型。

当人们加入时,他们确实很乐意跟随,但是如果你以后改变了,人们会对此感到不满,这会非常混乱。只要你从一开始就这样做,保持一致,你可以经营这样的公司,但它也有自己的利弊。这取决于个人,但这是一个一致的公司建设与经营模式。

Stephanie Zhan:我很好奇你是否对某些类型的模型组合性非常感兴趣,也许不仅是专家混合模型?我不确定你对于像模型合并、弗兰克合并或任何其他可以使模型开发更具组合性的事情有何看法。

AK:这是一个好问题。我看到了这个领域论文,我不知道是否有什么是真正成功的。也许组合性,我不确定你的意思,有很多关于主要高效训练等方面的工作。我不知道你是否会把这归类为我理解的组合性的范畴,通常情况下,传统代码非常易于组合。神经网络默认情况下,是更具完全连接性与不太易于组合的,但它们确实可以组合与联合调整成为整体的一部分。

举个例子,如果你正在做一个系统,你想让其中有ChatGPT与图像之类的东西,很常见的是你预先训练组件,将它们插入并进行联合调整,也许是整个过程的一部分。

在这些方面可能有一些可能性,我们可以在此之后,预先训练小部分外围皮质,并稍后组合它们。我想在某种程度上来说,也许这是我零散的想法,我不知道我是否有其他非常连贯的想法。

Stephanie Zhan:我们有这些下一个词预测的东西。你认为是否存在一条路径,可以构建一个物理学家或冯诺依曼类型的模型,它具有物理学的心理模型,是自洽的,并且可以为如何实际进行聚变、如何实现超光速旅行提供新的思路,如果这可能的话?有没有任何路径可以实现这一点?还是说这在AI模型发展的基本不同方向上?

AK:某些方面这是根本性不同的,你所谈论的也许是一个能力问题,当前的模型还不够好,这里有一些重要的问题有待解决,人们没有真正看到在这个领域可能出现的可能性。

粗略说,我们已经完成AlphaGo的第一步,这就是团队所做的,我们完成了模仿学习部分。

AlphaGo第二步是RL,人们还没有做到。这将从根本上改变事情,这是使之超越人类的关键,在这个领域还有很大潜力可以挖掘。

细节可能有些棘手,我们只是完成AlphaGo第一步,长话短说,我们只是完成了模仿学习部分。

我不认为人们意识到,ChatGPT这样的数据收集有多糟糕,比如你遇到一个问题,像某个提示是某种数学问题,一个人过来给出理想的解决方案,问题在于,人类的心理与模型的心理是不同的。

对人类来说,什么是容易的,什么是困难的,与模型的感知是不同的。人类会填写一些跟踪,以达到解决方案,但模型很容易理解的部分,模型根本无法理解的部分。你就失去了这部分,然后后面的一切都被这个影响。

根本上说,模型需要自己练习如何解决这些问题,它需要弄清楚对它有用或无用的东西。也许对于四位数的加法,它不太擅长,它会退而使用计算器,但它需要根据自己的能力与知识来学习。这就是第一点,这是完全错误的。它是一个很好的初始化器,可以用于某种Agent式的东西。

另一个问题是我们是从RLHF的,这是一种非常弱的形式的强化学习。甚至不算强化学习,像AlphaGo中RLHF等效物是什么?它是一个奖励模型吗?我称之为氛围检查。

想象一下,如果你想训练AlphaGo的RLHF,你会给两个人两个棋盘,然后问,你更喜欢哪一个?你会获取这些标签,并根据它们来训练模型,根据它们进行强化学习?或者这样做的问题是什么?

首先,这只是棋盘的氛围,这是你训练的东西。其次,如果这是一个神经网络的奖励模型,很容易过度拟合于优化的模型。它会找到所有这些欺骗LLM的方法,AlphaGo之所以能够解决这些问题,是因为它有一个非常明确的客观函数,你可以针对它进行强化学习。

RLHF目前处于非常初级的阶段,它的情况仍然很糟糕。另一个问题是模仿学习,非常不好。

RLHF是一个很好的改进,但仍然不好。人们需要寻找更好的方法来训练这些模型,使其在自身循环技术中参与,在那个方向上可能会有一些突破。

Stephanie Zhan:这有点像AI模型的研究生阶段,它需要坐在一个房间里,拿着一本书,静静质疑自己10年。

AK:是的。当你学习东西,并阅读教材时,教材中会有一些练习,这些练习就是促使你运用所学知识的提示。

当你学习材料时,不仅是简单从左到右阅读,首先,你是在进行练习,也许你还在做笔记,你在重新表述、重新构思。

你在以某种方式操纵这些知识,以便你能够更好学会这些知识,AI领域,我们尚未看到类似的东西,这还处于非常早期阶段。

Stephanie Zhan:你会如何平衡定制生产与收入生成的优先级,或者是寻找具有更好推理能力的更高质量模型的优先级?你会怎样调整它们优先级?

AK:也许我理解了你的问题。我看到很多人做的一件事情是,他们从最有能力的模型开始,不管成本如何。你使用GPT来进行超级提示等。你只是尝试让你的东西起作用。

你首先追求的是准确性,再做出让步,你检查是否可以回退到3.5或某些类型的查询。你检查你是否可以,然后你逐层使它变得更便宜。我会说首先追求性能,再使它更便宜。

这有点像我听到一些人谈论的范式,他们说这种方法对他们有效。也许它甚至不仅是一个单一的产品。思考一下,哪些方式你甚至可以让它起作用。

如果你只能让它起作用,就像说你制作了10个提示或20个提示,你选择了最好的一个,你进行了一些讨论,或者我不知道你会想出什么样的疯狂流程,就是让你的东西真的很好的起作用。

如果你有一个真的很好的东西,另一件事情,你可以做的就是你可以提炼它,你可以得到一系列可能的问题类型。你在上面运行超级昂贵的东西,以获得你的标签,你得到一个更小、更便宜的东西,你在上面进行finetune,我会说我会始终追求让它尽可能起作用,再使它变得更便宜,这是我建议的做法。

Stephanie Zhan:过去1年里,我们看到开源生态系统许多令人印象深刻的结果。我想知道你对开源发展将如何继续与封闭源发展的步伐保持一致或不一致的看法,尤其是在模型不断改进与扩展情况下?

AK:这是非常好的问题。我不真正了解根本问题,就是这些模型需要如此巨大的资本投入,例如,你有Facebook、Meta等,他们有能力以规模化方式训练这些模型,但是这也不是他们做的事情的一部分,与他们的铸钱机无关。

他们实际上有动机释放其中一些模型,以使整个生态系统得到加强,这样他们可以借鉴所有最好的想法。对我来说,这是有意义的,但到目前为止,我会说他们只是释放了开源模型。

他们应该进一步,这是我希望看到的,对每个人来说都会更好。也许他们对此的一些方面感到不安,尤其是涉及到数据等方面。

我不知道该如何解决这个问题,也许他们应该尝试找到一些他们认为非常容易使用的数据来源,尽量限制自己使用这些数据。

我会说,这些人可能是我们的英雄。我希望看到更多的透明度,也来自Meta与Facebook做得相当好,比如他们发布论文,他们发布日志、与对我来说是博客的东西。日志与诸如此类的东西。他们做得不错,他们在促进生态系统方面可以做得更好,我想我们将会看到这一点。

Stephanie Zhan:考虑到之前的问题,你认为什么会使AI生态系统更加酷与更具活力?或者是什么因素阻碍它的发展?是开放性,还是你认为还有其他因素需要解决?

AK:我确实认为其中一个重要方面,就是可用的东西。我最近发了条推文,关于第一步是建立一个东西,第二步是建立一个斜坡。我会说很多人都在建立一个东西,但很少有人在建立斜坡,让人们真正理解所有这些东西。

我们都是这个领域新手,我们都在努力理解它是如何运作的。我们都需要一定程度的合作,甚至才能有效使用它。

我希望人们在关于他们所学到的东西、他们是如何训练、所有这些方面、什么有效、什么无效方面,能够更加开放。我们需要彼此更多学习,这是第一点。

第二点,我认为在开放的生态系统中,已经有相当多的动力,这已经是一个好现象,也许有一些改进的机会,我已经谈到了。

Stephanie Zhan:要达到模型的下一个大的性能飞跃,你认为仅仅修改Transformer架构,比如说,增加思考令牌或激活信标,就足够了吗?或者我们需要彻底放弃它,并提出一个新的基本构建模块?带我们迈向下一个大的前进步伐,或者说AGI。

AK:这是一个非常好的问题,答案可能是两者结合。一方面,通过在Transformer架构中使用新组件,如思考令牌或激活信标,可以确实实现性能的渐进改进。这些修改可以帮助解决当前模型的特定限制或瓶颈,拓展它们能力边界。

要实现下一个重大飞跃,或者接近AGI,可能需要探索基本上全新的构建模块与架构。

首先,我想说的是,Transformer极其惊人,令人难以置信,我肯定没有料到这一点。在Transformer出现之前的一段时间里,神经网络会出现疯狂的分化,但事实并非如此,事实上,情况完全相反,它是完全统一的模型,我对我们拥有这样的模型感到非常惊讶。

我不知道它是否是最终的神经网络,我想肯定会有。鉴于该领域的历史,我已经在这个领域工作了一段时间,很难说这就是终点,绝对不是。

我对有人能够找到一种相当大的改变我们今天所做的事情的方式感到非常乐观,我想说在自动聚合扩散的前端,这在某种程度上就像建模与设置法律一样,我想说那里肯定有一些成果。但是在Transformer与我提到的精度与稀疏性的杠杆上。

当我们推动这一点,并与硬件的共同设计、以及网络架构如何更好针对这些约束进行协调时。

某种程度上,我想说Transformer,在设计上是为GPU设计的,这是Transformer论文中的重大突破。这是他们的想法,我们需要一种基本上非常可并行化的架构。

因为循环神经网络具有顺序依赖性,对于Transformer来说是可怕的,基本上通过注意力打破了这种依赖关系,这是当时的一个重要见解。它有一些先前的见解,比如神经GPU与谷歌的其他论文。

他们在考虑这个问题,但这是将算法定位到你可用的硬件的方式。这与那种精神是一致的,长话短说,很有可能我们仍然会看到对它的改变,但是它已经被证明非常有韧性,我不得不说。它诞生于许多年前,现在已经有一段时间。我不知道,大约6年了。最初的Transformer,与我们今天使用的,并没有太大区别。

Stephanie Zhan:作为对在场所有创始人与建设者的告别信息,你会给他们什么建议,他们致力帮助塑造AI的未来。

AK:我通常没有什么非常普遍的建议。也许我最关心的事情是,创始人们当然非常关心他们的创业公司。我还希望,我们如何拥有一个充满活力的创业生态系统,创业公司如何继续取得胜利,特别是在大型科技公司方面?生态系统如何变得更加健康?你可以做什么?

吴恩达红杉美国AI峰会谈Agent Workflow以及4种主流设计模式,相比LLM更强调迭代与对话

时间:2024年3月29日

来源:有新Newin

字数:4,301

斯坦福大学教授、著名AI专家吴恩达,近日在美国红杉资本AI Ascent活动上,分享AI Agent最新趋势与洞察,表示AI Agent工作流程,与传统使用大语言模型LLM方式不同,更加迭代与对话式。

AI Agent设计目前有4种主要的模式,分别是:

1、 Reflection:让Agent审视与修正自己生成的输出。

2、Tool Use:LLM生成代码、调用API等进行实际操作。

3、Planning:让Agent分解复杂任务,并按计划执行。

4、Multiagent Collaboration:多个Agent扮演不同角色合作,完成任务。

这些设计模式目前还在快速发展中,有的比较成熟可靠,有的存在不确定性,都展现了提高AI能力的潜力。

吴恩达认为,未来AI Agent能力将大幅扩展,人们需要学会将任务委托给AI Agent,耐心等待结果,不是追求即时响应。快速token生成也很重要,即使基于质量较低的LLM,快速迭代生成新token也可能获得良好结果。

这次分享全部内容:

我期待与大家分享我对AI Agent所见到的东西,这是一个我认为每个人在构建AI时都应该注意的激动人心的趋势,我也对所有其他的接下来会发生什么的展示感到兴奋。

AI Agent,今天我们大多数人使用LLM的方式就像这样,通过一个非Agent性工作流程,你输入一个提示,它生成一个回答。这有点像如果你让一个人就某个话题写一篇论文,我说,请坐到键盘前,从头到尾不断打字写完这篇论文,从不使用退格键。尽管这样做有多困难,LLM却能做得出奇的好。

相比之下,Agent性工作流程可能是这样:让AI或LLM说,写一个论文大纲。你需要做任何网络研究吗?如果需要,让我们开始。写第一稿,阅读你自己的第一稿,思考哪些部分需要修改,修订你的草稿,你可以一遍又一遍进行。这个工作流程更加迭代,你可能让模型进行一些思考,修改文章,再思考,并通过多次迭代来完成这个过程。

许多人没有意识到的是,这样可以获得显著更好的结果。,我自己非常惊讶于对话工作流程的效果如何。我将在我团队中做一个案例研究,使用几年前OpenAI发布的Human Eval Benchmark编码基准来分析一些数据,但这有编码问题,比如给定非负整数列表,返回所有奇数元素或不均匀位置的总和。

结果是,像这样的代码片段。今天我们很多人会使用零次提示,意味着我们告诉AI写代码,并在第一次尝试时运行它。说谁会那样编码?没有人会那样编码。我们只是打出代码,并运行它,你可以,我做不到。结果是,如果你使用GPT-3.5零次提示,它的正确率是48%。

GPT-4做得更好,正确率达到67.7%,但如果你围绕GPT-3.5使用一个Agent性工作流程,它的表现甚至比GPT-4还要好。

如果你将这种类型的工作流程应用于GPT-4,它表现得非常好。你会注意到,GPT-3.5与一个Agent性工作流程相结合,超过GPT-4表现。

我认为这意味着,这对我们所有人构建应用程序的方式,有着第二层次的影响。Agent是一个经常被提及的术语与任务,有很多咨询报告讨论关于Agent、AI的未来等。

我想具体分享一下我在Agent方面看到的广泛设计模式。这是一个非常混乱、动荡的领域,有大量的研究与开源项目。发生了很多事情,但我试图将其更具体地归类到已经发生的事情上。

Agent Reflection是一个工具,我认为我们许多人都在使用,它就是起作用的工具。我认为它得到了更广泛认可,效果相当好,我认为这些是相当健壮的技术。当我使用它们时,我几乎总能让它们运行得很好,规划与多Agent合作。

我认为这更多是一个新兴的领域,当我使用它们时,有时候我对它们表现感到惊讶,至少在此刻,我感觉我不能总是可靠的让它们工作。

让我通过几个方面来讲解这四种设计模式。如果你们中一些人回去自己尝试,或者让你们工程师使用这些,我认为你们会很快获得生产力提升。

Reflection

关于Reflection,这里有个例子。比方说我让一个系统为我写代码,完成一个给定的任务。我们有一个编码Agent,只是一个你提示写代码的LLM,比如说,定义doTask,像这样写一个函数。

自我Reflection的一个例子可能是,如果你用类似这样的提示对LLM进行提示:这里有一段代码,是为了完成一个任务,只是把它们刚刚生成的完全相同的代码给它,说,仔细检查代码正确性、效率、构造是否良好,只需要像这样写一个提示。

结果可能是,你提示写代码的同一个LLM,可能能够发现诸如第5行这个错误,并通过某种方式修复它。如果你现在拿它自己的反馈给它,并重新提示它,它可能会得出一个第二版本的代码,这个版本的代码,可能比第一版本工作得更好。

不保证,但它经常足够有效,对很多应用来说值得一试,预示着如果你让它运行单元测试,如果它未通过单元测试,为什么会未通过单元测试?有那样的对话或许能弄清楚为什么未通过单元测试,试着改变一些东西,可能得到第三版本。

对于想要了解更多这些技术的人,我对它们感到非常兴奋,对于四个部分中的每一个,我都在底部有一个推荐阅读部分,包含了更多参考资料。

再次预示,多Agent系统,我描述的是一个单独的代码Agent,你提示它进行自我对话。这个想法的一个自然演化是,不是一个单独的代码Agent,你可以有两个Agent,其中一个是代码Agent,另一个是批评Agent。

这些可以是相同的基础LLM,但以不同的方式进行提示。我们说一个,你是专家级的代码撰写者,写代码。另一个说,你是专家级的代码审查者,审查这段代码,这种工作流很容易实现。

我认为这是一种非常通用的技术,对许多工作流程而言。这将显著提高LLM性能。

Tool Use

第二种设计模式是许多人已经看到的,基于LLM系统使用的工具,左边是来自Copilot的截图,右边是我从GPT-4中提取的东西,但今天的LLM,如果你问它,什么是网上搜索中最好的咖啡机,对某些问题,LLM会生成代码,并运行代码。事实证明,有很多不同的工具被许多不同的人用于分析、获取信息、采取行动、个人生产力。

早期的工作转向使用,原来是在计算机视觉社区。在LLM之前,它们无法处理图像。唯一的选择,是生成一个可以操纵图像的函数调用,比如生成一个图像或进行对象检测等。

你看看文献,很有趣的是,很多在使用方面的工作,似乎都起源于视觉领域,在GPT-4等出现之前,LLM对图像是盲目的,这就是使用、并扩展了LLM可以做的事情。

Planning

接着是规划,对还没有大量玩过规划算法的人,我感觉很多人谈论ChatGPT时刻,你会惊叹,从未见过这样的东西,我认为你还没有使用规划算法,许多人会对AI Agent有种惊讶的感觉。我无法想象AI Agent能做得这么好。

我进行过实时演示,一些失败了,AI Agent绕过这些失败。我遇到不少这样的情况,我无法相信我的AI系统刚刚自主的做到了那一点。

但一个从HuggingGPT论文中改编的例子,你说,生成一张图片,图片中的女孩在读书,与图像示例dot jpeg中的男孩姿势相同,请用语音描述新图像。

给出这样一个例子,今天有AI Agent,你可以决定首先需要做的是确定男孩的姿势。找到正确的模型,可能在HuggingFace上提取姿势。接下来需要找到姿势图像模型来合成一张女孩的图片,遵循指令。使用图像检测,最后使用文本到语音。

今天我们有Agent,我不想说它们工作得很可靠,它们有点挑剔。它们不总是工作,但当它工作时,相当了不起,有了Agent性循环,有时你可以从早期失败中恢复过来。

我发现我已经在使用研究Agent。我的一些工作,一部分研究,但我不觉得,自己去谷歌搜索并花很长时间。我应该发送给研究Agent,几分钟后,回来看看它找到什么,有时它有效,有时没有,但这已经是我个人工作流程的一部分。

Multiagent Collaboration

最后一个设计模式,多Agent合作,这个听起来很有趣,它的效果比你可能想象的要好得多。左边是一篇名为ChatDev论文的截图,这完全是开源的。你们许多人看到了,闪亮的社交。

媒体发布的demo,ChatDev是开源的,在我的笔记本电脑上运行。ChatDev是一个多Agent系统的示例,你可以提示一个LLM,有时表现得像软件工程公司CEO,有时像设计师,有时像产品经理,有时像测试人员。

通过提示LLM,告诉它现在你是CEO,现在你是软件工程师,它们合作,进行扩展的对话,以至于如果你告诉它,请开发一个游戏,开发一个多人游戏,它们会花费几分钟编写代码、测试它、迭代它,最终生成出人意料的复杂程序。

这种多Agent合作,听起来可能有些奇特,它的效果比你可能想象的要好。这不仅是这些Agent之间的合作,能够带来更加丰富与多样的输入,它能够模拟出更加接近真实工作环境的场景,其中不同角色与专业知识的人员,为了共同的目标而努力。

这种方式的强大之处,在于它能够让LLM不仅是执行单一任务的工具,而是成为一个能够处理复杂问题与工作流程的协作系统。

这种方法潜在价值巨大,它为自动化与提升工作流程的效率,提供了新的可能性。

例如,通过模拟一个软件开发团队不同角色,一个企业可以自动化某些开发任务,加快项目的进度,并减少错误。同样,多Agent合作方式,可以应用于其他领域,如内容创作、教育与培训、以及策略规划等,进一步拓宽LLM在各个行业应用范围。

总结

通过Agent Reflection、规划与多Agent合作等设计模式,我们不仅能提升LLM性能,还能拓展应用领域,使它们成为更加强大与灵活的工具。

随着这些技术不断发展与完善,我们期待着未来AI Agent能在更多场景中发挥关键作用,为人们带来更加智能与高效的解决方案。

它并不总是有效,我用过它,有时不起作用,有时令人惊讶,这项技术确实在变得更好。

还有一个设计模式,事实证明,多Agent辩论,不同Agent之间的辩论,例如,可以让ChatGPT与Gemini互相辩论,这也能带来更好表现。

让多个模拟的空气Agent一起工作,也是一个强大的设计模式。

总结一下,我认为这些是我见过的模式。我认为,如果我们能够使用这些模式,我们中许多人可以很快实现实践上的提升。我认为,Agent推理设计模式,将会很重要。

我预计,Agent工作流,AI能做的任务,将在2024年大幅扩展。一个让人难以习惯的事情是,当我们向LLM发出提示时,我们希望立即得到回应。,十年前当我在Google讨论我们称之为大框搜索时,输入长提示的原因之一,我未能成功推动的原因之一是当你进行网络搜索时,你希望在半秒钟内得到回应,对吧?这就是人性,即时抓取,即时反馈。

对许多Agent工作流,我认为我们需要学会将任务委托给AI Agent,耐心等待几分钟,甚至几小时,以获得回应,就像我见过许多新手经理将任务委托给某人,5分钟后检查一样,这不是生产性的。

我认为我们需要学会这样做,与我们的一些AI Agent打交道,虽然这很难。我以为我听到了一些损失。

一个重要趋势是,快速token生成器很重要,在这些Agent工作流中,我们不断迭代。LLM为LLM生成token,能够以远超任何人阅读的速度生成token是非常棒的。

我认为,即使是来自稍微低质量的LLM,快速生成更多token,也可能与来自更好LLM的慢token相比,获得好的结果。这可能有点争议,它可能让你更多次的绕这个循环,有点像我在第一张幻灯片上展示的GPDC与一个Agent架构的结果。

我非常期待Claude5与Claude4,GPT-5与Gemini2.0以及所有这些你们正在构建的精彩模型。

我部分感觉,如果你期待在GPT-5上运行你的东西,零次射击,你可能真的会在某些应用上,获得比你想象的更接近那种水平的表现,通过Agent推理,但在一个早期模型上,我认为,这是一个重要趋势。

通往AGI的道路,感觉像是一次旅程,而非一个目的地,我认为Agent工作流程,可能帮助我们在这个非常长的旅程上,向前迈出一小步。

Mistral CEO美国红杉分享:5年后,任何人都能创建AI自主代理,开发者与用户界限变得模糊

时间:2024年4月1日

来源:有新Newin

字数:6,323

法国AI初创公司Mistral创始人Arthur Mensch,近日在美国红杉资本AI Ascent活动上,分享关于开源大模型发展与未来趋势的观点。Arthur表示,未来5年,AI将向更加自主的智能体Agent与助手发展,能完成越来越多复杂任务,制作这种智能体,将变得越来越容易;AI技术,将通过自然语言交互,得以广泛控制与使用,到一定程度时,开发者与用户界限将变得模糊,普通用户也能创建定制的AI助手工具。

AI部署将趋向更多状态化的形式,与数据、上下文紧密关联,而非当前无状态API调用模式,状态数据可能存储在数据云平台中。

未来几年,大语言模型LLM领域可能出现一些协调与整合,尤其在开源模型方面,以利于全行业发展。

从当前到未来,大语言模型LLM将呈现从小型模型到超大型模型的全尺寸覆盖,以平衡不同场景下延迟与能力需求。

评估大语言模型LLM表现、持续改进模型,以及自动化提示工程,将是亟待解决的痛点,需要AI技术自身发展,来帮助解决。

以下是Arthur与红杉合伙人Matt Miller对话内容:

Matt Miller:我们可以从你选择创办Mistral的背景故事开始,我们都知道你的职业生涯,你在DeepMind的成功职业,你在Chinchilla论文上的工作,告诉我们,与我们分享一下,让你有启动并开始脱颖而出,开始创办公司的想法。

Arthur Mensch:我们在App Hill创办Mistral,我想这个想法在我们成立公司前几个月就已经存在。Jim与我在大学认识,我们在一起上了硕士课程。我们在学校认识,我们彼此之间早就认识,我们已经在这个领域研究10年了。

我们喜欢AI是学术实验室、工业实验室之间的开放交流,每个人都可以在其他人基础上建立。我想即使在LLM时代的开始,当时OpenAI与DeepMind也在相互贡献,这在2022年停止了。

基本上,最后一篇论文做出重要改变的是Chinchilla,是Google发布的最后一个重要模型。

对我们来说,有点遗憾的是,AI早在旅程的开始阶段,就停止了开放贡献,我们离完成它,还有很长的路要走。当我们在年底看到ChatGPT时。

我想我们反思了一下,认为有机会以不同方式做事情,从法国开始做事情,事实证明,在法国,有很多才华横溢的人,在大型科技公司有点厌倦了。

我们发现了一个机会,可以通过精干的团队、有经验的人才,以很快的速度构建非常强大的开源模型,并试图纠正该领域正在采取的方向。

我们想要更大力度推动开源模型,我们在这方面做得很好,我们的轨迹得到各个公司的关注。

Matt Miller:开源运动,在很大程度上是开始公司的推动力之一。

Arthur Mensch:这是开始公司的推动力之一,我们的意图与我们给自己的使命,是真的要将AI带给每一个开发者。

我们的竞争对手做事情的方式,到现在为止,仍然是非常封闭的。我们想要推动更开放的平台,并通过这种策略传播与加速采用,这就是我们开始公司的核心原因。

Matt Miller:你们最近发布Mistral Large。你们与微软、Snowflake Databricks等公司达成惊人的合作。你们如何平衡将要开源的内容与商业化内容,以及如何考虑权衡。这是许多开源公司所面临的问题,他们如何保持社区活力,又如何建立一个成功的业务,来为社区做贡献?

Arthur Mensch:这是艰难的问题。我们目前通过两个模型系列,来解决这个问题,这可能会随着时间的推移而发展。

我们打算继续成为开源领域领导者,这在一定程度上给开源系列带来压力,存在一些竞争者。

与软件供应商采用这种策略的发展方式相比,我们需要走得更快,AI发展速度比软件更快,比数据库更快,像MongoDB做得非常好。这是我们可以效仿的很好的例子,我们需要更快适应。

存在这种紧张局势,我们不断思考应该如何为社区做出贡献,同时要考虑如何展示并开始获得一些商业采用、企业交易等。

现在,我们在这方面做得很好,这是一个非常动态的事情需要考虑。基本上每周我们都在思考,接下来应该在两个系列上发布什么。

Matt Miller:你们在开发模型方面是最快的,也是最快达到不同基准水平的公司之一,在达到这些基准水平方面的支出也是最少的。你认为是什么,让你们比你们前辈更快、更高效行动?

Arthur Mensch:我们喜欢动手。机器学习一直都是关于处理数字、查看数据,做很多次的转换与加载等很多时候不令人着迷的工作。我们雇用愿意做这些工作的人,这对我们速度至关重要,这也是我们想要保持的一点。

Matt Miller:除了LLM,你们还有几个非常受欢迎的小型模型。你什么时候会告诉人们,他们应该花时间与你们合作进行小模型工作,什么时候会告诉他们与你们合作进行LLM工作?你认为Mistral的经济机会,在于做更多大模型,还是做更多小模型?

Arthur Mensch:这是每个LLM提供商,都已经意识到的一个观察,即一个尺寸并不适合所有。

根据你想要的内容,当你开发一个应用时,你通常会调用不同LLM,有些应该是低延迟,它们不需要太多智能;有些应该是更高延迟,需要更多智能。

一个高效的应用程序,应该同时利用这两种模型,可能使用LLM作为小型模型的编排器。

挑战在于,如何确保一切顺利进行,使你最终得到的不仅是一个模型,是两个模型,加上一个调用你的模型、调用系统、调用函数的循环。

我们想要解决一些开发者挑战是,如何确保这个系统能够正常运行,如何正确评估它,如何确保能够进行持续集成?如何从一个模型版本转换到另一个模型版本,并确保你的应用程序得到改进,而不是恶化。

所有这些问题,都被各种公司解决了,我们认为这些应该是我们价值主张的核心。

Matt Miller:你们看到在Mistral上构建的一些最令人兴奋的东西是什么?你们对社区正在做的事情,对客户正在做的事情感到非常兴奋的是什么?

Arthur Mensch:旧金山湾区几乎每个年轻的初创公司,都在使用它进行微调,进行快速应用制作。

Mistral价值之一,就是它非常快。你可以制作更多、复杂的应用程序。我们看到网络搜索公司在使用我们,我们也看到,所有突出的企业也是如此,比如知识管理、营销等。能够访问权重,意味着你可以更好倾注自己编辑风格。

我们看到典型用例,价值在于开源部分是开发者有控制权,他们可以在任何地方部署它们,他们可以拥有非常高质量的服务,他们可以使用专用实例,他们可以修改权重以满足自己需求,并将性能提升到接近最大模型水平,同时成本更低。

Matt Miller:你认为我们会从你们这里看到什么下一个大动作?比如,你能透露一些即将到来的内容,或者我们应该从Mistral期待些什么。

Arthur Mensch:我们Mistral Large很不错,还不够好,我们正在努力改进它。我们在各个垂直领域,有一些有趣的开源模型,很快就会公布。

我们平台目前只是API,有几个API。我们正在努力实现定制化部分,这就是微调部分。与许多其他公司一样,我们在等,并在未来几个月内,我们也将发布一些。

Matt Miller:这个房间里的许多人,正在使用Mistral模型。我们每天在硅谷生态系统中,与你们合作的许多公司已经在使用Mistral。他们应该如何与你们合作,以及他们应该如何与公司合作?对他们来说,最好的工作方式是什么?

Arthur Mensch:他们可以联系我们。我们有一些开发者关系团队,他们真的在推动社区发展,制作指南,还在收集使用案例,展示你可以用Mistral模型构建什么。我们非常注重社区,这基本上是使模型更好的一部分。

我们正试图建立的是,我们如何获取评估、基准测试、实际用例,以便我们可以对我们模型进行评估。了解人们正在使用我们的模型构建什么,也是我们能够生成新的开源模型的一种方式。

请与我们联系,讨论我们如何帮助,讨论你的使用案例,我们可以宣传它。我们也可以收集一些,我们应该添加到我们评估套件中新评估的见解,以验证模型随着时间的推移是否变得更好。

商业方面,我们模型可以在我们平台上使用。商业模型比开源模型效果更好。它们也可以在各种云服务提供商上使用,这样就为企业采用与定制能力提供便利,比如微调,这确实增强开源模型价值,很快就会到来。

Matt Miller:你谈到在欧洲的好处,你已经成为这个全球范例,展示了欧洲可以产生什么样的伟大创新,并正在产生。更多谈谈从法国建立业务的优势,以及从欧洲建立这家公司的优势。

Arthur Mensch:我猜有优势与劣势,两者都有。

我想一个优势是,你有一个非常强大的初级人才库。有许多来自法国、波兰、英国的人,可以在我们这里接受3个月培训,迅速上手,基本上可以产出与旧金山湾区1百万美元工程师相当的工作量,成本只有1/10,这在效率上是很高的,他们的劳动力非常好。

工程师与机器学习工程师。一般来说,我们得到国家很多支持,这在欧洲比在美国更重要。他们倾向过快、过度监管,正如我们一直告诉他们不要这样做,他们并不总是听。

总的来说,像欧洲公司喜欢与我们合作,我们是欧洲公司,我们在欧洲语言方面更加优势,比如法语,法语模型可能是市场上最强大的法语模型。我想这不算是一个优势,至少有很多地理上的机会,我们正在利用。

Matt Miller:现在起5年后,Mistral会处于什么地步?你认为你们会取得什么成就?这个行业的景象会是怎样?

Arthur Mensch:我们的打赌是基本上,AI的平台与Infra将是开放的。基于此,我们将能够创建辅助工具,可能是自主代理。我们相信,通过成为最开放的平台,独立于云提供商等方面,我们可以成为这个平台。

5年后,我对此的形态,几乎没有任何想法。如果你看2019年的情况,我不认为你能预测到我们今天的情况但我们正在向更加自主的代理不断发展,我们能够完成越来越多的任务。我们的行走方式,将会发生根本性改变,制作这样的代理与辅助工具,将会变得越来越容易。

现在我们专注开发者世界。我预计,AI技术本身是如此容易通过人类语言来控制,以至于在某个时候,开发者会成为用户。我们正在朝着任何用户,都能够创建自己辅助工具或自主代理的方向发展。我相当确定,5年后,这将成为一项学校中的教学内容。

Matt Miller:你如何看待未来开源与商业模型,在你公司发展中的作用?就像你一开始制造了开源软件,一些商业模型现在甚至更好,你认为在未来几年内这会如何发展?

Arthur Mensch:我想我们优化的一件事,就是能够持续制作开源模型,并建立可持续的商业模式,以真正推动下一代发展,这将随着时间的推移而演变。

为了保持相关性,我们需要在某些方面保持制作开源模型的最佳解决方案,至少是在某个领域。

这在很大程度上决定我们能做些什么,保持在开源世界中相关性,成为开发者的最佳解决方案,确实是我们的使命,并将继续努力。

Matt Miller:除了Sequoia的合作伙伴之外,肯定有人有问题,Llama 3与Facebook以及你们如何看待与它们的竞争?

Arthur Mensch:我担心他们正在致力于制作模型,我不确定它们会是开源的,我不知道那里发生了什么。到目前为止,我们交付速度更快、模型更小,我们希望继续这样做。

开源的好处是永远不会太多竞争,一旦你有了,如果你有几个行动者,通常这应该有利于每个人。如果他们最终变得非常强大,将会有一些协调,我们将欢迎。

Matt Miller:你们与Snowflake、数据库等公司的合作,使你们与其他专有模型提供商不同。例如,与其只是拥有API连接,你们在他们云中运行。你能说说为什么你们做了这些交易,以及你如何看待未来,比如Databricks或Snowflake在全新LM世界中的发展?

Arthur Mensch:我想你应该问他们。一般来说,如果AI模型与数据、基础信息相关联,它们就会变得非常强大。事实上,企业数据通常存储在Snowflake或Databricks上,有时也存储在AWS上。

对于客户来说,能够将技术部署在数据所在的地方是相当重要的。预计这种情况将继续下去,尤其是我相信我们将转向更加状态化的AI部署。

今天我们部署了几个API,没有太多的状态。它就像Lambda函数一样,但随着我们向前发展,随着我们使模型越来越专业化,随着我们使模型更加适用于用例,随着我们使模型更加自我完善,你将不得不管理状态,这些可能是数据云的一部分。有一个问题是,你把AI的状态放在哪里。Snowflake与数据库希望它放在他们的平台上。

Matt Miller:很好奇你在开放性与专有性之间划界的位置,你们释放了权重。你是否也愿意分享更多关于你们如何训练模型的信息,如何收集数据的配方,如何进行专家混合训练,或者你只是在权重与其他内容上划线。

Arthur Mensch:这是我们的底线。这样做的原因,是这是非常竞争激烈的领域。与收入的张力一样,为了维持下一代发展,还有关于你到底公开什么以及什么不公开的张力。

再次强调,这是一个动态的界线。如果每个人都开始这样做,我们也可以这样做。但目前,我们不愿意冒这个风险。

Matt Miller:我很好奇当另一家公司发布像Grok这样模型的权重时,你们内部会做些什么来学习它。

Arthur Mensch:你不能从权重中学到很多东西,我们甚至都没有看。它对我们来说太大了,我们无法部署,我猜他们在使用一种混合专家的标准设置,还有一些我了解的小技巧。

配方中学到的东西并不多,通过查看权重,你可以尝试推断一些东西,但逆向工程并不容易。它基本上是压缩信息,将信息压缩得足够高,以至你无法真正找出发生了什么。

Matt Miller:好奇你们将专注在哪些模型尺寸上?你的意见是否是,你们将继续制作小型模型,还是会做更大的模型?

Arthur Mensch:模型尺寸有点由规模加载确定,这取决于你拥有的计算资源,取决于你要使用的计算Infra,你会做出一些选择,你要为训练成本与推理成本进行优化。

在权重之间,还有一些因素,根据你对训练成本摊销的权重,你可以压缩模型。基本上,我们目标是低延迟,并且在推理方面具有相关性。这意味着,我们会有一个从小型模型,到非常LLM的模型家族。

Matt Miller:是否有任何计划,让Mistral扩展到应用程序堆栈?例如,OpenAI发布了定制GPTs与Assistant API,这是你认为Mistral将采取的方向吗?

Arthur Mensch:我们首先真正专注于开发者,但是对于这项技术来说,开发者与用户之间的界限是相当薄弱的。这就是为什么我们发布了一个助手演示工具,叫Lusha,它是英语中的猫,这里的重点是向企业提供服务,使他们能够连接他们数据,连接他们上下文。

这满足了我们客户的一些需求,我们与许多我们交谈过的人都愿意调整这项技术,但是他们需要一个入口,如果你只是给他们一些API,他们会说,我需要一个集成商。

如果你没有一个集成商出席,这种情况往往如此,如果你有一个非社交解决方案,至少可以让他们接受这项技术,并向他们展示他们可以为汽车业务构建什么。这就是为什么,我们现在有两个产品提供的原因。第一个是平台,我们有Lusha,这应该发展成为一个企业的标准解决方案。

Matt Miller:在什么时候你会划清界限,停止进行问题工程,开始进行微调?我的许多朋友与我们的客户,都在痛苦考虑他们应该停止进行更多的问题工程。

Arthur Mensch:我认为这是项目中很难解决的头等痛点。问题是,通常你的工作流程应该是,你应该评估什么?并基于此,让你的模型找到一种解决你任务的方法。

现在,这仍然有点手工。你会有几个提示版本,但这是一些AI可以帮助解决的问题。我预计这将随着时间的推移,越来越自动化,这是我们愿意尝试与实现的事情。

Matt Miller:作为AI前沿创始人,你是如何平衡探索与利用的?你自己如何保持对一个不断发展、日益庞大与深入的领域保持领先地位,你是如何应对的?

Arthur Mensch:这个问题在科学部门、产品部门、商业部门都有探索。平衡的方式,对初创公司来说确实很困难。你必须进行大量开发,你需要快速交付。但是就科学部门而言,我们有两三个人专门负责下一代模型研究,有时候他们会浪费时间。如果你不这样做,你就有可能变得无关紧要。

对项目部门来说,这也是非常真实的。能够尝试新功能,并看看它们效果,是我们必须做的事情。

商业部门,你永远不知道,谁已经成熟到可以使用你的技术。

开发与探索之间的平衡,是我们在科学水平上很擅长的,我们已经做了多年,这种平衡,在项目与商业方面也会体现出来。但我想我们目前还在学习,如何正确做到这一点。

Matt Miller:在2年范围内,发布了LLM、小型模型,这些模型像风暴一样席卷世界。具有强大的市场推广合作伙伴关系,你们在AI生态系统的中心势头强劲。你会给这里创始人什么建议?你所取得的成就,确实非同寻常。对在不同级别开始、运行与建立自己的企业以及AI机会周围的人,你会给予什么建议?

Arthur Mensch:我想说的是,永远是第一天。我想,我们获得了一些心智份额,但是还有许多证明点需要建立。作为创始人,基本上每天都会醒来,发现你需要每次都从零开始构建一切。

这有点令人筋疲力尽,但它也是夸张的。我建议要有很高的抱负,通常更有抱负可以使你走得更远。你应该胸怀大志,这将是我的建议。

【长期主义】栏目每周六、与长假更新,分以下系列:

宏观说:全球各大国政要、商业领袖等

社会说:比尔·盖茨等

成长说:洛克菲勒、卡内基等

科学说:历年诺奖获得者、腾讯科学WE大会等

科技说:马斯克、贝索斯、拉里·佩奇/谢尔盖·布林、扎克伯格、黄仁勋、Vitalik Buterin、Brian Armstorng、Jack Dorsey、孙正义、华为、马化腾、张小龙、张一鸣、王兴等

投资说:巴菲特、芒格、Baillie Giffrod、霍华德·马克斯、彼得·蒂尔、马克·安德森、凯瑟琳·伍德等

管理说:任正非、稻盛和夫等

能源说:曾毓群等

汽车说:李想、何小鹏、王传福、魏建军、李书福等

智能说:DeepMind、OpenAI等

元宇宙说:Meta/Facebk、苹果、微软、英伟达、迪士尼、腾讯、字节跳动、EpicGames、Roblox、哔哩哔哩/B站等

星际说:中国国家航天局、NASA、历年国际宇航大会,SpaceX、Starlink、蓝色起源、维珍银河等

军事说:全球主要航空航天展等

消费说:亚马逊、沃尔玛、阿里、京东、拼多多、美团、东方甄选等

每个系列聚焦各领域全球顶尖高手、产业领军人物,搜集整理他们的致股东信、公开演讲/交流、媒体采访等一手信息,一起学习经典,汲取思想养分,做时间的朋友,做长期主义者。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论