英伟达老黄:让我们开启新的工业革命!

不开玩笑,最新一代的人工智能平台,真的来了!英伟达在 2024 年 6 月 2 日推出的全新 Blackwell 平台,不仅性能提升显著,成本更是降低到了惊人的水平。这不仅是一个 GPU 的升级,而是整个平台的革新!效果更是炸裂:速度提升了 100 倍,而功耗仅增加了三倍,成本上涨也只有约 50%。 $英伟达(NVDA)$

这个新平台的能力横跨计算、存储、网络等多个领域,简直无所不能。它能帮助你训练巨大的语言模型,也能在边缘计算设备上运行各种复杂算法,甚至可以实时预测全球每个角落的天气情况。

使用体验更是令人震撼!就像打开了一扇通往未来的门,一切计算变得如此顺畅和高效。实时处理,随时响应,多任务并行执行,简直像在科幻电影里一样。

不仅如此,生成式 AI 技术还在快速渗透到各行各业,开创了一场新的工业革命。它不仅仅是用来处理信息的工具,而是为各个行业生成智能解决方案的新利器。这将是一个全新的制造业,用计算机进行制造,而不是制造计算机。

以下为演讲翻译全文,建议建议使用听书功能

今天,我想和大家谈谈几件事。首先,我们一起工作的意义和现状是什么?什么是生成式 AI?它对我们的行业以及其他各个行业的影响是什么?我们将如何前进并抓住这个难得的机会?接下来会发生什么?生成式 AI 的影响、我们的计划以及未来的发展方向。

这些时刻真是令人激动。你们所开创并打造的计算机行业正迎来复兴,你们已经准备好迎接下一段重要的旅程。

在开始之前,NVIDIA 处于计算机图形、模拟和人工智能的交汇点,这是我们的核心。今天展示的一切都是模拟,是数学、科学和计算机科学的结合,展现了令人惊叹的计算机架构。所有内容都是实时生成的,没有任何预渲染效果。这就是 NVIDIA 的核心,我们将其全部融入到我们称之为 Omniverse 的虚拟世界中。请大家观看。

哦,我想用中文和你交流,但我有很多话要说。用中文表达对我来说很费劲,所以我只能用英语和你交流。

你所看到的一切都基于两项基本技术:加速计算技术和 Omniverse 中的人工智能技术。这两种核心计算能力将重塑计算机行业。计算机行业已有大约 60 年的历史,今天我们所做的一切几乎都是在我出生那一年发明的。1964 年,IBM System 360 引入了中央处理单元(CPU)、通用计算、通过操作系统实现硬件与软件的分离、多任务处理、输入输出子系统(I/O)、直接内存访问(DMA)等各种我们今天使用的技术。架构兼容性、向后兼容性、系列兼容性,我们今天所了解的所有计算技术,大部分在 1964 年就已描述。当然,个人计算机(PC)革命使计算普及化,将计算机带入了每个人的手中和家中。

然后在 2007 年,iPhone 推出了智能手机,将计算能力装进了我们的口袋。从那时起,一切都通过移动互联网连接并保持在线。

在过去的 60 年里,我们经历了几次重大的技术变革,实际上只有两到三次重大变革改变了一切。而我们即将再次见证这样的变革。当前有两个根本性的变化正在发生。首先是处理器(CPU),即计算机行业运行的核心。其性能提升速度已经大幅放缓。然而,我们需要处理的计算量却在快速、指数级地增长。如果处理需求和需要处理的数据继续指数级增长,而性能却没有相应提升,我们将面临计算成本膨胀。事实上,我们已经在经历这种情况。全球数据中心的电力消耗和计算成本都在显著增加,我们正在经历计算成本膨胀。这种情况显然不能持续下去。数据将继续指数级增长,而 CPU 性能提升将永远无法跟上。我们需要找到更好的方法。

近二十年来,我们一直致力于加速计算。CUDA 扩展了 CPU 的功能,将适合 GPU 处理的任务卸载并加速。事实上,其性能如此卓越,以至于在 CPU 扩展速度放缓甚至停滞的情况下,我们应该加速一切。我预测,每个计算密集型应用程序都会得到加速,每个数据中心在不久的将来也会实现加速。现在,加速计算已经成为理所当然的常识。如果你观察一个应用程序,假设其运行时间为 100 个时间单位,可能是 100 秒,也可能是 100 小时。在许多情况下,如你所知,我们现在正在处理需要运行 100 天的人工智能应用程序。

1T 是指需要顺序处理的代码,在这种情况下,单线程 CPU 非常适合,因为操作系统的控制逻辑需要逐条指令执行。然而,有许多算法可以完全并行操作,例如计算机图形学、图像处理、物理模拟、组合优化、图处理、数据库处理,当然还有非常著名的深度学习线性代数。这些算法都非常适合通过并行处理来加速。为此,我们发明了一种架构,通过将 GPU 添加到系统中来实现这一点。这个专用处理器可以极大地加速需要大量时间的任务。由于这两个处理器可以并行且独立工作,我们可以将原本需要 100 个时间单位的任务加速到只需 1 个时间单位完成。这样的加速效果是非常惊人的。

这听起来几乎难以置信,但今天我将为大家展示许多例子。这些例子的好处非常显著,速度提升了 100 倍,而功耗仅增加了大约三倍,成本仅增加了约 50%。我们在 PC 行业中经常采用这种方法。比如,在一台 1000 美元的 PC 中添加一个 500 美元的 GeForce GPU,性能会显著提升。在一个价值十亿美元的数据中心中添加价值 5 亿美元的 GPU,它立即就变成了一个 AI 工厂。这种情况如今在全球各地都在发生。

节省的成本非常惊人。每花一美元,你就能获得 60 倍的性能提升和 100 倍的速度提升。尽管功耗只增加了 3 倍,成本却仅增加了 1.5 倍。显然,许多公司在云端处理数据时花费了数亿美元。如果能够加速处理,节省数亿美元是可以预见的。为什么会这样呢?原因很明显。我们在通用计算领域经历了长时间的通货膨胀,现在我们终于决定加速处理,有大量的损失可以被重新捕获,大量的浪费可以从系统中消除。这将转化为金钱和能源的节省。因此,我常说,购买越多,节省越多。

现在我已经向你们展示了数学原理。虽然不精确,但它是正确的。这就是所谓的 CEO 数学:不精确,但正确。买得越多,省得越多。

加速计算技术确实能带来非凡的成果,但实现起来并不容易。尽管它能节省大量成本,但长期以来并未被广泛采用,原因在于其实现非常困难。没有一种软件可以简单地通过 C 编译器运行,然后突然让应用程序速度提升 100 倍。这根本不符合逻辑。如果真能做到,人们早就换掉 CPU 了。要实现这一点,实际上需要重写软件。这就是难点所在。软件必须完全重写,以便重新构建和重新表达在 CPU 上编写的算法,使其能够加速、卸载并并行运行。这一计算机科学过程极其复杂。

在过去的 20 年里,我们让世界变得更加便捷。最著名的成就之一是深度神经网络(DNN),这是一种用于处理神经网络的深度学习技术。我们还开发了一个用于物理模拟的 AI 库,可以应用于流体动力学和许多其他需要神经网络遵循物理定律的领域。我们推出了一个全新的库,名为 Ariel,它基于 CUDA 加速的 5G 无线电技术,使我们能够通过软件定义网络(SDN)和加速技术来定义和优化电信网络。借助这种加速能力,我们可以将整个电信行业转变为类似云计算的平台。

Kulitho 是一个光刻计算平台,能够处理芯片制造中计算量最大的部分。台积电(TSMC)正在使用 Kulitho 进行生产,这不仅节省了大量能源和资金,还加速了其技术堆栈的发展,为更深层次和更窄晶体管的算法和计算做好了准备。

Pair of Bricks 是我们基因测序库,它是世界上基因测序吞吐量最高的库。Whoop 是一个用于组合优化和路线规划优化的出色库,能够解决旅行商问题等极其复杂的问题。

科学家们普遍认为,只有量子计算机才能实现这一目标。我们创建了一种算法,可以极大地加速计算,打破了 23 项世界纪录,目前我们保持着所有主要的世界纪录。KU Quantum 是一个量子计算机模拟器。如果你想设计量子计算机或量子算法,你需要一个模拟器或仿真器。在量子计算机尚未问世的情况下,你会使用当今世界上最快的计算技术之一——NVIDIA CUDA。基于这一技术,我们开发了一个可以模拟量子计算机的仿真器。全球有数十万研究人员在使用它,它集成在所有领先的量子计算框架中,并被全球的科学超级计算中心广泛采用。

QDF 是一个非常强大的数据处理库。数据处理占据了当今云计算支出的很大一部分,而这些都需要加速。QDF 加速了世界上主要使用的一些库,比如 Spark。许多公司可能都在使用 Spark,还有 Pandas,一个新的库叫 Polars,当然还有 NetworkX,这是一个图处理库。这些只是一些例子,还有很多其他库。每一个库的创建都是为了让生态系统能够利用加速计算的优势。

如果我们没有创建 cuDNN,仅靠 CUDA 是无法让全球的深度学习科学家高效使用的,因为 CUDA 和 TensorFlow、PyTorch 中使用的算法之间存在很大的差距。这就像试图在没有 OpenGL 的情况下进行计算机图形处理,或者在没有 SQL 的情况下进行数据处理。

这些特定领域的资源库是我们公司的宝贵资产。我们拥有 350 个这样的资源库,正是它们使我们能够开拓众多市场。今天我将向大家展示一些其他的成功案例。

就在上周,Google 宣布将 QDF(量子数据框架)放在云端,并加速了 pandas。Pandas 是全球最受欢迎的数据科学库,可能在座的很多人已经在使用它。全球有 1000 万数据科学家使用 pandas,每月下载量达到 1.7 亿次。它相当于数据科学家的电子表格,就像 Excel 一样。现在,只需点击一下,你就可以在 Google 的云数据中心平台 Colab 上使用由 QDF 加速的 pandas。加速效果非常显著。让我们来看一下。

刚才的演示虽然时间不长,但很精彩,不是吗?

当数据处理速度加快到如此程度时,演示所需的时间就会大大缩短。CUDA 现在已经达到了所谓的转折点,实际上它更进一步,已经进入了正反馈循环。这种情况非常罕见。回顾历史上的所有计算架构和计算平台,计算机处理器(CPU)已经存在了几十年,并且在这个层面上没有发生过改变。加速计算的概念早已存在,但创建一个新平台极其困难,因为这是一个“鸡和蛋”的问题。如果没有开发者使用你的平台,那么当然也不会有用户。但如果没有用户,就没有用户基础。如果没有用户基础,开发者就不会对其感兴趣。开发者希望为一个拥有大量用户基础的平台编写软件,而大量用户基础需要许多应用程序来吸引用户,从而形成用户基础。

“先有鸡还是先有蛋”的问题一直难以解决,而我们用了 20 年的时间,通过一个又一个领域特定库和加速库,终于取得了突破。现在我们拥有全球 500 万开发者,服务于各个行业,从医疗保健、金融服务,到计算机和汽车行业,几乎涵盖了世界上所有主要行业和科学领域。由于我们的架构吸引了众多客户,OEM 厂商和云服务提供商对采用我们的系统非常感兴趣。系统制造商,例如台湾的这些优秀制造商,也对构建我们的系统充满兴趣,这为市场带来了更多系统,也为我们创造了更大的机会,使我们能够扩大生产和研发规模,从而进一步加速应用的发展。

每次我们加速应用程序,计算成本就会下降。正如我之前展示的幻灯片所示,100 倍的加速可以节省约 97%的成本。因此,当我们将加速提升到 200 倍甚至 1000 倍时,计算的边际成本将继续下降。我们相信,通过极大地降低计算成本,市场、开发者、科学家和发明家将会不断发现新的算法,这些算法将消耗越来越多的计算资源。最终,当计算的边际成本低到一定程度时,一种全新的计算机使用方式将会出现。

事实上,这正是我们现在所看到的。在过去十年里,我们将某个特定算法的计算边际成本降低了一百万倍。因此,现在用互联网上的所有数据来训练大语言模型变得非常合理,没人会对此犹豫。这个想法是,你可以创建一个能够处理大量数据并编写自己软件的计算机。人工智能的出现正是因为我们完全相信,如果我们让计算变得越来越便宜,总会有人找到一个伟大的用途。

如今,CUDA 已经进入了良性循环。安装量不断增长,计算成本持续下降,这促使更多开发者涌现出更多创意,从而激发更多需求。我们正处于一个非常重要的开端。但在说明这一点之前,我想先介绍一下,如果没有 CUDA 的创建,就不会有现代生成式 AI 的诞生。接下来我要介绍的是 Earth 2。这个概念是创建地球的数字孪生体,通过对地球进行模拟来预测我们星球的未来,以更好地防范灾害,或者更好地了解气候变化的影响,从而更好地适应和调整我们的习惯。

现在,地球数字孪生计划是全球最雄心勃勃的项目之一。每年我们都在取得重要进展,并展示成果。今年,我们更是取得了重大突破。让我们一起来看看。

在不久的将来,我们将能够实现对地球上每平方公里的实时天气预测,让你随时了解天气状况。由于我们训练的 AI 能耗非常低,这一系统将能够持续运行。这是一个令人难以置信的突破。希望你们喜欢这个展示,它非常重要。

事实上,刚才的演讲是由 Jensen AI 系统完成的,而非我本人。内容是我撰写的,但演讲由 Jensen AI 完成。为了不断提升性能和降低成本,研究人员在 2012 年开发了 CUDA,这标志着 NVIDIA 首次涉足 AI 领域。

这是非常重要的一天。我们有幸与科学家们合作,共同推动深度学习的发展。AlexNet 实现了计算机视觉领域的重大突破。但更重要的是,我们需要回顾深度学习的背景和基础,探讨其长期影响和潜力。我们意识到,这项技术有巨大的潜力,可以在几十年前发明和发现的算法基础上进一步扩展。由于更多的数据、更大的网络,尤其是更强的计算能力,深度学习突然能够实现传统算法无法达到的成就。

现在想象一下,如果我们进一步扩大架构,使用更大的网络、更多的数据和更强的计算能力,会有什么可能性?因此,我们致力于不断创新。2012 年之后,我们改进了 GPU 的架构,增加了 Tensor 核心。几年前,我们发明了 NVLink。随后,我们推出了 CUDA、TensorRT 和 NCCL。我们还收购了 Mellanox,并开发了 TensorRT-LLM 和 Triton 推理服务器,所有这些都汇集在一台全新的计算机上。没有人理解,也没有人要求它。事实上,我确信没有人想买它。所以我们在 GTC 上宣布了它。OpenAI,这家位于旧金山的小公司,联系了我,要求我给他们送一台。2016 年,我们交付了世界上第一台 AI 超级计算机 DGX 给 OpenAI。之后,我们继续扩展,从一台 AI 超级计算机、一台 AI 设备,扩展到更大的超级计算机。到 2017 年,世界发现了 Transformer,使我们能够在大量数据上进行训练,并识别和学习跨越长时间序列的模式。现在,我们可以训练这些大语言模型,理解自然语言并取得突破。我们继续前进,建造了更大的计算机。然后在 2022 年 11 月,我们使用成千上万台 NVIDIA GPU 组成的一台非常大的 AI 超级计算机进行训练。

OpenAI 宣布,ChatGPT 在发布 5 天后用户数达到 100 万,两个月后达到 1 亿,成为历史上增长最快的应用。原因很简单:它使用起来非常方便,体验也非常奇妙。与计算机互动时,就像在与人交流,你不需要明确表达需求,计算机就能理解你的意思和意图。

哦,我觉得这里离夜市最近。你也知道,夜市对我来说非常重要。我小时候,大概四岁半时,就非常喜欢去夜市,因为我喜欢看人来人往。所以我们经常去夜市,我的父母常带我们去圆环夜市。

我非常喜欢去夜市。将来某一天,你们可能会看到我脸上有一道很大的疤痕,那是因为小时候有人在洗刀时不小心割伤了我。因此,我对夜市有着非常深刻的记忆。以前我很喜欢去夜市,现在依然如此。我只是想和你们分享这件事。

通化夜市非常棒,因为有一位女士在那里工作了 43 年。她在街道中央卖水果。一定要去找她看看。

她真的很棒。我觉得如果你们以后有机会去看看她,会很有趣。她每年都在进步,汽车测试成绩也在不断提高。我真的很喜欢看到她取得成功。不管怎样,ChatGPT 的出现带来了一个非常重要的变化。让我给你们展示一下。这张幻灯片展示了根本的区别所在。

在 ChatGPT 推出之前,AI 主要集中在感知任务,包括自然语言理解、计算机视觉和语音识别,主要涉及感知和检测。这是世界上首次尝试解决生成式 AI 问题,能够一次生成一个令牌。这些令牌起初是单词,现在也可以是图像、图表、表格、歌曲、文字、语音、视频等。实际上,这些令牌可以是任何你能理解其意义的事物,比如化学物质的令牌、蛋白质的令牌、基因的令牌。

你们之前在 Earth 2 中看到,我们正在生成天气数据。我们可以学习物理学。如果你能学习物理学,就可以教 AI 模型物理学。这个 AI 模型能够理解物理学的原理,并模拟物理现象。我们将分辨率细化到 1 公里,不是通过降采样,而是通过生成。因此,我们可以用这种方法为几乎任何有价值的事物生成数据。我们可以生成汽车方向盘的控制指令,也可以生成机器人手臂的运动轨迹。现在,我们可以生成我们所学到的任何事物的模型。

我们现在不仅进入了 AI 时代,更进入了生成式 AI 时代。真正重要的是,这台最初作为超级计算机的设备,现在已经演变成一个数据中心。它生产一种东西——令牌。这是一个 AI 工厂,正在生成一种极具价值的新商品。

19 世纪 90 年代,尼古拉·特斯拉发明了交流电机,而我们发明了 AI 生成器。交流电机产生电力,而 NVIDIA 的 AI 生成器生成令牌。这两者都有巨大的市场机会,几乎在每个行业中都是完全适用的。这就是为什么这是新一轮工业革命。我们现在有一个新的工厂,为每个行业生产一种极具价值的新商品。这种方法具有很高的可扩展性和可重复性。

注意到现在每天都有许多不同的 AI 模型被发明出来,尤其是生成式 AI 模型。各行各业都开始大规模采用这些技术。IT 行业价值 3 万亿美元,而它即将创造出能够直接服务于 100 万亿美元产业的技术。这些技术不再只是信息存储或数据处理的工具,而是为每个行业生成智能解决方案。这将成为一个新的制造业,不是制造计算机的行业,而是使用计算机进行制造的行业。这种情况前所未有,确实是一个非凡的现象。

从加速计算到 AI,再到生成式 AI,这引发了一场工业革命。这对我们的行业也有巨大影响。当然,我们可以为许多行业创造一种新的商品,即我们称之为“代币”的新产品,但这对我们的影响也非常深远。正如我之前所说,在过去的 60 年里,计算的每一层都发生了变化,从 CPU 的通用计算到加速的 GPU 计算,计算机都需要指令。现在,计算机处理大语言模型(LLM)和 AI 模型。

过去的计算模型主要是基于检索的,每次你使用手机时,系统会为你检索一些预录制的文本、图像或视频,并根据推荐系统重新组合这些内容呈现给你。但在未来,你的计算机会尽可能多地生成数据,只检索必要的信息。生成的数据需要更少的能量来获取信息,而且在上下文上更相关。它将编码知识,理解你的需求。你不再需要说“为我获取那个信息”或“为我获取那个文件”,而是直接问问题。计算机不再只是我们使用的工具,而是生成技能并执行任务。

在 20 世纪 90 年代初,软件行业本身就是一个革命性的概念。还记得微软通过软件捆绑彻底改变了 PC 行业吗?如果没有软件捆绑,我们的 PC 能用来做什么呢?正是这种方式推动了整个行业的发展。

现在我们有了一个新工厂和一台新计算机。在这之上运行的是一种新型软件,我们称之为 NIMS(NVIDIA Inference Microservices)。NIMS 在这个工厂内部运行,它是一个预训练模型,也就是一种 AI。当然,这个 AI 本身相当复杂,但运行 AI 的计算栈更是复杂得令人难以置信。当你使用 ChatGPT 时,其背后的栈包含大量软件。在那个提示符背后,有大量的软件在运行。由于模型非常庞大,参数数量从数十亿到数万亿不等,它们并不是在一台计算机上运行,而是在多台计算机上运行。它需要将工作负载分布到多个 GPU 上,采用张量并行、流水线并行、数据并行、专家并行化等各种并行方式,以尽可能快地处理工作负载。

因为在工厂工作或经营工厂时,生产量直接影响收入、服务质量以及服务对象的数量。

我们现在生活在一个数据中心吞吐量利用率至关重要的世界。虽然过去它也很重要,但没有现在这么关键。以前,人们不怎么测量这些参数,而现在每个参数都被详细测量,包括启动时间、运行时间、利用率、吞吐量和空闲时间等。数据中心就像工厂一样,其运营直接影响公司的财务表现。因此,我们意识到这对大多数公司来说是极其复杂的任务。

于是,我们创建了这个“AI in a box”。这个容器内包含了大量的软件,如 CUDA、CuDNN、TensorRT 和 Triton,用于推理服务。它是云原生的,可以在 Kubernetes 环境中自动扩展。它还具有管理服务和钩子,可以监控你的 AI 系统。它提供了通用 API 和标准 API,你可以直接与这个盒子对话。

只要你在电脑上安装了 CUDA(现在几乎每台电脑都有),你就可以下载这个软件并与之对话,就像 ChatGPT 一样。这个软件在每个云平台上都有,每个电脑制造商都提供,数亿台 PC 上都可以使用。下载后,你就拥有了一个 AI,可以像 ChatGPT 一样与之聊天。

所有软件现在都已整合,400 个依赖项全部集成在一起。我们在云端对这些预训练模型进行了测试,涵盖了所有种类的安装环境,包括不同版本的 Pascal、Ampere 和 Hopper 等。这是一项令人惊叹的技术进步。现在,我们能够创建大语言模型和各种预训练模型。我们有各种版本,无论是基于语言、视觉还是成像的,甚至还有适用于医疗保健、数字生物学和数字人类的版本。你可以访问 AI.NVIDIA.com 使用这些模型。今天,我们在 Hugging Face 上发布了完全优化的 Llama 3 Nim,供大家试用。你甚至可以下载并随身携带。它是免费的,你可以在任何云端运行,或者下载这个容器,放到你自己的数据中心进行托管,并提供给你的客户使用。我们有各种不同领域的模型,包括物理学、语义检索(称为 RAGs)、视觉语言和各种不同的语言。你可以将这些微服务集成到大型应用程序中使用。

未来最重要的应用之一无疑是客户服务。几乎每个行业都需要客服人员,全球客户服务市场的价值达数万亿美元。护士在某种程度上也是客服人员,因为他们的一些工作不涉及处方或诊断。实际上,零售、快餐、金融服务、保险等领域也有类似于护士的客服人员。现在,数以千万计的客服工作可以通过大语言模型和 AI 技术得到增强。你所看到的这些框架基本上就是神经信息模型(NIMs)。

有些智能代理(NIMs)会被赋予任务,确定任务目标并制定计划。有些 NIMs 会检索信息、进行搜索或使用我之前提到的工具,比如 Kuop。它们可能需要使用运行在 SAP 上的工具,因此需要学习 ABAP 语言,或者执行 SQL 查询。因此,这些 NIMs 被组建成专家团队。

应用层已经发生了变化。过去,应用程序是通过编写代码实现的,现在则是通过组建 AI 团队来开发。很多人都知道如何分解问题并组建团队。我相信,未来每家公司都会拥有大量的专家库。你可以选择所需的专家,将他们组建成一个团队,甚至不需要明确如何连接他们。只需将任务交给一个代理人或智能系统,他们会分解任务并分配给合适的专家。团队领导者会分解任务并分配给各个团队成员。团队成员完成任务后,将结果反馈给领导者,领导者会对结果进行分析并将信息呈现给你。这就是未来应用程序的运作方式。

当然,现在我们可以通过文本和语音提示与这些大型 AI 服务进行互动。然而,在许多应用中,我们希望与类人形存在互动,我们称之为数字人类。视频技术在数字人类领域已经研究了相当长的时间。请稍等,我来给大家展示一下。数字人类有潜力成为非常优秀的交互代理,它们可以更具吸引力和同理心。当然,我们必须跨越巨大的现实鸿沟,使数字人类看起来更加自然。这是我们的愿景和目标。现在让我展示一下我们目前的进展。

想象一下未来,计算机能够像人类一样自然地与我们互动。

虚拟人的现实令人惊叹。虚拟人将颠覆客户服务、广告和游戏等各个行业,其潜力是无限的。

室内设计师可以利用生成式 AI 生成逼真的设计建议,并协助寻找合适的材料和家具。

它们还可以作为 AI 客服代理,使互动更加吸引人且个性化,或者作为数字医疗工作者,为患者进行检查并提供个性化且及时的护理。

它们甚至可能成为 AI 品牌大使,推动新一波的营销和广告趋势。

生成式人工智能和计算机图形学的突破,使得数字人能够以类似人类的方式识别、理解并与我们互动。

数字人类的基础是基于多语言语音识别与合成,以及对话生成和理解的大语言模型(LLMs)的人工智能模型。

这些 AI 可以与另一个生成式 AI 协作,为面部生成逼真的 3D 网格动画。最终,AI 模型能够呈现逼真的外观,并实现实时光线追踪的次表面散射。通过模拟光线穿透皮肤、散射并在不同点透射的过程,赋予皮肤柔和和半透明的外观。

NVIDIA ACE 是一套数字人技术,打包成易于部署且完全优化的微服务(NIMs,NVIDIA Intelligent Microservices)。开发者可以将 ACE NIMs 集成到他们现有的框架、引擎和数字人体验中。Nematon、SLM(语义语言模型)和 LLM(大语言模型)NIMs 能够理解我们的意图并协调其他模型。

Riva Speech 模块用于交互式语音和翻译,Audio to Face 和 Gesture 模块用于面部和身体动画,而 Omniverse RTX 结合 DLSS 则用于皮肤和头发的神经网络渲染。

真是难以置信,这些 AI 应用不仅可以在云端运行,也可以在 PC 上运行。我们在所有 RTX 显卡中加入了 Tensor Core GPU,因此我们已经出货 AI GPU 有一段时间了,为今天做好了准备。原因很简单:要创建一个新的计算平台,首先需要建立一个安装基础,应用程序最终会随之而来。如果没有安装基础,应用程序怎么可能出现呢?所以,如果你建好了,他们可能不会来,但如果你不建,他们肯定不会来。现在,全球有一亿台配备 GeForce RTX 的 AI PC,我们还在继续出货。

在本次 Computex 展会上,我们展示了四款全新的令人惊叹的笔记本电脑。它们都支持运行 AI 应用程序。未来的笔记本电脑和个人电脑将成为 AI 平台,在后台持续提供帮助和协助。个人电脑还将运行由 AI 增强的应用程序。你的照片编辑、写作工具以及所有你使用的工具都将由 AI 增强。你的个人电脑还将运行包含虚拟助手的 AI 应用程序。因此,AI 将以不同的方式在个人电脑中展现并被使用,而个人电脑将成为非常重要的 AI 平台。

那么,我们接下来该怎么做呢?我之前提到过我们数据中心的扩展,每次扩展都会带来新的变化。当我们从 DGX 扩展到大型 AI 超级计算机时,我们使 Transformer 能够在极其庞大的数据集上进行训练。最初,数据是由人类监督生成的,需要人工标注的数据来训练 AI。然而,人工标注的数据量是有限的。Transformer 使无监督学习成为可能。现在,Transformer 只需查看大量的数据、视频或图像,就能通过分析这些数据自行发现模式和关系。

下一代 AI 需要以物理为基础。目前,大多数 AI 并不理解物理定律,也未能真正理解物理世界。为了生成和模拟图像、视频、3D 图形以及许多物理现象,我们需要具备物理定律理解能力的 AI。当然,实现这一目标的方法之一是通过视频学习。

另一种方式是使用生成数据或模拟数据,或者让计算机互相学习。这与 AlphaGo 通过自我对弈不断提升能力类似。通过长时间的自我对弈,这些 AI 变得更加智能。因此,这种类型的 AI 将逐渐出现。

如果 AI 数据是通过合成生成并使用强化学习,那么数据生成速度将继续提高。随着数据生成量的增加,我们所需的计算能力也必须随之增长。我们即将进入一个 AI 能够学习和理解物理定律及物理世界数据的阶段。因此,我们预计模型将继续扩展,并需要更强大的 GPU 支持。

Blackwell 虽然是为当前这一代设计的,但它包含了几项非常重要的技术。首先是芯片的尺寸。我们采用了目前最大的两块芯片,这些芯片由台积电(TSMC)制造,尺寸已经达到了极限水平,并通过世界上最先进的 10 TB/s 连接将它们连接在一起。我们将这两块芯片放在一个计算节点上,并与 Grace CPU 连接。在训练过程中,Grace CPU 可以用于快速检查和重启。在推理和生成过程中,它可以用于存储上下文记忆,使 AI 拥有记忆并理解你所进行对话的上下文。

这是我们的第二代 Transformer 引擎,能够根据计算需求动态调整精度。这是我们的第二代安全 AI GPU,可以帮助服务提供商保护 AI 免受盗窃或篡改。这是我们的第五代 MV Link,能够连接多个 GPU,稍后将详细介绍。

这是我们第一代带有可靠性和可用性引擎的系统。这个系统,也称为 RAT 系统,允许我们测试每一个晶体管、触发器(flip-flop)、片上存储器和片外存储器,从而在现场确定某个芯片是否未达到平均故障间隔时间(MTBF)标准。拥有 1 万个 GPU 的超级计算机的平均故障间隔时间以小时计算,而拥有 10 万个 GPU 的超级计算机的平均故障间隔时间则以分钟计算。因此,如果我们不发明提高可靠性的技术,超级计算机长时间运行并训练一个可能持续数月的模型几乎是不可能的。可靠性当然会提高正常运行时间,并直接影响成本。最后,数据处理是我们必须完成的最重要任务之一。我们增加了一个数据压缩引擎和解压缩引擎,使我们能够以比现有技术快 20 倍的速度从存储中提取数据。这一切都代表了 Blackwell 的进步,我认为我们在 GTC 期间展示的 Blackwell 原型已经进入了生产阶段。这就是为什么我们要实践并抓住机会的原因。

女士们、先生们,这是Blackwell。

Blackwell 计算机正在生产中,采用了大量先进技术。这是我们的主板,是世界上最复杂、性能最高的计算机之一。这是 Grace CPU。你可以看到每个 Blackwell 芯片都是成对连接的。它是世界上最大的芯片之一,我们通过每秒 10TB 的数据连接将两个芯片连接在一起。这构成了性能卓越的 Blackwell 计算机。

我们的 AI 计算能力在八年内增加了 1000 倍,而摩尔定律在同一时期的提升大约是 40 到 60 倍。在过去的八年里,摩尔定律的提升速度已经大大减缓。即使在摩尔定律的最佳时期,其提升速度与 Blackwell 的能力相比也相形见绌。

计算量是极其庞大的。每当我们提升计算能力时,成本就会相应下降。接下来,我将展示我们所做的工作:通过提升计算能力,训练一个具有 2 万亿参数和 8 万亿标记的 GPT-4 所需的能量减少了 350 倍。如果使用 Pascal 架构,需要 1000 吉瓦时的能量。1000 吉瓦时意味着需要一个吉瓦级的数据中心。世界上并没有吉瓦级的数据中心,即使有,也需要一个月的时间。如果使用一个 100 兆瓦的数据中心,则需要大约一年的时间。因此,显然没有人会创建这样的设施。

这就是为什么像 ChatGPT 这样的大型语言模型在八年前还无法实现的原因。通过不断提升性能和效率,我们才能在保持和改进效率的同时,推动这些技术的发展。

我们现在通过 Blackwell 技术,将原本需要 1000 千兆瓦时的能耗降低到 3 千兆瓦时,这是一个令人难以置信的进步。例如,1 万块 GPU 可能只需要大约 10 天时间。短短八年内取得的进展令人惊叹。

这适用于推理和代币生成。我们的代币生成性能使每个代币的能耗降低到 3.4 焦耳或更低。相比之下,Pascal 时代每个代币的能耗高达 17,000 焦耳,相当于两个灯泡(200 瓦特)运行两天的能量。生成一个 GPT-4 的代币需要两个灯泡运行两天的能量。生成一个词大约需要三个代币。因此,在 Pascal 时代,生成 GPT-4 并与 ChatGPT 互动所需的能量几乎是不可能实现的。但现在我们每个代币只需 0.4 焦耳,并且可以以极低的能耗生成代币。

布莱克威尔(Blackwell)确实是一个重大突破,但它的规模仍然不够大。因此,我们需要构建更大规模的机器,我们称之为 DGX。这些是我们的布莱克威尔芯片,它们被集成到 DGX 系统中。

这就是我们进行实践的原因。这就是 DGX Blackwell。这款设备采用风冷设计,内部配备了 8 个 GPU。请注意这些 GPU 上的散热器,设备功率约为 15 千瓦,完全依靠风冷。该版本支持 x86 架构,并且可以集成到我们已经出货的 Hopper 基础设施中。如果你需要液冷系统,我们也有一个新系统。这个新系统基于我们称之为 MGX(模块化系统)的主板。这个模块化系统可能不太显眼,你能看到吗?你还好吗?

这是 MGX 系统。这里有两块 Blackwell 板卡。这个节点包含四个采用液冷技术的 Blackwell 芯片。总共有九个这样的节点,72 个 GPU 通过新一代的 NVLink 连接在一起。这是第五代 NVLink 交换机,是一项技术奇迹,数据传输速率极高。这些交换机将每一个 Blackwell 芯片连接在一起,使我们拥有一个庞大的 72 GPU Blackwell 系统。这样做的优势在于,在一个 GPU 域内,这看起来就像一个 GPU。这个 GPU 有 72 个单元,而上一代只有 8 个。我们将带宽增加了 9 倍,AI 浮点运算能力(FLOPS)增加了 18 倍,性能提升了 45 倍,而功耗仅增加了 10 倍。这个系统的总功耗是 100 千瓦,而单个节点的功耗是 10 千瓦。

当然,你可以将更多的这些设备连接在一起,稍后我会演示如何操作。但真正的奇迹在于 MV Link 芯片。人们开始意识到 MV Link 芯片的重要性,它可以将不同的 GPU 连接在一起。由于大语言模型非常庞大,无法仅在一个 GPU 或一个节点上运行。需要整排 GPU,比如我刚才站在旁边的新 DGX,才能容纳拥有数十万亿参数的大语言模型。

MV Link 交换机本身就是一项技术奇迹,拥有 500 亿个晶体管、74 个端口,每个端口 400Gbps,四个链路,横截带宽达到 7.2TB/s。一个重要的特点是它在交换机内部集成了数学运算功能,可以直接在芯片上进行深度学习中非常重要的归约操作。

这就是现在的 DGX。很多人问我们,NVIDIA 是如何通过制造 GPU 变得如此庞大的,这其中有一些误解。人们认为这就是现在 GPU 的样子。

这是一个 GPU,是世界上最先进的 GPU 之一,但它是一个游戏 GPU。你我都知道这就是 GPU 的样子。女士们、先生们,这是 DGX GPU。你知道,这个 GPU 的背面是 NVLink 主干。NVLink 主干有 5000 条线,总长度达 2 英里,就在这里。它连接了多个 GPU,是电气和机械工程的奇迹。收发模块使我们能够在铜线上传输整个距离。因此,这个开关,NVSwitch,驱动 NVLink 主干在铜线上传输,使我们能够在一个机架中节省 20 千瓦的功耗。现在,这 20 千瓦可以用于计算,这是一个令人难以置信的成就。这就是 NVLink 主干。

今天我去看了一下,发现即便如此也不足以满足 AI 工厂的需求。因此,我们必须通过高速网络将所有设备连接起来。我们有两种网络类型:一种是 InfiniBand,它已经在全球的超级计算和 AI 工厂中广泛使用,且增长非常快。然而,并不是每个数据中心都能处理 InfiniBand,因为许多数据中心已经在以太网生态系统上投资了太久。管理 InfiniBand 交换机和网络也需要专业知识。因此,我们将 InfiniBand 的能力引入以太网架构,这非常困难。原因在于,以太网设计用于高平均吞吐量,因为每个节点、每台计算机都连接到互联网上的不同用户,大多数通信发生在数据中心与互联网另一端的用户之间。然而,在深度学习和 AI 工厂中,GPU 之间的通信主要是彼此之间的通信。它们相互通信是因为它们在收集部分结果,需要进行归约然后重新分配。

某些产品的减少和重新分配过程中,数据流量具有很强的突发性,关键不在于平均吞吐量,而在于最终的到达时间。因为在减少和收集所有产品时,最终的到达时间才是最重要的。

因此,关键不在于平均吞吐量,而在于谁能最终给出答案。以太网并没有为此提供解决方案。因此,我们必须创建几项新技术。我们设计了一个端到端的架构,使网卡和交换机之间的通信更加高效。我们应用了四种不同的技术来实现这一目标。首先,NVIDIA 拥有世界上最先进的 RDMA(远程直接内存访问)技术。现在,我们能够在以太网上实现网络级别的 RDMA,这非常出色。

第二,我们有拥塞控制机制。交换机会持续进行高速遥测。当 GPU 或网络接口卡(NIC)发送过多数据时,我们可以通知它们减速,以避免产生热点。

第三点,自适应路由。以太网通常需要按顺序传输和接收数据。当我们检测到网络拥堵或未使用的端口时,无论顺序如何,我们会将数据发送到可用端口,另一端的 Bluefield 设备会重新排序,使数据按顺序返回。这种自适应路由功能非常强大。

最后是干扰隔离。在数据中心中,通常会有多个模型同时进行训练或其他操作,它们的噪声和流量可能会相互干扰,导致延迟。当一个训练模型的噪声导致数据到达延迟时,整体训练效率会显著下降。请记住,如果你建造了一个价值 50 亿或 30 亿美元的数据中心,并用于训练,如果网络利用率降低 40%,导致训练时间延长 20%,那么这个 50 亿美元的数据中心实际上就像是一个 60 亿美元的数据中心。因此,成本影响非常高。使用 Spectrum X 的以太网基本上可以大幅提升性能,使网络成本几乎可以忽略不计。这确实是一个相当大的成就。我们有一整套以太网产品线支持。这是 Spectrum X800,具有每秒 51.2 Tb 的带宽和 256 个端口。下一代产品是 512 端口的,预计一年后推出,称为 Spectrum X800 Ultra。再下一代是 X16。重要的是,X800 设计用于数万颗 GPU,X800 Ultra 设计用于数十万颗 GPU,而 X16 设计用于数百万颗 GPU。数百万颗 GPU 数据中心的时代即将到来,其原因非常简单。

当然,我们希望训练更大规模的模型,但更重要的是,未来你几乎每次与互联网或计算机的互动,可能都会有一个在云端运行的生成式 AI 参与。这个生成式 AI 会生成视频、图像、文本,甚至是数字人,并与你互动。因此,你几乎一直在与计算机互动,而生成式 AI 始终在背后支持。有些生成式 AI 会在本地运行,有些会在你的设备上,但很多可能会在云端。这些生成式 AI 还将具备强大的推理能力,不仅仅提供一次性答案,还会通过迭代改进答案的质量,然后再提供给你。因此,未来我们将进行的生成任务量将是惊人的。

让我们来看看整体效果如何。今晚是我们第一次在夜间进行主题演讲,感谢大家的到来。接下来我要展示的内容将带来一种全新的氛围——夜间主题演讲的独特氛围。请大家尽情享受。

只有 NVIDIA 和我能做到这一点。

NVIDIA 推出的最新一代平台,正值生成式 AI 时代的到来。随着世界逐渐认识到 AI 基础设施的重要性,这标志着新工业革命的开端。我们得到了广泛的支持,包括几乎所有的原始设备制造商(OEM)、计算机制造商、云服务提供商(CSP)、GPU 云、主权云,甚至电信公司和全球各地的企业。Blackwell 的成功、采用率和热情都超出了预期。我要感谢大家的支持与厚爱。

我们不会就此止步。在这个 AI 快速发展的时代,我们要确保持续提升性能,降低训练和推理成本,并不断扩展 AI 能力,使每家公司都能采用。性能提升越大,成本下降越显著。Hopper 平台无疑是历史上最成功的数据中心处理器之一,这真是一个令人难以置信的成功案例。

然而,Blackwell 已经发布,每个平台都包含几个关键组件,包括 CPU、GPU、NVLink、网卡(NIC)和交换机。NVLink 交换机将所有 GPU 连接在一起,形成最大的域。我们尽量使用大型且高速的交换机来连接这些组件。每一代产品不仅仅是 GPU 的升级,而是整个平台的升级。

我们构建了整个平台,并将其集成到一台 AI 超级计算机中。然后,我们将其拆分并分发给全球用户。这样做是为了让大家能够创建有趣且创新的配置,适应各种不同风格、数据中心和客户的需求,有些用于边缘计算,有些用于电信。开放系统可以促进各种创新。因此,我们设计并集成了系统,但提供给用户的是拆分后的模块化系统,以便你们可以进行创新。

Blackwell 平台已经发布。我们公司的基本理念非常简单,遵循一年一个周期的节奏。首先,搭建整个数据中心;其次,根据需求进行扩展和拆分;最后,在一年周期内分批次销售给客户。

我们将所有技术推向极限,无论是台积电(TSMC)的工艺技术、封装技术、内存技术、SerDes 技术还是光学技术。然后,我们确保所有软件都能在这个完整的系统架构上运行。

软件兼容性是计算机中最重要的因素之一。当一台计算机能够向后兼容并与现有的软件架构兼容时,市场推广的速度会大大加快。因此,当我们能够充分利用现有的软件资源时,速度是惊人的。

Blackwell 系列已经推出,我们将在明年发布 Blackwell Ultra。就像之前的 H100 和 H200 一样,您将看到我们推出的令人兴奋的新一代 Blackwell Ultra,再次突破极限。我之前提到的下一代 Spectrum 交换机也是如此。这是我们第一次迈出这一步,我还不确定是否会后悔这个决定。

我们公司内部有代号名称,并尽量保密。大多数员工通常甚至都不知道这些代号。我们的下一代平台称为 Ruben 平台。我不会花太多时间介绍它,因为我知道你们会拍照,并仔细研究细节,请随意拍照。因此,我们有 Ruben 平台,一年后,我们将推出 Ruben Ultra 平台。我展示的所有这些芯片都在全面开发中。我们的节奏是一年一次,达到技术极限,所有芯片在架构上完全兼容。这基本上就是 NVIDIA 正在构建的产品,以及其上丰富的软件生态系统。

在过去的 12 年里,从 ImageNet 的出现,到我们意识到计算的未来将发生根本性变化,再到今天,正如我之前提到的,从 2012 年的 GeForce 到今天的 NVIDIA,公司确实经历了巨大的转型。我想感谢所有合作伙伴在这一路上的支持。这就是 NVIDIA 的 Blackwell 平台,它代表了我们在计算领域的最新创新。

接下来,我将讨论未来的发展。下一波 AI 浪潮将是物理智能,它能够理解物理定律,并在我们中间工作。这些 AI 需要理解世界模型,以便能够解释和感知世界。当然,它们还需要具备出色的认知能力,能够理解我们和我们的需求,并执行任务。

未来,机器人将更加普及。虽然提到机器人时,人们通常会想到人形机器人,但实际上并非如此。各个领域都将实现机器人化。所有工厂都将实现机器人化,机器人将协同工作,制造出自动化的产品。为了实现这一目标,我们需要在技术上取得一些突破。接下来,我将展示一段视频。

机器人时代已经到来。未来,所有移动设备和机器都将实现自主操作。全球的研究人员和公司正在开发由物理人工智能驱动的机器人,这些人工智能模型能够理解指令,并在现实世界中自主完成复杂任务。

大语言模型(LLM)是我们在机器人领域取得的突破,使机器人能够学习、感知和理解周围的世界,并规划其行动。通过人类演示,机器人现在可以学习与世界互动所需的粗略和精细动作技能。推动机器人技术发展的一个关键技术是强化学习。大语言模型需要通过人类反馈的强化学习(RLHF)来掌握特定技能,而生成式物理 AI 则可以在模拟世界中通过物理反馈的强化学习来掌握技能。

在这些模拟环境中,机器人通过在遵循物理定律的虚拟世界中执行动作来学习决策。在这些机器人训练场中,机器人可以安全快速地学习执行复杂和动态的任务,通过数百万次的试错行为来精炼其技能。我们开发了 NVIDIA Omniverse 作为物理 AI 的操作系统。

Omniverse 是一个用于虚拟世界模拟开发的平台,集成了实时物理渲染、物理模拟和生成式 AI 技术。在 Omniverse 中,机器人可以学习如何执行各种任务。它们能够自主且精确地操控物体,例如抓取和处理物品,或者自主导航环境,找到最佳路径,同时避开障碍物和危险。在 Omniverse 中学习可以最大限度地减少模拟与现实之间的差距,并最大化所学行为的转移。

构建具备生成式物理 AI 的机器人需要三种计算机:用于训练模型的 NVIDIA AI 超级计算机、用于运行模型的 NVIDIA Jetson Orin 和下一代 NVIDIA Thor 机器人超级计算机,以及用于机器人在模拟环境中学习和优化技能的 NVIDIA Omniverse 平台。我们为开发者和公司构建了所需的平台、加速库和 AI 模型,并允许他们使用最适合的技术栈。下一波 AI 革命已经到来,由物理 AI 驱动的机器人将彻底改变各个行业。

这不是未来,而是正在发生的现实。我们将通过多种方式服务市场。首先,我们将为各种类型的机器人系统创建平台:一个用于机器人工厂和仓库的平台,一个用于操作物体的机器人平台,一个用于移动的机器人平台,还有一个用于类人机器人的平台。每个机器人平台都类似于我们的其他计算加速库和预训练模型。我们在 Omniverse 中测试、训练和集成所有内容。正如视频中所说,Omniverse 是机器人学习如何成为机器人的地方。

机器人仓库的生态系统非常复杂。建立一个现代化的仓库需要许多公司、工具和技术的协作,而且仓库正变得越来越自动化。未来,仓库将完全实现自动化。在每个这样的生态系统中,我们都有与软件行业连接的 SDK 和 API,与边缘 AI 行业和公司连接的 SDK 和 API,以及为原始设计制造商(ODM)设计的 PLC 和机器人系统。这些系统由集成商整合,最终为客户建造仓库。例如,Kenmac 为 Giant Group 建造了一个机器人仓库。

现在让我们谈谈工厂的截然不同的生态系统。富士康正在建设一些世界上最先进的工厂。这些工厂的生态系统包括边缘计算和机器人、用于设计工厂的软件、工作流程管理、编程机器人以及协调数字工厂和 AI 工厂的 PLC。我们还有与这些生态系统相连接的软件开发工具包(SDK)。这种情况在台湾各地都在发生。富士康正在为其工厂建立数字孪生,台达(Delta)也在为其工厂建立数字孪生。值得一提的是,这些工厂部分是现实的,部分是数字的,还有部分是在 Omniverse 中。和硕(Pegatron)正在为其机器人工厂建立数字孪生,纬创(Wistron)也在为其机器人工厂建立数字孪生。这非常令人兴奋。下面是富士康新工厂的视频,让我们来看一下。

随着全球将传统数据中心现代化为生成式人工智能工厂,对 NVIDIA 加速计算的需求正在迅速增长。全球最大的电子制造商富士康正在通过 NVIDIA Omniverse 和人工智能建设机器人工厂,以满足这一需求。工厂规划人员使用 Omniverse 将来自西门子 Team Center X 和 Autodesk Revit 等领先行业应用的设施和设备数据进行整合。在数字孪生体中,他们优化了厂房布局和生产线配置,并确定了监控未来操作的最佳摄像头位置。借助 NVIDIA Metropolis 驱动的视觉人工智能,虚拟集成技术帮助规划人员节省了在建设过程中进行实际变更订单的巨大成本。富士康团队使用数字孪生体作为准确设备布局的真实依据进行沟通和验证。Omniverse 数字孪生体也是富士康开发人员训练和测试 NVIDIA Isaac AI 应用(用于机器人感知和操作)以及 Metropolis AI 应用(用于传感器融合)的“机器人训练场”。

在 Omniverse 中,我们在将运行时部署到 Jetson 和装配线上的计算机之前,模拟了两个机器人 AI。我们模拟了 Isaac Manipulation 库和用于自动光学检测的 AI 模型,以进行物体识别、缺陷检测和轨迹规划,并将 HGX 系统转移到测试环境中。我们还模拟了由 Isaac Perception 驱动的 Ferrobot 自主移动机器人(AMRs),这些机器人在 Omniverse 中进行 3D 映射和重建,感知并在其环境中移动。富士康构建了运行在 NVIDIA Isaac 上的机器人工厂,这些工厂协调机器人来制造 NVIDIA AI 超级计算机,而这些超级计算机反过来又训练富士康的机器人。

一个机器人工厂设计了三台计算机:在 NVIDIA AI 上训练 AI,使用 PLC 系统运行机器人以协调工厂操作,然后在 Omniverse 中模拟一切。机器人手臂和自动移动机器人系统(AMRS)也是以同样的方式,使用三台计算机。不同之处在于,两个 Omniverse 将合并在一起,共享一个虚拟空间。当它们共享一个虚拟空间时,机器人手臂将成为机器人工厂的一部分。同样,三台 UH3 计算机提供计算加速层和预训练的 AI 模型。我们将 NVIDIA Manipulator 和 NVIDIA Omniverse 与全球领先的工业自动化软件和系统公司西门子(Siemens)连接起来。这是一个非常成功的合作伙伴关系,他们正在全球范围内的工厂中进行工作。

Semantic Pick AI 现在已经集成了 Isaac Manipulator,并且可以运行和操作 ABB、Kuka、Yaskawa、Fanuc、Universal Robots 和 Techman 的设备。Siemens 的集成效果非常出色。此外,我们还集成了各种其他设备。让我们一起来看看。

Arcbest 正在将 Isaac Perceptor 集成到 Foxsmart 自主机器人中,以增强其物体识别、人类动作跟踪和物料处理能力。比亚迪电子(BYD Electronics)正在将 Isaac Manipulator 和 Perceptor 集成到他们的 AI 机器人中,以提高全球客户的制造效率。Ideal Works 正在将 Isaac Perceptor 集成到他们的 iOS 软件中,用于工厂物流中的 AI 机器人。

  1. Gideon 正在将 Isaac Perceptor 集成到 AI 驱动的托盘叉车中,以提升物流自动化水平。

  2. Argo Robotics 正在将 Isaac Perceptor 集成到其感知引擎中,用于先进的视觉自主移动机器人(AMR)。

  3. Solomon 在其 Acupic 3D 软件中使用 Isaac Manipulator AI 模型进行工业自动化操作。

  4. Techman Robot 正在将 Isaac SIM 和 Manipulator 集成到 TM Flow 中,以加速自动光学检测(AOI)流程。

Teradyne Robotics 正在将 Isaac Manipulator 集成到 PolyScope X 中用于协作机器人,并将 Isaac Perceptor 集成到 MiR AMR 中。Vention 正在将 Isaac Manipulator 集成到机器逻辑中,用于 AI 操控机器人。机器人技术和物理 AI 已经到来,这不再是科幻小说,它们已经在台湾广泛应用,令人振奋。这就是未来的工厂,内部充满了机器人,当然,所有产品也将实现自动化。

目前有两种高产量的机器人产品。其一是自动驾驶汽车或高度自动驾驶汽车。NVIDIA 构建了整个技术栈。明年,我们将与梅赛德斯-奔驰合作投入生产,之后在 2026 年与捷豹路虎(JLR)合作。我们向全球提供完整的技术栈,当然,您可以选择使用我们技术栈中的任何部分或层级,就像整个 Drive 技术栈是开放的一样。

下一个由机器人工厂大规模生产的机器人产品可能是人形机器人。近年来,随着人工智能基础模型的发展,人形机器人在认知能力和对世界的理解能力方面取得了巨大进展。

我对这个领域感到非常兴奋,因为类人机器人最容易适应我们的世界,这个世界本就是为人类建造的。由于它们与我们体型相似,我们可以为这些机器人提供比其他类型机器人更多的训练数据。通过演示和视频,我们能够提供大量的训练数据,这将大大促进这一领域的进展。我们将在这一领域看到许多显著的进步。

来源:微信公众号 FreeMind AI

# 英伟达股价回落,坚守or离场?

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论2

  • 推荐
  • 最新
  • 这篇文章不错,转发给大家看看
    回复
    举报
  • 回复
    举报