【智能前线】第8期:特斯拉人形机器人发展机会,将远大于自动驾驶汽车,扎克伯格最新万字洞察,未来看好这三类AI硬件

2024年6月27日,摩根斯坦利发布特斯拉研报指出,AI正在推动机器人技术变革性变化,人形机器人的发展机会,将远大于自动驾驶汽车,采用速度更快,吸引更多资本投入,特斯拉正处于这一主题中心。

2024年6月28日,Meta创始人、CEO扎克伯格与科技创作者Robin Kallaway进行深度对话,讨论未来10年技术发展,特别是智能眼镜、神经腕带、AI技术在创作者与小企业中应用。扎克伯格认为,智能眼镜将逐步取代手机,未来AI技术将呈现多样化,允许创作者与小企业创建定制化AI。

本期智能前线,选择摩根斯坦利发布特斯拉研报摘录、扎克伯格接受Robin Kallaway专访纪要,大师小站、有新Newin发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文13,542字

预计阅读27分钟

特斯拉人形机器人Optimus Prime:Embodied AI体现式AI的投资影响

时间:2024年6月29日

来源:大师小站

字数:3,855

AI正在推动机器人技术的变革性变化,人形机器人的发展机会,将远大于自动驾驶汽车,采用速度更快,吸引更多资本投入,特斯拉正处于这一主题中心,投资者可能需要在他们的Excel模型中新增标签页。

以下是摩根斯坦利最新BluePaper摘录:《人形机器人:体现式AI的投资影响》

AI的进步,正在改变机器人行业。我们相信,Embodied AI体现式AI的采用,可能比自动驾驶车辆要快得多。

劳动力短缺与人口趋势变化,增加在广泛行业中的商业相关性与采用路径,以及经济回报期。

我们建立专有的TAM模型(总可寻址市场模型),考察劳动力动态与人形机器人的可选性,涵盖超过830个工作分类,全球劳动市场价值30万亿美元。

我们包括了来自亚洲机器人团队的全面竞争分析与专有BotBOM,以帮助投资者思考硬件成本曲线。

爸爸,老虎宝宝通过观察它们妈妈狩猎来学习。我9岁的儿子在家庭晚餐上宣布,它们在草地上扑跃,捕捉小鹿等小猎物来练习。

多年来,机器学习仅限于自我强化的软件算法。大型语言模型LLMs与生成式AIGenAl的进步,使得机器人学习领域取得巨大飞跃,通过自然语言、模仿与仿真加速物理机器的学习。

GenAl正在改变机器人学习方式,让它们有机会在物理与虚拟世界中观察并模仿行为,通过自然语言连接,并在数据中心进行迭代。

就像大型语言模型LLM帮助推动ChatGPT能力不断提升一样,多模态模型MMM正在推动机器人技术的创新。

AI算法可以通过自动化重复任务、增强数据分析与预测能力、实现虚拟仿真,以及优化设计与测试流程,显著缩短研发周期。

作为一个AI相邻领域,人形硬件开发现在可以直接从增加的资本形成与对机器人主题的研发投资中获益。

AI跃入物理/原子世界。AI无处不在,AI在聆听你,AI看到你的脸与身体,AI知道你现在在哪里,AI可以读书,AI可以写作,AI可以交谈,AI可以制作戴着小牛仔帽的猫咪打卡纳斯塔牌的图片。

除了运行大量算法与激活一些开关之外,AI很少实际移动。自然界中,运动能力是指生物体能够独立利用自身能量移动。化石记录,地球上最早的运动能力追溯到前寒武纪时期细菌鞭毛,一种形状像纺锤体的结构。现在,移动设备与机器人之间的界限,正在逐渐变得模糊与不明显。

为什么我们需要人形机器人?我们有充分的理由,让机器人采取许多高度专业化的形态机械臂、蛇形机器人、机器狗、机械尘等尽可能多的形态。

许多机器人与AI专家表示,对于人形机器人最强论点是,在一个已经为人类创建的世界中,为准备人形机器人的环境已经就绪。

英伟达创始人、CEO黄仁勋最近表示:适应世界的最简单机器人是人形机器人,我们为自己建造了这个世界。我们也有训练这些机器人的最多数据,我们拥有相同体型。想想人类能够用我们双手或使用工具执行众多任务,以及为人类手与手指设计的众多机器。机器人看起来像人,最重要的原因是,我们为自己建造了这个世界,工厂的工作站、工厂的生产线是为人们创建的。

界定TAM。截至2023年11月,美国劳动力约1.62亿人。以平均薪资59,428美元计算,美国劳动市场每年价值接近10万亿美元。Statista数据,全球约有34亿人就业。假设每个工人年薪9千美元,全球劳动市场价值大约30万亿美元,约占全球GDP 30%。

我们预测,到2040年,理论上30万亿美元中,人形机器人累计/应用基数将达到800万单位,影响工资3,570亿美元;到2050年,将达到6,300万单位,影响工资3万亿美元。我们的分析,目前没有考虑人形机器人应用基数超过现有人类劳动力的情况,在某些情况下,这项技术的经济效益可能使这成为现实。

特斯拉最近年度股东大会上,马斯克表示他相信,人形机器人数量最终将至少是人类的2倍甚至更多:我认为人形机器人与人类比例至少将是二比一,大概是这样,肯定至少是一比一。

也就是说,可能会有大约100亿个人形机器人。也许,可能是200亿、甚至300亿。

2040年代,就有10亿个人形机器人?根据马斯克帖子看,马斯克近几个月来一直专注Optimus帕洛阿尔托工程中心。特斯拉首次展示人形机器人Optimus,是在2022年9月30日。

特斯拉双足机器人Optimus,包括28个执行器,分为两类:

1、旋转执行器,包括谐波减速器、球轴承与传感器,用于肩部与肘部等旋转动作;

2、直线执行器,包括行星滚轮、球轴承与传感器,用于类似人类肌肉的直线运动。双手共有12个执行器,许多更多的细节仍然保留在公司内部。

2024年1月,马斯克表示,他预计到2040年代,将有超过10亿人形机器人在运行。在特斯拉2024年6月13日年度股东大会上,他预计2025年,特斯拉至少将有1,000个Optimus机器人开始工作,事情将会从那里迅速扩展。他认为人形机器人最终将超过人类数量,可能会达到200亿或更多,未分享时间表。

一个动态、迅速变化的竞争环境。除了特斯拉,数十家初创公司与成熟企业都在GenAl 2022/2023年的快速增长推动下,参与人形机器人开发。我们注意到,即使在NVIDIA 2024年3月主题演讲之前,关于公司对物理AI机器人的意图已经不言自明,AI机器人一直是MorganStanley TMT会议上一个重复主题。经过多次起伏,一系列风险投资者与公司正在押注体现式AI的前景。

2024年,人形机器人初创公司Figure AI、Agility Robotics分别在私募轮获得26亿美元与12亿美元估值,更广泛的主题吸引包括OpenAI、软银、老虎环球、亚马逊、NVIDIA与微软等主要投资者。

从汽车到消费电子等行业的主要上市公司,也在积极参与人形机器人开发,有些公司正在与人形机器人初创企业合作,探索潜在的未来用例。

机器人学正经历ChatGPT时刻。谷歌DeepMind高级机器人学总监文森特·范霍克的说法,专家们将2年前称为美好的旧时光。LLM与GenAl,突然将机器人学从孤立的机器人岛牢固的带入AI飞轮。LLM与GenAl科学,长期以来被视为与机器人学执行机构完全不同的世界。现在这些世界正在碰撞,影响深远。

我们以前也见过这样情况。1821年,法拉第通过悬挂在磁铁上方的电线中通电,观察电线的旋转。这不仅标志着电能如何产生机械运动,第一个电动机的发明,还将看似无关的两个科学领域,电与磁联系了起来。爱因斯坦发现物质与光之间,以前从未设想的联系e=mc^2。我们可能正处于揭开生成式AI与机器人学关系的边缘?

网络化集体机器人学习。想象一下,一个人形机器人站在厨房中岛前,岛上有一个小盘子,盘子上放着一个洋葱,旁边是一个削皮刀。现在想象一个大仓库,有1,000个人形机器人,每个机器人都站在一个带有同样设置的厨房岛旁。随着每次试错的积累,整个群体以任何时间点最佳机器人的速度集体学习。

这种网络化集体的聚合学习快速提升,实现团体学习的加速。当物理练习完成,表现最好的机器人,比其他999个剥洋葱做得更好后,最佳实践可以通过在模拟的全息宇宙中数亿次试验中的数字孪生体进一步分享与改进。

你今天见过或与机器人互动吗?你们中的一些人可能见过,大多数在2024年夏天阅读这篇文章的人可能没有。这个颇具怀旧色彩的人类技术,历史时期正在迅速过去。持续的LLM/GenAI革命,正处于早期阶段,渗透到机器人学领域。

长期以来,LLM与机器人学,被视为两个截然不同的科学领域。LLM的进步,加速在机器人的训练与学习上可能有更多重叠。无论是汽车形状的机器人、还是人形机器人,AI大脑正在寻找它的机器人身体。

人形机器人与自动驾驶汽车。自动驾驶车辆Avs,是相对简单的机器人。简单的意思是,机器人出租车只有三个主要执行输出:方向盘、加速踏板角度、刹车踏板。操作领域极其复杂,公共道路上充满不可预测的元素。

我们相信,AVs操作环境的可变性(现实世界)与相应的安全含义(人类乘客、行人)与人形机器人的形态相比,人形机器人的商业化时间将会更快实现,后者可以在地理围栏区域(仓库/工厂封闭工作单元)中学习。人形机器人有更多物理输出,自动驾驶车辆面临的困难操作领域、安全问题与监管审查,推迟了它们采用曲线。

人形机器人采用的关键驱动因素:人形机器人的故事,涉及对三个主要领域的了解:AI、机器人、人。

不同阶段,AI的进步多模态模型、神经网络训练、计算,可能比机器人学的物理科学,例如光学、执行机构、电池制造发展更快,后者可能沿着潜在非线性改进自己的路径前进。同时,各行业与地区的劳动力因素的多个驱动因素,将显著决定经济回报期、采用率与社会接受度。

高级人形机器人的开发,仍处于初期阶段。我们相信,过去几年中,邻近领域的进步, GenAI、执行器与机械、电池存储,已被证明是人形机器人开发的重要贡献者。这三个领域的进一步进展,将是实现人形机器人商业化的关键。

必须考虑一些限制因素。人形机器人的大规模商业化,必须克服一系列技术挑战,以及广泛的社会/政策/安全障碍。

技术方面,创建能够驾驭人类环境的细微复杂性的人形机器人,可能需要持续的生成式AI进展,以及努力将这些先进模型专门为人形机器人量身定制。

进一步完善精密执行器、传感器与电池容量,对于提高人形机器人可执行任务的范围至关重要。

现代机器人学,已发展数10年,生成式Al模型的突然与快速崛起,可能会创造出心理能力超过物理能力的情况,从而开启一系列潜在的硬件瓶颈问题,随着人形机器人变得越来越聪明,这些问题将需要解决。社会/政策/安全方面的考虑,与自动驾驶车辆AV的相关性,帮助我们理解人形机器人可能面临的障碍范围。

我们相信,相对公共街道,使用数字孪生体或在封闭地理围栏工作单元中培训人形机器人,为人形机器人在处理潜在安全规定方面提供相对优势。

利用摩根士丹利亚洲工业区的优势,从中国工业到日本工业与中国汽车供应商,我们深入了解人形机器人内部运作,分析组件成本与未来成本降低潜力。

根据我们估计,构建人形机器人的成本,可能根据配置与下游应用而变化,从1万美元到30万美元不等。例如,根据主要组件供应商的价格报价与专有分析,我们估计特斯拉Optimus Gen2的当前BOM为每单位50~60k美元,不包括软件。

规模效应帮助下,引入AI算法显著缩短研发周期,使用来自中国成本效益高的组件,我们看到实现马斯克目标的Optimus售价,约为2万美元显著成本降低的机会。

扎克伯格最新万字洞察:信息流媒体将更多转向个人及AI互动,未看好这三类AI硬件类型

时间:2024年6月30日

来源:有新Newin

字数:9,587

近日,Meta CEO Mark Zuckerberg与科技创作者Robin Kallaway进行了一场深度对话,讨论未来10年技术发展,尤其是智能眼镜、神经腕带、AI技术在创作者与小企业中应用。

Zuckerberg详细讨论智能眼镜未来发展方向,认为将逐步取代手机,成为主要的个人硬件设备。未来智能眼镜将分为三种类型:无显示屏的基础型、带有抬头显示的中级型、全息显示的高级型。

未来AI技术将不会是单一的,而是多样化,允许创作者与小企业创建定制化AI。这种多样化的AI体验,将提升用户互动的丰富性与个性化。智能眼镜与神经腕带将改变人们的互动方式。Zuckerberg认为,这些技术将使人们在现实世界中保持专注同时,以更自然与高效方式获取信息与互动。

以下是对话全文

Robin Kallaway:你能谈谈Meta在更广泛AI领域的策略吗?将会有成千上万创作者听到这个。他们了解AI,了解玩家,玩过一些工具,我认为听你谈谈会非常有帮助。Meta AI计划是什么?它如何适应市场?

Mark Zuckerberg:我们方法与其他公司有很大不同,你会看到很多公司试图构建一个主要AI供你使用。无论是Google Gemini,还是OpenAI ChatGPT。我们看法是,我们会有一个基本Meta AI助手供人们使用。我们总体观点是,这不应该只有一个。

我们认为人们希望与许多不同人与企业互动,需要创建许多不同AI来反映人们不同兴趣。我们方法,很大一部分是让每个创作者,最终也让平台上每个小企业创建自己AI,以帮助他们与社区与客户互动。

我们认为这将创造更加引人入胜的体验,比仅使用一个单一的东西更加动态与有用,一部分是我们不是自己构建这些东西。

我们在构建底层技术,我们希望使我们正在构建的底层模型Llama 达到世界领先水平。我们想全力以赴,试图构建完全通用的智能,建立领先的模型,我对我们进展非常满意。

同样重要的一部分,是为创作者与企业构建工具,使他们能够随着时间推移创建反映他们自己的AI,创造各种不同体验。

这就是本周AI Studio公告的内容,这是一个早期测试,在实现这一愿景方面,是一个令人兴奋的一步。

Robin Kallaway:这正是我想要探讨的内容,我认为这种网络视图,也许是单一目的,也许是多功能Agent结合在一起,为每个创作者与企业定制,这正是我认为我们未来的发展方向。

说在10年后,我们会有更多创作者并不具争议性,主流内容会更多通过创作者流动。Meta已经是今天铺设这些轨道的主要一层,当你考虑创作者体验的未来是什么样时,从战术用例角度看,未来会是什么样?有什么事情看起来,对你很有趣?

Mark Zuckerberg:首先我完全同意你的观点。如果你看人类历史更广泛的轨迹,越来越多人有机会追求自己创造力与兴趣,而不是做他们可能觉得单调乏味、或者仅仅为了工作的工作,我们越来越多做自己真正喜欢的事情。

很多技术的发展,是为了实现这一点,不仅通过提高其他任务生产力,还通过为人们提供各种新工具。

这绝对是未来的一部分,我们想要构建更多工具,让更多人,包括今天不认为自己是创作者的人,每个人在某种程度上都有创造力。

就像我看到我孩子们一样,他们不认为自己是创作者,他们肯定在玩乐高时,创造了各种不同东西。这是毕加索老话,每个孩子都是艺术家,挑战在于长大后还能保持这种状态。

我们要做的一部分,是构建允许每个人这样做的工具。我看到的趋势是什么?在社交媒体方面,有几个大趋势。

一个是从基于信息流的媒体,转向更个人化的消息互动。比如,如果你看Instagram,私信是系统中增长最快的部分之一,这也是我对创作者工作室与AI工作室感到兴奋的部分。

我们正在使人们能够为自己AI版本创建一个角色,以帮助他们处理社区发送的所有私信。这就是经典问题,时间不够用。

每个创作者都希望与每一个联系他们的粉丝互动,你根本没有时间。可能还有更多人比发送消息的人还多,想与创作者创建的内容互动。很多人可能根本不会发送消息,他们知道创作者不会有时间回复。

问题在于,创作者为自己创建的AI Agent质量有多高,这将成为一种艺术形式,会随时间推移发展与进步,会变得越来越好。

对很多人来说,知道他们在与创作者创建的东西互动,这很有意义。可能不如与创作者本人互动好,对很多人来说,这是不可得的,创作者没有足够时间来回应,这是一个重要部分,我们可以深入探讨这个话题。

另一个快速增长的领域是短视频。最近有一个惊人趋势,从电影与长篇电视节目,到人们一度认为YouTube是短视频,人们将其与电视电影相比,今天与真正的短视频相比,很多YouTube视频感觉很长。

你在看YouTube视频时,可能在做多任务,它持续了好几分钟。这种趋势可能会继续下去,人们有工具来创建非常吸引人的内容,使其非常紧凑与精练,这些工具的发展速度会继续下去。

人们会使用AI来创建与编辑视频,整个过程会有大量创造力,你需要精心打磨你正在构建的东西,就像雕塑一样。

根本上说,它会变得更易获得,内容质量会随着人们能够尝试更多不同想法而提高。这两个大趋势是消息与短视频,这是我目前看到的两个大趋势。

Robin Kallaway:这种杠铃策略,一端是超级原始、未编辑的长篇播客对话,另一端是超级精致的短篇故事,似乎吸引力正流向这两端。

我想讨论一下AI工作室在工具方面的情况,今天基本上是奠定基础的阶段,这是创作者如何在Meta世界与AI互动的基础构建模块,今天是第一块基础工具。

你能谈谈你的策略,是如何逐步实现的?今天发布了什么?为什么你对此感到兴奋?我可以分享我的反馈作为测试。

Mark Zuckerberg:我们可以讨论这些战术工具的逐步实施,有几条技术路径是同时进行的。

一条是Llama 开发,底层模型的调优,这是我们在获得反馈过程中进行,这是底层核心基础设施。在此基础上,我们正在创建的所有产品体验与工具,使人们能够创建这些不同的AI。无论是创作者创建一个AI Agent版本,来与他们社区互动。

某个时候,我们还将推出让任何人创建用户生成内容AI的功能。不一定是你自己创建的,它可以是一个你想要在Instagram与其他应用程序上存在,并与人们互动的新虚拟角色。

今天我们可能不会详细讨论,商业方面,小企业数量不亚于现在的创作者数量,这是一个巨大的机会。

对任何企业来说,按几个按钮创建一个能够帮助你进行客户支持与电商支持的Agent版本应该是非常简单的,这将非常强大。

今天我们正在推出第一个测试阶段,我们试图分阶段进行。我们与大约50位创作者一起启动,将逐步推出给一小部分人。随着我们调整这一点,可能在接下来1个月左右,我们会逐步推出,让更多人能够与这些创作者创建的AI互动。也许到7月底或8月,我们会全面推出。

这将是一个非常有趣的体验,看看人们如何喜欢与这些AI互动,以及为创作者构建工具是一个大部分。

很想听听你的反馈,你在使用这个工具时有什么感受,哪些地方表现良好,哪些地方需要改进。

Robin Kallaway:我很乐意分享。对我来说,作为一个创作者,我父母在俄亥俄州经营一个高尔夫球场。他们就是小企业的使用案例,他们有一个Instagram账户,收到很多请求,他们无法应对大量私信与消息。

我想法是,这有点像一个光谱,有事实性问题,这些问题大量涌入,我相信你也有这种经历,很难想象,成千上万的事实性问题。

比如,你有没有这个链接,或者你做过这个视频吗,或者你衬衫从哪里来?这些都是显而易见的问题,只需要克隆自己来回答,这是这个技术初步用例的惊人之处,每个小企业与创作者都会想要这个。

光谱另一端,我一直在玩的,更多是意见型问题。例如,如果有人问,如果你是我,你会如何发展你的品牌?这是一个多方面的问题,很难一口气回答。

这也是我觉得有趣的地方,观察AI在我与我的回应上进行训练,并磨练它。如果我能扩展这些意见性回答,作为创作者,我目标之一是建立一对一的信任,这是我唯一关心的事情,我已经达到我能力极限。

我想到的一个问题是,事实性问题很有意义,每个粉丝都会同意他们只想获得信息。在意见方面,一些粉丝会担心AI助手,可能会使人与粉丝之间神奇的联系去人性化。

问题是,你如何构建这些对创作者无比有用的AI工具,同时保持真实性与人性化联系?

Mark Zuckerberg:你提到的意见型问题,更多是一种艺术形式体现。也就是说,这些东西的训练过程。

首先是基础Llama 模型。创作者在设置这些AI时,有机会从他们社交媒体存在与他们想要训练系统的任何其他信息中提取各种信息。

事实性问题相对来说比较清晰,可以理解我们何时做对,何时没有。意见方面,创作者会有更多意见,关于他们希望AI如何表达他们观点。至于人们知道他们在与AI互动的那一点,这是我们核心设计原则之一,我们不想让人们以为他们在与创作者本人互动。

我们希望它尽可能高保真反映创作者意图,也会非常清楚标明这是AI,这样就不会有任何混淆。当你与社区互动时,你可能会觉得可以在表达上更加自由或冒险,或者在某些可能更具风险表达上更加接近底线,你可能不希望你AI这样做。

你可以让它基于你社交媒体内容进行训练,你可能希望训练它在某些事情上保持更加谨慎,避免涉及某些话题,直到你对它能够准确反映你的意图有更多信心。

这些工具非常重要,这是一种艺术形式,我们在开始时不知道什么是最具吸引力、最能建立信任的公式。我们希望提供工具,让大家可以试验,看看什么最终效果最好。

Robin Kallaway:我真的很想讨论的是AI工作室未来功能创意,让我给你一个非常酷的例子。

当你观看这个视频片段时,如果有人可以点击你的衬衫或我的帽子或这个灯,立即有一个AI层识别品牌与产品,自动添加到购物车,自动跟踪返利。这种无形的层次,可以真正帮助实现货币化。

由于基础设施原因,每小时有数百万个Reels被创建,今天支持这一点很困难,这可能在计划中。还有哪些未来的AI工作室功能,是我们还没讨论到,你认为我们在未来3~5年内可以实现?

Mark Zuckerberg:理解不同物品的功能,应该随时间推移适用所有帖子,我们会达到那一点。我们在Ray-BanMeta眼镜上有这种多模型AI早期版本,你可以说,Meta,看一下这个东西是什么?它非常准确告诉你,我们在看什么,并能够回答相关问题。

随着Llama 模型不断改进,以及我们完全推出下一版本,这只会变得更好,这是一个大功能。还有很多类似事情,能够自动翻译与配音,是我对未来非常感兴趣的事情。

讲英语的人,常常忽视世界上很多人不讲英语,能够自动将所有内容翻译成各种语言,使其对更多人可访问,如果能感觉到真实,并像你在说那种语言一样,将非常强大。

这些是一些非常令人兴奋的想法,这些不同于AI工作室,这是AI在内容、内容理解与内容翻译等方面的不同应用。

对于AI工作室,将会是如何给创作者提供更多工具来调整体验,使其更加有趣与建立信任的一种持续演进,我们还会添加不同模式。

起初是文本,随着时间推移,会有视频、音频,最终能让它成为3D,这样你就可以以全息图形式出现在某人客厅里,这将非常酷。我们专注元宇宙与所有具象化工作,这也是我们自然路径,我们试图让创作者能够以更自然方式与人们互动。

Robin Kallaway:我非常喜欢你提到的Agent网络概念,我在玩这个时,我在想,这是一级,那二级会是什么?一个例子是市场研究Agent,我试图提出制作什么视频或向社区提供什么产品或课程。

如果我有一个Agent,可以出去,并与5%观众进行一对一对话,挖掘他们痛点,自动完成这些事情,将非常棒。你把这些小的用例堆叠起来,突然之间,就有了一套对创作者非常有价值的Agent、AI或机器人。

Mark Zuckerberg:这是好观点。商业环境中,这一点更清晰,企业需要客户支持,更高一级的是能够汇总分析,了解人们需要支持的所有事项,改进它们。对于创作者来说,也有类似版本,比如,我的社区如何喜欢与我内容互动,不同反馈是什么,我如何将这些因素纳入我创作过程或商业模式中。

请务必阅读免责声明与风险提示

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论