2026年4月初,OpenAI的一项名为《通过嵌入式逻辑桥实现高带宽显存芯粒、I/O芯粒与计算芯粒的非邻接互联》专利正式公开。
这项专利分享了一种AI芯片解决方案的计划,该方案将包含多个 HBM 芯片和计算芯片,所有这些芯片都使用嵌入式逻辑桥连接,其提出了利用这些嵌入式逻辑桥在更远距离之间进行高速互连的想法,将更多的芯片连接在一起。
我们不禁疑问:OpenAI靠大模型起家,为什么要做这件事?这份专利,在它更宏大的硬件蓝图里,又扮演什么角色?
物理约束,卡住整个行业
首先从这项专利试图解决的问题说起。AI芯片对内存的依赖,远比普通计算深得多。大语言模型在推理阶段需要将海量参数和中间状态存入片上可访问的高速内存,而高带宽显存(HBM)正是为此而生的存储方案——通过将多层DRAM芯片垂直堆叠,并用硅通孔连接,HBM实现了极高的带宽密度,成为GPU和AI加速器的标配。
但HBM的集成存在一道硬性约束。根据JEDEC行业标准,HBM芯粒必须与计算芯粒紧密相邻,金属互联线从计算芯粒的物理层(PHY)控制器到HBM信号引脚,距离不得超过6毫米。这条规定出于信号完整性的考量,超出这个范围,高速信号的幅值就会因衰减而无法被可靠检测,吞吐与延迟均会恶化。
6毫米听起来已经很短,但放到芯片封装尺度上,这条限制极为苛刻。一颗HBM芯粒的宽度通常超过5毫米、长度超过10毫米,而计算芯粒的周长约为32毫米左右。几何约束下,传统封装最多只能在一颗计算芯粒周围摆放四组HBM,再多就摆不下了。
四组HBM对于早年的AI工作负载或许尚够,但随着大模型参数规模飙升至万亿级别,推理阶段对内存容量的需求已今非昔比。这道6毫米的物理红线,正在成为制约AI芯片算力天花板的核心瓶颈之一。
嵌入式逻辑桥:突破限制的关键
OpenAI的专利方案,本质上是引入了一个主动信号中继层,即嵌入式逻辑桥。
所谓嵌入式逻辑桥,是一块嵌入在封装基板内部的小型硅片,其中包含主动电路,能够接收、放大并重新驱动来自HBM芯粒或计算芯粒的高速信号。有别于传统封装中仅提供金属走线的被动中介层,逻辑桥内置了PHY物理层控制器、片上网络、信号重复器和放大器等有源组件,从而将原本只能维持约6毫米的高速互联距离延伸至16毫米乃至更远。


这个改变看似微小,实则意义深远。专利附图展示了一颗计算芯粒搭配20组HBM堆叠的方案,是传统封装上限的五倍。在这种配置下,芯粒间的互联全部通过嵌入式逻辑桥完成,并遵循UCIe(通用芯粒互联标准)规范,保证了与行业生态的兼容性。

嵌入式逻辑桥还承担了双重功能。它既可以充当HBM堆叠的控制器,替代原本需要在计算芯粒上实现的HBM控制逻辑,将这部分功能下沉到封装层;也可以提供面向芯粒间通信的高速PHY能力,使计算芯粒得以专注于推理计算本身,而非耗费芯片面积处理底层通信协议。专利中明确提及,裸片互联接口符合UCIe标准,这意味着整套方案具备与第三方芯粒互操作的设计预期。
从架构逻辑上看,这是一种将封装层智能化的思路。封装不再只是将芯粒物理固定在一起的结构件,而成为一个具备信号处理能力的中间层,能够主动管理芯粒间的高速数据流,打破纯物理距离的束缚。
先行者英特尔
OpenAI专利中描述的嵌入式逻辑桥思路,与英特尔的EMIB(嵌入式多芯片互联桥)技术高度契合。
英特尔的EMIB自2017年起就已进入大规模量产。其核心思路与OpenAI专利异曲同工:在有机封装基板内嵌入微型硅桥,在桥接区域实现高密度、高速率的芯片间互联,而无需铺设贯穿整个封装底面的大型硅中介层。相比硅中介层,EMIB的优势在于结构更轻薄、成本更低,且不受光刻版图的尺寸限制,设计灵活度明显更高。

英特尔后续又推出了EMIB-T(EMIB-TSV)变体,通过在桥接芯片中引入硅通孔,进一步强化了电源传输路径,使其能够支持HBM4/HBM4E等下一代高带宽显存的集成需求。EMIB-T还将最大封装尺寸拓展至120×180毫米,并支持超过38个桥接点,以及12颗以上超过光刻版图尺寸的裸片同框集成。
英特尔Data Center GPU Max系列是EMIB技术规模化落地的代表产品,通过EMIB 3.5D方案将2.5D横向桥接与Foveros 3D垂直堆叠结合,封装了47颗有源芯粒、超过1000亿个晶体管。
值得关注的是,近期行业报道显示,苹果和高通已开始招募具备EMIB专业经验的工程师,而英特尔封装业务据报道也正在接洽AI ASIC客户,并探索为台积电制造的芯粒提供下游封装服务的可能性。市场对EMIB技术的兴趣,正随台积电CoWoS产能持续告急而升温。
OpenAI的专利将技术路线指向嵌入式逻辑桥,又明确标注了与UCIe和HBM标准的兼容,这些线索合在一起,很难不让人联想到英特尔EMIB作为潜在技术合作路径的可能性。至少在封装架构的选择上,OpenAI正在走一条与EMIB高度平行的道路。
专利之外:Titan计划与更大的棋局
事实上,这份专利并非孤立存在,它是OpenAI庞大硬件布局中浮出水面的一块拼图。
2025年10月,OpenAI与博通正式官宣战略合作,目标是联合研发并部署10吉瓦规模的定制AI加速器,计划于2026年下半年开始交付,并在2029年底前完成全面铺开。双方的合作框架早于公告签署,最早可追溯至合作公告发布18个月前。从OpenAI官方声明来看,合作的核心在于,将OpenAI在大模型研发中积累的架构认知直接嵌入硬件设计,而非继续依赖通用GPU。
这颗内部代号“Titan”的芯片,据报道将采用台积电N3工艺制造,目标是在2026年底前完成量产部署。与此同时,基于台积电A16工艺的第二代芯片已进入规划阶段。在内存供应链层面,三星据报道已签署向OpenAI供应HBM4的协议,将为Titan提供12层堆叠的高带宽显存。

Titan的定位,首要在于推理侧。OpenAI对推理算力的需求已呈爆炸式增长,每周超过8亿用户规模背后,是持续攀升的token生成成本。相比通用GPU,针对推理工作负载深度定制的ASIC,在每次推理的能效比和成本表现上均具备结构性优势。这也是谷歌发展TPU的底层逻辑,通过专用硬件将推理单位成本压低,使大规模服务成为可能。
OpenAI硬件副总裁Richard Ho在AI基础设施峰会上明确阐述了这条逻辑。他指出,优化不能停留在芯片层面,而必须贯穿模型架构、编译器、芯片、硬件系统和计算内核的全链路。“很多厂商标榜的峰值性能,在实际部署中根本无法实现,只有打通全栈链路,才能精准测算真实吞吐与延迟,”他说。这番话点出了OpenAI进军自研硬件的深层动机:控制全栈,才能优化全链路。
从这个视角来看,专利中描述的内存架构方案,与Richard Ho在演讲中强调的长效驻留AI智能体对大容量分布式内存的需求,形成了清晰的呼应。智能体任务跨越数天、涉及海量状态数据,单GPU显存的容量早已无法承载。将20组HBM堆叠整合进同一芯片封装,正是在硬件层面为这类负载特性专门构建的答案。
算力成本与新的护城河
对于OpenAI而言,AI算力成本已经是这家未上市企业的不可承受之重了。
根据公开数据,建设1吉瓦规模的数据中心,总投入约500亿美元,其中约350亿美元用于采购高端加速芯片。英伟达GPU在其中占据主导,但其成本结构与供货节奏都不受OpenAI掌控。
自研芯片的价值,正体现于此。知情人士透露,通过联合博通定制硬件,OpenAI的芯片采购成本有望比采购英伟达产品压低20%至30%。在10吉瓦的部署规模下,这一比例差距所对应的绝对金额,足以成为决定性的商业竞争优势。
但更深的护城河,来自技术沉淀的自我强化。专为推理工作负载设计的芯片,天然契合OpenAI自有模型的计算图特征,可以在矩阵乘法、注意力机制、激活函数等关键算子上实现针对性优化;而这些优化积累反过来会加深对模型架构的理解,进而指导下一代芯片的设计,形成迭代闭环。谷歌TPU历经十余年迭代,已深度适配Transformer架构,OpenAI走的正是同一条路,只是起步更晚,时间窗口更紧。
此外,自研芯片还能缓解供应链的脆弱性。英伟达GPU长期积压订单、交货周期漫长已是行业常态,台积电的CoWoS封装产能据报道已被英伟达锁定约六成。在算力竞争愈演愈烈的格局下,掌握独立的芯片来源,意味着对自身扩张节奏的更强掌控力。
当然,风险同样显而易见。专用芯片面临算法迭代快速过时的压力:今天深度优化的计算模式,可能在下一代模型中发生根本性转变,届时定制芯片的优势将大打折扣。芯片研发周期漫长,从架构设计到量产通常需要18至24个月,在AI技术以季度为单位迭代的节奏下,硬件与模型的对齐始终是一道难题。这也是Richard Ho在演讲中特别强调大幅压缩芯片研发周期的原因所在。
从一张专利图,到一套系统
在行业看来,OpenAI这项新专利文件的意义,更多的是在于它展现了一种技术思维。
它所提出的嵌入式逻辑桥方案,解决的是一个看似局部的封装问题,但其指向的是完整的计算基础设施重构。更多的HBM意味着更大的模型权重可以驻留片上,更短的内存访问延迟意味着更高的推理吞吐,更灵活的芯粒组合意味着更强的设计迭代能力。这些收益彼此关联,共同构成长效AI智能体所需要的底层硬件支撑。
从技术源头来看,嵌入式逻辑桥的思路并非OpenAI首创,英特尔EMIB已在行业中积累了将近十年的工程实践与量产经验。OpenAI能否借助英特尔的封装能力将专利付诸实施,或者与台积电、三星等合作方共同开发等效方案,是这一布局能否落地的关键变量。
但我们可以确定的是,这份专利与Titan芯片项目、与博通的全栈合作,以及OpenAI硬件团队在公开场合传递的技术信号,共同勾勒出一张清晰的战略图谱:OpenAI正在把算力的控制权,从GPU供应商那里一点一点拿回来,并将其深度嵌入自己的AI服务之中。
精彩评论