金吾财讯 | 英伟达(NVDA)正式推出了最新开放式多模态大模型——Nemotron3Nano Omni。这款模型被定位为“全能选手”,通过高度整合视频、音频、图像和文本的深度推理能力,旨在为开发者提供更快速、更智能的交互响应方案。据介绍,技术架构上创新是该模型的一大亮点。Nemotron3Nano Omni采用了30B-A3B的“混合专家”(MoE)架构,将视觉与音频编码器直接集成在系统内部。这种一体化的设计打破了以往多模态处理需要依赖多个独立感知模型的僵局,实现了从“碎片化上下文”向“统一上下文”的跨越。官方披露,该模型在复杂文档处理、视频理解及音频感知等六大权威排行榜中均位列榜首。在保持极高交互性的同时,吞吐量达到了同类开放式全向模型的9倍,意味着企业在部署AI智能体时,能够以更低的成本实现更强的可扩展性,且不牺牲响应的即时性。
精彩评论