金吾財訊 | 英偉達(NVDA)正式推出了最新開放式多模態大模型——Nemotron3Nano Omni。這款模型被定位為「全能選手」,通過高度整合視頻、音頻、圖像和文本的深度推理能力,旨在為開發者提供更快速、更智能的交互響應方案。據介紹,技術架構上創新是該模型的一大亮點。Nemotron3Nano Omni採用了30B-A3B的「混合專家」(MoE)架構,將視覺與音頻編碼器直接集成在系統內部。這種一體化的設計打破了以往多模態處理需要依賴多個獨立感知模型的僵局,實現了從「碎片化上下文」向「統一上下文」的跨越。官方披露,該模型在複雜文檔處理、視頻理解及音頻感知等六大權威排行榜中均位列榜首。在保持極高交互性的同時,吞吐量達到了同類開放式全向模型的9倍,意味着企業在部署AI智能體時,能夠以更低的成本實現更強的可擴展性,且不犧牲響應的即時性。