智通財經APP獲悉,2月11日,螞蟻集團正式對外開源其最新一代全模態大模型Ming-Flash-Omni 2.0。該模型在多項公開基準測試中展現出卓越性能,尤其在視覺語言理解、語音可控生成以及圖像生成與編輯等核心能力上表現突出,部分指標已超越Gemini 2.5 Pro。
Ming-Flash-Omni 2.0同時也是業內首個支持全場景音頻統一生成的模型,能夠在單一音軌內同步合成語音、環境音效與背景音樂。用戶僅需通過自然語言指令,即可對音色、語速、語調、音量、情緒乃至方言等參數實施精細化調控。
在推理效率方面,該模型實現了3.1Hz的極低推理幀率,能夠實時生成高保真度的分鐘級長音頻,在兼顧生成質量的同時顯著優化了計算成本與響應速度。
螞蟻集團在全模態方向已持續投入多年,Ming-Omni系列迭代三個版本,此次將Ming-Flash-Omni2.0開源,意味着其核心能力以「可複用底座」的形式對外釋放,為端到端多模態應用開發提供統一能力入口。用戶也可通過螞蟻百靈官方平台Ling Studio在線體驗與調用。