螞蟻集團開源全模態大模型Ming-Flash-Omni 2.0

智通財經
02/11

智通財經APP獲悉,2月11日,螞蟻集團正式對外開源其最新一代全模態大模型Ming-Flash-Omni 2.0。該模型在多項公開基準測試中展現出卓越性能,尤其在視覺語言理解、語音可控生成以及圖像生成與編輯等核心能力上表現突出,部分指標已超越Gemini 2.5 Pro。

Ming-Flash-Omni 2.0同時也是業內首個支持全場景音頻統一生成的模型,能夠在單一音軌內同步合成語音、環境音效與背景音樂。用戶僅需通過自然語言指令,即可對音色、語速、語調、音量、情緒乃至方言等參數實施精細化調控。

在推理效率方面,該模型實現了3.1Hz的極低推理幀率,能夠實時生成高保真度的分鐘級長音頻,在兼顧生成質量的同時顯著優化了計算成本與響應速度。

螞蟻集團在全模態方向已持續投入多年,Ming-Omni系列迭代三個版本,此次將Ming-Flash-Omni2.0開源,意味着其核心能力以「可複用底座」的形式對外釋放,為端到端多模態應用開發提供統一能力入口。用戶也可通過螞蟻百靈官方平台Ling Studio在線體驗與調用。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10