MiniMax升級音樂模型,米哈遊發布表演大模型,商湯拿下首個國標數字人

上觀新聞
04/11

  在音樂、數字人與虛擬角色表演的交匯地帶,AI正在以肉眼可見的速度重構文娛產業的底層邏輯。過去一周,三項來自不同賽道的關鍵進展不約而同地指向同一個方向:大模型不再滿足於「生成內容」,而是開始追求對創作過程、交互體驗和情感表達的精準掌控。

MiniMax上線Music 2.6 :極速響應、精準掌控,開啓全球創作

  全球領先的大模型公司MiniMax發布新一代音樂生成模型Music 2.6,本次更新從底層引擎到創作工具實現全維度進化,大幅提升生成延遲、音樂控制、聲學品質,推出全新「Cover」創作功能和麪向 AI Agent 生態的 Music Skill,並面向全球創作者開啓為期14天的免費內測。C端產品用戶每日享有500首免費創作額度;開發者額外獲贈每日100首免費調用額度。

  Music 2.6對底層生成架構進行了深度重構,最直觀的變化體現在速度上——首包延遲大幅降至20秒以內。這意味着創作者輸入文字靈感後,只需一次深呼吸的時間就能收到初步音頻反饋,告別以往的漫長等待。

  在可控性層面,Music 2.6 打破了此前 AI 音樂生成中「開盲盒」的體驗,實現了三項關鍵突破:更精準的 BPM 與調性鎖定,創作者設定的節拍速度和調式(Key)將被忠實還原,不再偏離;更精細的段落結構控制,模型對主歌、副歌及過渡段的理解力顯著增強,能夠從容駕馭嚴謹的編曲需求;更深度的情緒掌控,人聲和樂器音色的情緒表達更加精準,創作意圖不再在生成過程中被稀釋。

  人聲方面,Music 2.6 有意褪去了此前版本中「機械般精準」的工業化唱腔,轉而呈現出更具隨性與自由感的真實演唱;器樂方面,模型擴充了樂器種類的多樣性,並優化了整體時序上的演奏邏輯。

  本次最受矚目的新功能當屬 Cover功能上線,支持創作者上傳一段隨手自唱音頻,模型提取旋律特徵,開啓無盡的創作空間。它具備極端的跨風格遷移能力——一首舒緩民謠可瞬間變為狂暴重金屬,古典交響樂可改寫為賽博朋克電子樂。此外還支持填詞翻唱,模型能將全新歌詞嚴絲合縫地嵌入原曲旋律之中。

米哈遊蔡浩宇AI公司發布表演大模型,以假亂真

  米哈遊創始人蔡浩宇成立的AI公司Anuttacon近日發布新一代視頻角色表演生成模型 LPM 1.0(Large Performance Model),並同步上線項目主頁。該模型可實現自定義虛擬角色生成,支持全程自由自主對話,身份一致的長時間穩定性,以及細緻入微的類人表演。

  對於這款大模型的介紹,Anuttacon用了這樣一句話,不僅僅是對話的「腦袋」,而是表演:角色們會說話、傾聽、反應,並且在長時間互動中保持一致。相較於其他視頻生成模型,LPM 1.0重新定義了虛擬人應該如何參與對話,其優勢在於性能質量、情感對話、精準的口型同步、身份保持以及逼真的自然度。

  在該大模型的技術報告中,提到了一個以往此類模型的不可能三角,即在以往的表演中幾乎不可能同時滿足三個核心要求:一是表現力,動作需要自然不重複,能傳達微妙的情緒;二是實時性,生成視頻需要無延遲;三是長時穩定性,角色不能在表演過程中變了,同時衣物、背景等也需要保持一致。以往模型最多智能滿足「不可能三角」其中的兩個,但LPM 1.0解決了這個問題。

  在給出的幾段表演中,虛擬角色基本做到了以假亂真,說話時會伴隨着五官和手部、身體的動作,聆聽時也有微表情和動作,比如點頭、皺眉、尷尬等,「人味」十足。

  在項目演示中,其視頻對話模式可與 ChatGPT、豆包等音頻到音頻(A2A)模型即插即用組合,生成角色視頻,預計可應用於對話式 AI 智能體、交互式 NPC 與遊戲角色、直播與虛擬主播、教育與個性化輔導、遊戲陪伴、娛樂內容陪伴等領域。

  有網友表示,希望米哈遊在未來推出的遊戲如《雨之城》中用上該項技術,也有人希望將其加入米哈遊現有遊戲如《未定事件簿》中,為玩家帶來更具沉浸式的遊戲體驗。

首個國標數字人,商湯如影

  近日,國家標準由市場監管總局(國家標準委)批准發布實施《信息技術客服型虛擬數字人通用技術要求》(GB/T 46483—2025)。作為虛擬數字人領域首個國家標準,該標準規定了客服型虛擬數字人系統的參考框架、功能和性能要求,為數字人在客服領域應用提供了技術支撐。

  商湯憑藉如影直播互動數字人產品,成為第一家獲得虛擬數字人領域首個國家標準符合性測試證書的企業。這標誌着商湯科技在虛擬數字人領域的技術領先性與產品規範化水平再獲國家級權威認可。

  該項數字人國家標準,首次對客服型數字人產品形態、功能邊界和性能指標進行了明確定義,標準規定了客服型虛擬數字人系統化的形象生成、視覺交互、語音交互、情感交互、形象驅動、運營維護等功能要求。

  在性能要求方面,標準提出了2D數字人和3D數字人的分辨率基線,並提出口型驅動準確率不低於90%、手勢交互成功率不低於80%、語音交互成功率不低於85%等技術要求,這些具體指標將有效引導並提升客服型虛擬數字人應用的可用性、流暢性及準確度,為客服型虛擬數字人產品標準化奠定基礎。除了視覺和語音交互外,標準還對情感交互提出明確要求,例如情感交互成功率不低於80%,有望提升客服型虛擬數字人在擬人化方面的表現,進一步增強用戶體驗。

  目前,商湯如影「直播帶貨數字人」已經服務了淘寶、美團京東數千個直播間的客服場景。

(文章來源:上觀新聞)

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10