在AI視頻生成領域,Seedance 2.0帶領着全行業瘋狂內卷。
在短短的15秒之內,只有能給觀衆帶來電影級別視覺享受的模型,纔有可能在這場行業競爭中脫穎而出。
然而,一位靈魂大法師卻另闢蹊徑,在另一個維度上研發出了新的「殺器」。
這個看起來十分中二的稱號,其實屬於米哈遊的前任董事長蔡浩宇。
這位目前仍為米哈遊第一大股東的法師,自卸任董事長職務後,悄悄在新加坡開闢了一片全新的戰場,創立了新的AGI公司Anuttacon。
如今,LPM 1.0這款鑽研許久的最新模型發布,讓AI視頻成功從離線剪輯跨越到了實時的生命體。
更重要的是,這款模型一改往日視頻生成領域只關注畫面是否好看的習慣,轉而讓虛擬角色在數個小時的交互中真正擁有靈魂。
而技術的突破,背後往往隱藏着算力、數據和商業壁壘的深層博弈。
01
AI角色開始呼吸
Seedance 2.0全球稱霸、Sora被OpenAI無情關停,這些重磅消息發出後,AI視頻生成對於大衆來說早已不再陌生。
雖然AI生成的視頻已經足夠逼真,令人難以分辨,但一個長期存在於計算機圖形學和AI視覺領域的困境仍未得到解決:
表現質量(像不像)、實時推理(能不能秒回)和長程穩定性(時間長了會不會崩潰)不可兼得,也被稱為「表演三難困境(Performance Trilemma)」。
因此,當用戶打開即夢、可靈、Sora和Veo時,最先看到的是它們在短視頻領域上堪稱無敵的表現,但之後一旦涉及長時間、實時等現實中確切存在的需求,這些模型的弱點瞬間暴露無遺。
簡單來說,它們已經是非常優秀的攝影師,但還不是合格的表演者。
目前,AI視頻生成的時間上限通常不超過30秒,主要的原因就在於自迴歸漂移。
只要生成時間被拉長,微小的誤差就會以遠超線性的速度累積,最終導致常見的角色臉部特徵驟變、身份不一致或動作不合理等現象。
但LPM 1.0卻實現了一個驚人的突破:它實現了真正意義上的「無限時長」視頻生成。
在官網上,demo演示了誇張的45分鐘視頻。

這種跨越在技術層面上堪稱離譜,畢竟單純堆砌算力是無法從根本上解決這個問題的。
LPM模型的訣竅,在於引入了在線流式生成架構(Online LPM)。
通過一種名為分佈匹配蒸餾的四階段訓練方式,LPM模型將一個170億參數的大型擴散模型直接壓縮成了一個「主幹-精煉器」結構。
其中,主幹網絡負責穩定視頻的粗略軌跡,而精煉器負責還原高保真的表情細節。
這種設計讓模型在內存佔用恒定的情況下,能夠維持近乎永恒的身份一致性。

當然,在人類看來,真正的表演不可能只有「說話」,還要在合適的時機做出合適的反應。
LPM 1.0首次實現了全雙工的音視頻對話,能夠同時處理兩路音頻流。
其中一路是AI自己在說的話,用於驅動口型同步;另一路則是用戶在說的話,用於驅動實時反應。
如此一來,AI就能根據用戶的語氣和停頓,像人類一樣產生點頭、挑眉等微表情。
儘管受限於技術取捨,LPM模型存在畫面不夠真實、清晰等問題,但這種長時間實時交互的能力,足以讓虛擬角色從復讀機進化為數字化的生命。
02
「米哈遊基因」也是一種大數據
說起視頻生成,就不得不提到Seedance 2.0這個行業榜樣。
字節跳動TikTok海量短視頻數據的餵養,正是它成功的關鍵。
但掌握米哈遊41%股權、身為最大股東的蔡浩宇,能為Anuttacon這家新AGI公司帶來什麼?
米哈遊這家知名遊戲公司積累的數據,又能給AI領域提供什麼便利?
答案就在於,精度勝過維度,工業標準勝過原始規模。
這並非意味着LPM 1.0優於Seedance 2.0,更準確的說法應當是兩家企業各自走出了多模態領域通往精細化的技術路線。
相比於字節擁有充足的高質量泛娛樂化、非結構化數據,米哈遊的核心壁壘是將「人類表演學」進行了數字工業化的解構。
在LPM 1.0的技術報告中,被詳細論述的「身份感知參考圖像管線」完美地體現了米哈遊的獨特基因:
這款模型不僅需要一張照片,還需要全局外觀、多視角圖像甚至是8類預定義的表情範例。

相比於從海量無標註視頻中提取特徵,Anuttacon已經能夠提供高度結構化的「表演邏輯」數據,例如78種精細情感和超過5000個動作描述符。
這種對美感和角色塑造的經驗積累和極高品控標準,是坐擁海量數據的通用短視頻平台反而難以實現的。
由此看來,蔡浩宇在領英上給自己起的稱號「靈魂大法師(AI Soulcaster)」並非浪得虛名,其產品開發邏輯正是要讓AI模擬人類表演中的下意識反應。
LPM在訓練階段對傾聽行為多達350萬次的精細標註,準確命中了目前AI虛擬角色設計的痛點:大多數AI虛擬角色「能說但不會聽」。
這也是米哈遊十幾年的遊戲開發經驗帶來的紅利,Anuttacon擁有一套完整的人類交互評價體系,能夠讓模型學會只有人類纔會的對話間隙的呼吸、猶豫和停頓。
這種「工業審美」與「流量數據」是完全不同的技術路線,因此模型表現出來的結果也截然不同:
相比於Seedance 2.0栩栩如生的畫面,LPM 1.0在角色表現力方面實現了電影級的質感,而這種質感,同樣是實現「去AI味」和虛擬世界沉浸感的護城河。
03
不開源的商業必然
在官網的最後,Anuttacon明確表示這款模型不打算開源模型權重和源代碼,也不會以API和產品服務等形式進行商業化盈利。
作為一個性能足以投入工業級生產、甚至足以驅動NPC實時交互的模型,LPM 1.0選擇完全不開源是符合商業理性的必然選擇。
原因也很簡單,在AI視頻生成的虛擬角色這個細分領域,它不僅是一套算法和一個模型,更是一套完整的視覺引擎。
在當前AI的競爭格局中,擁有穩定、實時、長效生成可交互數字化角色的能力,無異於掌握了虛擬世界的唯一門票。
話雖如此,擺在眼前的商業成本仍然是一個繞不過去的難題:
實時生成480P甚至720P的視頻,對算力的消耗極其驚人。
LPM雖然經過了極致的優化能讓單GPU約0.35秒處理1秒的視頻,但在大規模併發的實際應用場景下,硬件成本和運維壓力巨大。

從C端遊戲產品來看,以高價值產品支撐高算力支出這一策略的可靠性存疑。
Anuttacon上一款遊戲《星之低語》採用買斷制上架steam平台,這款以AI實時交互為核心的創新概念遊戲試圖帶給用戶前所未有的情感體驗。
不過,根據反饋,該遊戲的對話仍存在上下文承接問題,市場廣泛認為該遊戲仍處於AI技術驗證階段,33.99元的低定價雖然獲得了一定的市場認可,但顯然無法與算力成本比較。
C端驗證雖然受到阻礙,但LPM的底層能力恰好能平移到對穩定性要求更加嚴苛的B端場景,也就是說,Anuttacon可以走Agent已經走過的路。
官網提到的虛擬主播、AI導師、客服等常見場景對長時間穩定性都有剛需,相比僱佣人類,LPM驅動的AI角色顯然更適合7天24小時的運行模式,再加上能節省昂貴的動捕設備成本,最終的綜合成本極具競爭力。
長遠來看,若是把LPM作為構建UGC平台的基礎設施,就能打破傳統UGC在建模和動畫等方面面臨的門檻限制。
LPM的核心邏輯就在於用戶只需提供一張照片和一段話,AI即可完成所有的表演。
當內容創作的專業門檻進一步降低,離全新的互動媒體形式誕生也就不遠了。
04
結語
綜上所述,LPM 1.0並不是一個試圖在畫質上硬剛Seedance 2.0的模型,而是選擇了表演實時化和生命數字化的垂直路徑。
在行業普遍追求更高質量的像素時,LPM追求的是更久的一致性。
或許,這也是蔡浩宇作為米哈遊聯合創始人對「體驗」這個詞的深刻理解。
在遊戲裏,角色設定只要「崩壞」一次,沉浸感就會永遠消失。
而在AI領域,LPM的目標就是杜絕現有AI因缺乏情感共鳴帶來的恐怖谷效應。
實時生成的呼吸感和微表情,宣佈了虛擬角色在線交互時代的開啓。
即使算力成本高昂,只要能在高端互動敘事等特定領域形成不可替代性,同樣可以掌握定價權。
從實時驅動對話的AI遊戲,到能說能聽的多模態模型,Anuttacon已經在這場無限時長的博弈中搶佔了制高點。
而蔡浩宇的商業野心,也絕不止於米哈遊。