Seedance 2.0奪取Sora寶座後,AI視頻生成賽道進入了狂熱與焦慮並存的階段。
哪怕功能強大如Seedance 2.0,仍然無法打破這個領域的「不可能三角」:
模型規模、生成時長和推理速度總是難以同時實現。
想要Seedance 2.0一樣的電影級畫質,那就必須得有字節一樣的大廠設計出的百億參數多模態模型,代價則是最多15秒的視頻時長、昂貴的單次生成費用和十幾分鐘的等待時間。
想要快速出片,那就必須向參數量妥協,用1B左右參數的小模型,代價則是畫面模糊、細節丟失,超過10秒就開始崩潰。
如果無法實現高質量、實時的長視頻,那AI視頻生成就永遠走不到電影那一步。
不過,推出了Seedance 2.0這個曠世神作的字節跳動,野心遠不止於此。
由北京大學和字節跳動等機構聯合推出的Helios大模型,正在試圖用利刃劈開這個「不可能三角」。

Helios是首個能在單張英偉達H100顯卡上,以19.53幀/秒(FPS)的速度運行的14B參數大模型。
這個參數量,雖然談不上輕量級,但和各家AI大廠的旗艦版大語言模型比起來,它也只能算是個「迷你版」模型。
「身材」雖然略顯瘦弱,但它的畫質卻能匹敵當前最強一檔的模型,還能用接近「實時」的速度,連貫生成長達數分鐘的視頻。
01
噩夢般的「長程漂移」
使用過即夢、可靈、Sora的用戶應該普遍產生過一個疑問:為什麼視頻生成最多也就10秒或者15秒?哪怕用戶再有錢,也無法打破這個限制。
實際上,這不僅是算力上的問題,就算強制增加生成時間上限,生成視頻的效果恐怕也不會盡如人意:
AI生成的視頻往往在前幾秒的畫面無比驚豔,但隨着時間推移,畫面質量就會快速下降,比如主角無法保持面部特徵、肢體結構開始突變、背景逐漸扭曲、動作不符合物理邏輯等等。

這就是「漂移」現象。
AI生成視頻的過程,其實和大語言模型問答的過程類似。大語言模型需要根據記憶和上下文作出下一步的回答,多模態模型也需要「根據歷史,畫出未來」。
在FPS固定的情況下,視頻越來越長,幀數也越來越多,這就意味着AI需要從每一幀中記住的信息呈幾何倍數暴增。
而在這個過程中,哪怕前面生成的畫面只出現了一絲極其微小的瑕疵,也會在後續的生成中不斷被累積和放大,最終導致全面崩潰。
為了解決這個問題,早期學術界想出的最直觀的方法是在訓練AI時,讓它一次性生成長片段以避免瑕疵擴大,但這種強化學習的方法不僅容易產生欠擬合和過擬合的問題,算力消耗成本更是令人無法承擔,百億參數的大模型根本用不起,10億參數已經是極限。
因此,Helios的研究團隊意識到,還得從視頻生成的過程中找問題。

他們首先注意到,長視頻發生崩潰往往伴隨着畫面亮度和色彩的整體失控,但視頻的開頭幾秒往往不會發生這個問題。
於是,「首幀錨點(First Frame Anchor)」機制就此誕生。
研究團隊將視頻的第一幀錨定為整個生成過程的「定海神針」,AI在後續漫長的生成過程都必須緊緊「盯住」第一幀,鎖定全局的外觀分佈。
無論提示詞中要求後續畫面如何發展,第一幀確立的整體色調和人物身份都可以隨時將AI拉回正確的軌道,杜絕「畫風突變」。
但即便如此,瑕疵的出現仍然是不可避免的,因此必須讓AI學會如何處理這種「不完美」。
Helios在訓練階段採用了一個特殊的手段:幀感知破壞(Frame Aware Corrupt)。
簡單來說,就是隨機向AI依賴的歷史畫面加入各種瑕疵,讓AI通過強化學習降低對歷史畫面的絕對依賴,並學會根據常識修復各種問題。
經過這種方式的訓練,Helios對誤差的容忍度極高,視頻再長也不容易崩潰。
最後一個要解決的問題是位置偏移和重複運動。
AI在生成視頻過程中的位置編碼是絕對的,當生成的視頻長度超過了AI在訓練時見過的最大長度,注意力機制紊亂導致畫面會閃回到最初的位置。
Helios將位置編碼改為相對參考,不再關注「這是第X幀」,而是關注「這是過去幾幀的延續」,從根源上斬斷了動作的周期性重複。
02
算力的「魔術」
畫質崩壞的問題在軟件層面上得到了解決,但更難的挑戰出現在硬件層面上:
140億參數說少不少,如何讓它在僅有一張顯卡的情況下實現19.5 FPS的實時運行?
AI視頻生成的本質和大語言模型並無區別,普遍採用的Diffusion Transformer(DiT)架構同樣使用自注意力機制來捕捉視頻的空間細節(單幀內容)和時間連貫性(幀間運動)。
但由於向量空間中圖像的維度比文本更高,視頻中每一幀的內容所需要的計算量遠比大語言模型的一次問答要多。視頻延長短短几秒,計算量和佔用的顯存就要指數級增加,必須使用GPU集群來分攤壓力。
用算力換畫面質量和視頻時長,Sora的關閉和Seedance 2.0發布後的「降智」已經給出明確回答:在商業視角行不通。
Helios果斷選擇了其他路線,這套名為「深度壓縮流(Deep Compression Flow)」的底層重構方案,從token縮減、步數蒸餾到顯存管理,幾乎榨乾了GPU的所有潛能,像變魔術一樣上演了「見證奇蹟的時刻」。
1.token視角:時空維度極限壓縮
首先要解決的是視頻上下文過長導致爆顯存的問題,Helios給出的解法是對時空維度進行非對稱壓縮。
前面啱啱說過,AI生成視頻是「根據歷史,畫出未來」。因此,要準備多久的「歷史資料」是一個關鍵的問題。
對於人類來說,記憶類似於數據結構中的「棧」,後進先出:我們對前一秒發生的事情記憶猶新,對十分鐘前發生的事則略顯模糊。
Helios根據仿生學完全借鑑了這種多期記憶分塊的機制,將AI需要回顧的歷史畫面分成三種:短期、中期和長期。

對於幾幀前啱啱過去的畫面,Helios保留最高清的細節;對於多幀之前比較久遠的畫面,Helios對其進行高強度的壓縮,只保留最粗略的全局佈局。
這個簡單的思路,讓Helios在回顧非常久遠的歷史畫面時,消耗的token仍然能保持在一個極低的恒定水平,歷史信息的顯存佔用直接壓縮到了原先的八分之一,徹底打消了單卡運行「爆顯存」的無解難題。
在生成畫面時,Helios也沒有直接在最高分辨率下開始生成,而是採用了自底向上的開發策略。
這類似於畫家繪畫的過程,先在低分辨率下快速勾勒出整體的顏色和佈局輪廓,再逐層放大,精雕細琢邊緣和紋理等細節。
早期的去噪決定宏觀結構,後期的去噪用於優化細節,利用這種任務拆解的機制,能夠再將計算量降至一半以下。
2.步數視角:對抗性分層蒸餾
AI視頻生成之所以慢,是因為傳統的擴散模型需要經過50步左右的反覆去噪過程。
過去的視頻生成模型在學習如何一步到位時,為了防止忘記歷史畫面而「斷片」,必須通過「模擬展開推理」來訓練。
模型生成一段視頻後,不僅要靠獎勵模型評判好與壞,還要續寫幾段模擬未來的長視頻。
毫無疑問,這樣做的結果就是耗時極長和顯存爆炸。
但Helios採用的是「純教師強制(Pure Teacher Forcing)」模式,讓模型無需模擬未來的視頻,而是直接把海量的真實連續視頻切片作為唯一的參考標準餵給模型。
模型每次訓練,只專注於在給定的真實歷史畫面下,「完美地畫出下一小段」,去掉了複雜的模擬過程使得訓練效率指數級躍升。
在去噪過程中,還存在類似大語言模型一樣的蒸餾機制。
但知識蒸餾總是存在一個致命缺陷:學生的上限不會比老師高,但下限可能比老師低。一旦缺點被放大,生成視頻的質量自然也會有所下降。
為此,Helios引入了基於真實視頻的對抗性後訓練,如果學生經過去噪過程產出的結果只是對老師的模仿,缺乏真實的物理細節,就打回重做。
這種嚴格的訓練方式,奇蹟般地將原來需要50步才能實現的畫面保真度直接壓縮到了短短3步之內。
3.顯存視角:重構調度機制
GPU顯存是固定的,但模型中卻有多個子模型要串行計算。
為此,研究團隊設計了一套高級的調度機制,利用專屬的數據通道,只在GPU中保存正在計算的子模型,一旦結束計算處於閒置狀態,瞬間將參數轉移到CPU中待命。

對於PyTorch等現代AI訓練框架,前向計算時中間變量會被保存到顯存中以便反向傳播時使用。
研究團隊注意到這個環節後,直接打破了框架底層的計算邏輯,只要梯度計算完成,立即手動觸發程序並在毫秒級別內釋放激活狀態,硬是節省出了一倍以上的空閒顯存。
除此之外,官方的深度學習框架還有很多隱藏着的數據傳輸損耗。
研究團隊為了進一步加速視頻生成,直接繞開了PyTorch,使用底層編譯器語言Triton來編寫核心代碼,甚至在傳統的注意力機制計算過程中,直接在內存佔用複雜度中剔除了一個乘數維度。
正是這一系列從算法底層到顯存調度的極限壓榨,讓14B參數的大模型在H100上跑出了奇蹟。
03
Helios:重構AI視頻的商業版圖
一項底層技術的突破,往往可能引發產業鏈的地震,而Helios恰好誕生於發明了Seedance 2.0的字節跳動。
這個說大不大、說小不小的模型,卻具備「高質量+實時+單卡+長時間」這個前所未有的特性組合,並精準擊穿了AI視頻商業化的壁壘。
Sora的關閉、Seedance 2.0發布不久後就被發現「降智」的事實,說明阻礙AI視頻大規模在ToC端落地的最大障礙就是高昂的價格。
近一年來,市面上效果尚可的視頻生成模型,生成一次10秒左右的視頻都需要消耗極高的算力成本。
採用訂閱制的情況下,現有的調用量只會讓AI公司虧本;即使開放API給B端企業,不僅技術層面上存在差距,想要靠模型產出商業化成品所需的費用也會讓開發者望而卻步。
但Helios將14B模型的運行門檻直接拉低到了單張H100,且吞吐量極高。
儘管消費級顯卡還是無能為力,但這仍然意味着雲廠商和SaaS平台的單路併發成本將被大幅削減,而且API的商業模式可能迎來質變。
現有的按生成次數付費的積分制,未來可能轉變為和大語言模型一樣的按token計費。
只有當生成成本足夠低時,多模態模型才能從「奢侈品」變為像大語言模型一樣的基礎設施。
Helios帶來的另一個顛覆性的商業想象,是AI視頻生成即將摘下「離線渲染」的標籤,走向實時互動的引擎。
無論是Seedance 2.0還是Sora,本質上仍然是高級的離線渲染器:用戶輸入提示詞、模型開始生成內容、等待一段時間、收穫一段「開盲盒」的視頻。
這種非實時的交互,註定只能作為內容製作的素材生產工具。哪怕效果再差,錢也得照樣付。
但Helios已經展現出實時互動引擎的雛形。19.5 FPS的速度和上下文的連貫記憶,簡直是為交互式生成量身打造。
如果未來用戶可以在視頻生成的播放過程中動態修改指令,將會直接打開世界模型、沉浸式體驗甚至具身智能等商業空間。
Helios的出現,給整個AI視頻生成賽道的玩家都指明瞭新的方向:
與其通過削減參數換取生成速度,不如在記憶管理、蒸餾機制和顯存調度上多做文章。
技術的護城河,就建立在對底層架構的極限重構之上。