
「目前暫不支持輸入真人素材作為主體參考。我們深知創意的邊界是尊重。」
這是打開即夢web平台時用戶看到的提示。就在前一天,Seedance 2.0因真人肖像生成能力引發爭議,字節跳動緊急下線了真人人臉素材參考功能。
引發禁令的是影視颶風Tim在凌晨發布的一條視頻,他說Seedance 2.0是「改變視頻行業的 AI」,可他的語氣並不是讚嘆,而是一種警醒。
原因是他發現,僅上傳自己的人臉照片,模型就能自動生成與他本人高度相似的聲音,甚至精準匹配語氣特質。真實地讓人感到害怕。
但在功能下線之前,Seedance 2.0已經完成了一次現象級的出圈。《黑神話·悟空》製作人馮驥在微博上稱其為「當前地表最強的視頻生成模型」,並警告「逼真的視頻將變得毫無門檻」。
印象中在此之前,馮驥給予這麼高評價的,也就是DeepSeek。
自字節跳動開啓 Seedance 2.0開始灰度測試,不到48小時,X、抖音等社交平台充滿了鋪天蓋地各種基於該模型的 AI 視頻。
《火影忍者》、《咒術回戰》、《奧特曼》……基本上你能想到的作品全都有。
海外反應同樣炸裂。X 平台上,一位學習7年數字電影製作的用戶發帖:「這是唯一讓我感到害怕的模型,90% 我學到的技能它都能實現。」
AIGC圈大佬,Sensive和KidsHackClub的聯合創始人萊納斯·埃肯斯塔姆(Linus Ekenstam)直接回復這條X說:「它會讓互聯網崩潰,百分之百。」Hacker News上,更是有人直言「這是2026年最好的視頻模型,超越Sora 2」。
超越Sora尚在其次,更重要的是,物理世界的準確建模被視為通用AGI的關鍵能力之一,而Seedance 2.0讓業內人士看到了實現這一點的可能性。
2月9日,A 股的傳媒、短劇、AI 應用板塊也隨着 Seedance 2.0 的爆火而集體大漲。上海電影、完美世界等公司單日漲幅達 10%,分析師預期該模型將大幅降低製作成本、加速內容生產周期。
爆火背後,問題同樣尖銳。
Sora 2可以說是前車之鑑。剛推出時,Sora 2好評如潮,然而僅僅過去兩個月,留存率就無限接近於零。除此之外,版權風險、數字授權等問題,也已經在Sora 2上面暴露過一次了。
字節會帶着Seedance 2.0,找到另一條出路嗎?
01
什麼是Seedance 2.0
在了解Seedance 2.0火爆之前,不妨讓我們先來認識一下它。
Seedance 2.0支持文本、圖片(最多 9 張)、視頻(最多 3 段,總長≤15 秒)、音頻(最多 3 段,總長≤15 秒)同時輸入,混合上限 12 個文件。
用戶可用圖片定義構圖和角色、視頻指定動作和鏡頭運動、音頻驅動節奏。

相比之下,Sora 2的Cameo功能僅支持單張照片植入,Veo 3和Kling 2.6主要依賴文本加單圖輸入。
這種多模態能力不是簡單的素材疊加。字節引入了@提及系統,這樣就能明確控制每個資源。
在提示詞中,用戶可以寫「 @Image1作為第一幀,參考@Video1的運鏡,使用@Audio1作為背景音樂節奏」。
其最大的好處就是,改變了以往「扔一堆素材給AI,然後碰運氣」的創作模式。
模型採用「Seedance V2運動合成」技術,在重力、動量、碰撞、流體等物理現象的模擬上有明顯改進。
實測顯示,布料飄動、液體飛濺、肢體運動的軌跡更接近真實物理規律,減少了「漂浮感」和物體穿模等常見僞影。
Seedance 2.0還有一個很重要的能力就是精準首尾幀。
用戶上傳起始幀與結束幀圖像後,模型智能推演中間動態過程,確保轉場自然、節奏穩定。這對廣告定格動畫、劇情銜接等強控制需求場景特別有用。
分鏡驅動視頻生成支持按分鏡腳本逐鏡生成,跨鏡頭維持角色外觀、光影邏輯與美術風格一致性。有用戶用Lovart的Skill生成分鏡故事板,直接複製到Seedance 2.0中,生成的視頻比用ComfyUI手工調參做的還細緻。
這說明模型不僅理解單個畫面,還理解鏡頭之間的敘事邏輯。
Seedance 2.0的編輯能力也得到了增強,支持對已有視頻進行角色更替、刪減、增加。用戶可以直接在生成結果中編輯局部畫面,而不是推倒重來。這大幅提升了成片率,也讓創作流程更接近傳統視頻編輯的體驗。
從單一提示詞可生成包含多個鏡頭切換的完整片段。
模型能自動規劃分鏡、執行運鏡(如漸進、環繞、跟隨)、添加剪輯效果(如慢動作、鏡頭抖動)。多鏡頭間保持角色面部特徵、服裝細節、場景光照、敘事基調的一致性,過渡較為自然。
最後就是視聽聯合生成方面,音頻與視覺在創作過程中相互影響。
支持8種以上語言的音素級口型同步,環境音效與視覺事件實時對應。腳步聲匹配角色移動,玻璃破碎伴隨清脆音效。上傳音頻可驅動視頻生成,BGM節拍對應鏡頭切換。
通過火山引擎RayFlow優化,生成速度比1.0版本提升約30%。10秒1080p帶音頻視頻約需2-5分鐘。Pro版本支持原生2K分辨率,視頻可延長至2分鐘,相比Sora 2的15秒上限和Kling 2.6的10秒限制有明顯優勢。
角色一致性機制引入增強版「身份持久性」注意力機制,在不同鏡頭、角度、光照條件下保持角色特徵穩定。面部輪廓、髮型、服裝紋理等細節在鏡頭切換時漂移較少。
02
出圈竟是因為AGI?
在X、抖音等社交媒體上,Seedance 2.0最受關注的內容集中在熱門IP角色的格鬥與動作視頻:真人版七龍珠戰鬥、奧特曼對決、運動廣告。
這類內容的讚好數普遍在數十萬級別。
從視頻的觀感來講,動作場景對物理模擬精度要求極高,任何失真都會破壞可信度。
拳擊手出拳時的重心轉移、擊中目標的形變反饋、被擊者後退距離需符合力學規律。AIGC藝術家DynamicWang用Seedance 2.0製作的Nike風廣告中,四位女性的肌肉線條、動作幅度與其運動項目(體操、拳擊、跑步、游泳)高度匹配。

體操翻轉、武術連續踢腿、跑酷牆面反彈等動作鏈條中,任何一幀的速度、角度、加速度偏差都會產生「機械感」。Seedance 2.0通過時序一致性建模,使動作流暢度接近實拍效果。
格鬥時的揚塵、武器破風聲、衣袂翻飛的褶皺等二次物理效應增強了場景真實感。
物理世界的準確建模被視為通用AGI的關鍵能力之一。
「物體如何運動」「力如何傳遞」「因果如何發生」,雖然這些事情對我們早已司空見慣了,但是對於AI這還是新鮮事。
當AI模型能準確預測拳頭擊中目標後的形變、水花濺起的軌跡、布料隨風飄動的形態,意味着它不再是簡單的「像素生成器」,而是建立了對真實世界運作機制的內部表徵。
楊立昆曾多次強調,AGI必須具備對物理世界的常識性理解。
Seedance 2.0在物理模擬上的提升,本質上是其世界模型能力的增強,模型開始理解物體之間的關係、動作的因果鏈條、環境對物體的約束。
傳統生成模型依賴「數據中出現過什麼,就生成什麼」的統計規律,然而真實世界遵循因果邏輯,推倒多米諾骨牌,後續骨牌必然倒下;拳頭擊中臉部,頭部必然後仰。
Seedance 2.0能夠生成符合物理規律的格鬥視頻,說明模型內部已經形成了某種因果推理能力。
它不是記住了「拳擊的樣子」,而是理解了「力的作用必然產生反作用」這一底層邏輯。這種能力是從「模式識別」向「概念推理」的跨越。
傳統AI是停留在統計層面的擬合,只有當AI理解了物理世界,才能真正與現實交互。
這也是為什麼之前各大廠一直強調多模態。
因為咱們人類的大腦理解物理世界,本質上就是多模態。我們通過視覺看到物體運動,通過聽覺感知碰撞聲響,通過觸覺理解材質硬度,這些感官信息在大腦中融合形成統一的世界理解。
前文提到的Seedance 2.0視聽聯合生成架構,在某種程度上就是模擬了這種多模態融合機制。
當模型能夠理解「重物落地應該發出低沉聲音」「玻璃破碎應該伴隨清脆音效」時,它已經在建立跨模態的因果關聯。這種能力遠超單純的文本生成或圖像生成,已經預示着模型正朝着AGI靠攏了。
還有一點,當前AI研究的共識是,AGI最終需要體現在具身智能上。
原因很簡單,一個能夠在物理世界中行動的智能體,無論是機器人還是自動駕駛,都要求AI準確預測物理世界的動態變化。
Seedance 2.0雖然是視頻生成模型,但它對物理規律的理解能力(重力、動量、碰撞、流體力學)與具身智能所需的能力高度重合。
可以說,視頻生成是具身智能的「沙盒」。
模型在虛擬世界中學會了物理規律,未來可以遷移到真實世界的機器人控制中。而基於Seedance 2.0的那些格鬥視頻,剛好集中體現了模型對力學、運動學、時序因果的綜合理解,這些都是具身智能的核心能力。
GPT、Claude等大語言模型雖然強大,但它們對物理世界的理解是間接的、基於文本描述的。它們可以告訴你「蘋果會掉下來」,但無法真正「看到」重力如何作用。
Seedance 2.0的突破在於,它通過視頻生成這一任務,被迫學習物理世界的直接表徵。
這使得它在通往AGI的路徑上比純語言或靜態圖像模型走得更遠,所以它的運行邏輯更接近人類「看到-理解-預測」的認知閉環。
如果說語言模型是AGI的「左腦」(邏輯與符號),那麼物理世界模型就是AGI的「右腦」(空間與直覺)。
Sora 2在靜態場景和慢節奏敘事上表現較好,但在快速動作場景存在明顯短板。籃球彈跳軌跡、水流形態、布料飄動呈現「夢幻感」而非「真實感」,慢鏡頭下尤為明顯。
角色快速位移(衝刺、跳躍、揮拳)時容易產生運動模糊過度或肢體變形,源於擴散模型處理時序劇烈變化的侷限。
Sora 2 要生成單鏡頭,用戶拼接多個動作片段時,角色動作銜接、速度一致性難以保證。
格鬥視頻需要「出招-閃避-反擊」的多回合結構,這是Sora 2的弱項。社交媒體上Sora 2生成的同類內容常因「動作僵硬」「物理違和」被用戶批評。
字節在短視頻領域的數據積累可能是優勢來源。
抖音每日處理數十億條視頻,這些數據幫助模型理解「什麼樣的運動吸引眼球」「哪種節奏讓人持續觀看」。模型訓練可能使用了大量真實武術、體育、舞蹈視頻作監督信號。
03
字節能從Sora 2上吸取教訓嗎?
OpenAI將 Sora 2 定位為「AI 版抖音」。首日10萬安裝(邀請制 iOS)、4天登頂美國App Store總榜、5天破100萬下載(快於 ChatGPT)。
但Appfigures數據顯示,Sora 2在60天內的下載量出現斷崖式下滑。12月按月下降32%,1月按月大幅下降45%,降至約120萬次。
截至發稿,Sora 2目前已跌出美國App Store免費應用總榜前100名。
Sora 2最大的戰略失誤是試圖複製抖音那套社區文化。
AI生成內容天然缺乏真實人際關係,這是社交網絡的核心之一。用戶在抖音上刷到的是真實的人、真實的生活片段、真實的情感連接。而Sora 2生成的視頻,無論多麼精美,本質上都是算法的產物,缺乏社交網絡賴以生存的人際紐帶。
Seedance 2.0目前的做法更務實,嵌入剪映、即夢等成熟創作工具,作為「功能模塊」而非「獨立 App」。
將自己定位為創作者工具箱的一部分。用戶不是來「刷AI視頻」,而是來「用AI做視頻」。這個定位差異,決定了產品的生命周期。
Sora 2在版權上的搖擺暴露了西方監管環境的困境。
上線初期,因缺乏嚴格管控,用戶曾可生成海綿寶寶、皮卡丘等知名IP角色的視頻,這雖在一定程度上有助於早期推廣,但引發了版權方的強烈反對。
面對壓力,OpenAI將版權使用規則從「默認可選」改為「需明確授權」,也正是因為這種版權內容的變更,導致Sora 2失去了最初病毒式傳播的動力源泉。
目前來看,Seedance 2.0另一大爆火的原因,是創作者利用AI生成了奧特曼、七龍珠等大量知名角色,但同樣存在版權風險,比如下圖中就是趙本山和詹姆斯。

字節因真人素材參考能力引發爭議後,已緊急下線該功能。這說明字節在版權問題上採取了更謹慎的態度,試圖在技術能力與合規風險之間找到平衡點。
但最重要的是,當任何人都能在幾分鐘內生成一段精美視頻,內容本身就失去了稀缺性。用戶真正需要的不是「更多視頻」,而是「更有意義的表達」。
技術再強,如果不能回答「用戶為什麼需要這個」的問題,最終都會淪為玩具。
AI生成的視頻雖然精美,但往往缺乏核心的情感內核與持續的敘事價值。許多用戶在社交平台上反饋,在最初的新鮮感褪去後,Sora 2生成的內容逐漸趨同且無趣。
Seedance 2.0若想長期存活,需要回答一個問題:在AI讓視頻生成成本趨近於零的時代,你為用戶創造的核心價值是什麼?是節省時間?是實現創意?還是建立身份認同?
從目前的產品策略來看,字節選擇了「工具」而非「平台」的路線。
但工具路線也有自己的挑戰。當可靈、Sora、Veo都在提供類似能力時,用戶憑什麼選擇 Seedance 2.0?答案可能不在技術本身,而在生態整合的深度。
字節擁有抖音、剪映、即夢的完整創作生態,Seedance 2.0如果能與這些產品深度打通,形成從靈感到發布的閉環,就能建立起其他競爭對手難以複製的護城河。
不過歸根結底,版權問題是永遠不會消失的,技術能力的邊界也會不斷被競爭對手追平。真正決定Seedance 2.0命運的,是字節能否在爆火的窗口期內,將流量轉化為用戶習慣,將技術優勢轉化為生態壁壘。
答案可能決定了它是成為字節的下一個抖音,還是下一個 Sora 2。