可靈VS即夢：初探「多模態」

文｜硅基星芒

目前國內兩個最火的AI生成視頻平台，非可靈和即夢莫屬。

作為影視外行人和AI愛好者，我準備組建一個純AI的「影視團隊」，看看效果如何。

在正式開始之前，還有一個問題：文生圖+圖生視頻or文生視頻？

兩個平台都具備上述功能，那麼兩條路應該走哪條？

AI給出的答案是：使用「文生圖+圖生視頻」的方法具備更高的可控性；而「文生視頻」的方法能夠讓視頻更有「動態感」。

考慮了一下成本和效率，我還是選擇了可控性優先。

01 第一步：AI編劇，編寫劇本

想拍一部電影出來，首先肯定得有編劇來寫劇本。

我把先前公衆號上發布過的一篇文章，以PDF形式丟給了目前公認性能強大的Gemini 2.5 Pro。

不得不承認，文字方面，AI當編劇確實是綽綽有餘。

分鏡頭腳本寫得有模有樣，像我這種外行人可是完全寫不出來。

尤其是圖生視頻指令，涵蓋了場景、動作、運鏡、風格這些專業化的東西，解決了大麻煩。

02 第二步：AI畫師，繪製「分鏡圖」

前面已經說過，採用「文生圖+圖生視頻」的方式可以提高可控性。

劇本既然已經有了，接下來的任務就是繪製「分鏡」。

我把AI編劇寫好的這些首幀圖片指令，統統交給了騰訊混元這個AI文生圖模型。

相比文字，AI在圖片領域的能力顯然有所下降。

好在混元生圖的美術功底靠得住，給出的大部分圖片質量都不錯，基本符合預期。

當然，也有下面這些「瑕疵品」：

例如，「一條水平的發光進度條，位於畫面下方，滑塊在起始位置。背景是模糊的彩色光影。」

AI顯然是沒能理解指令。

以及，「一條高度精密的汽車生產線，無數機械臂在協同工作，焊接時火花四濺，充滿工業美感。」

這次則是邏輯錯誤，一羣機械臂似乎正在破壞一輛完工的汽車。

03 第三步：AI導演，讓圖片「動」起來

我把前面生成的靜態圖片和圖生視頻指令分別發給本次拍攝的導演——可靈和即夢。

然而，「開機」以後不久，我就遇到了理想與現實的碰撞。

剛開始，看到AI生成的幾個時長5秒的視頻時，我還是挺滿意的。

畢竟，這些動態效果和光影變化在一個外行人眼裏已經非常驚豔，畫面也十分流暢。

不過，隨着生成的視頻越來越多，導演就開始露餡了，各自開始生成一些很奇怪的東西。

問題一：「導演壓根不按照劇本來」

這是最常見的問題，無法容忍的「不聽指令」。

先來看一個讓人哭笑不得的例子：

圖生視頻指令:

場景描述與動作:汽車的前大燈被激活，從一條細線開始，然後突然亮起，射出明亮而銳利的光束。一道微弱的能量光澤沿着車身的氣動線條流動。

運鏡方式:緩慢而富有戲劇性的向上搖鏡頭（Tilt Up），從前輪開始，向上移動到擋風玻璃，讓汽車感覺充滿力量。

畫面風格與質感:「英雄特寫鏡頭」。電影級，精緻，高級感。增加輕微的鏡頭光暈效果。

指令中寫的明明白白，汽車的前大燈被激活，但可靈生成的視頻中卻是從車身中間射出一道光線，多少有點莫名其妙。

相比之下，即夢生成的視頻效果要好一點。

問題二：「牛頓看了都得沉默」的物理和邏輯錯誤

讓AI做物理題，它得心應手；但讓它生成視頻，它似乎又沒完全學會現實世界的物理規則。

「穿模」可以算是家常便飯了，即夢和可靈生成的視頻都存在這個問題，比如：

圖生視頻指令:

場景描述與動作:所有機器以驚人的速度和完美的協調性協同工作，展現出極致的效率。機械臂抓取包裹，無人車流暢地避讓和穿行。

運鏡方式:在倉庫內進行一個長距離、平滑的移動鏡頭（長鏡頭），一鏡到底地展示整個流程。

畫面風格與質感:工業美學，科技感，秩序感。畫面乾淨，動作流暢。

另外，物理運動的實現看起來也很不合理：

圖生視頻指令:

場景描述與動作:一顆閃亮的金色石子投入水中，激起一圈圈巨大而絢爛的彩色漣漪，漣漪擴散的速度非常快，瞬間照亮整個水面。

運鏡方式:俯視視角，緩慢放大（Zoom In）。

畫面風格與質感:詩意，愉悅。用漣漪的爆發來象徵多巴胺的瞬間釋放。

即夢生成的視頻中，金色石子並非被投入，而是直接從水中浮現出來：

可靈則較好地完成了指令內容：

問題三：短時間內的失憶症

AI生成的視頻有一個重大的缺陷，那就是一致性實在是太差。

短短5秒之間，一個鏡頭的主角就可能發生大幅度的變化。比如：

場景描述與動作:錶盤上的分針以極快的速度平滑地旋轉一圈。剛一停下，手錶螢幕上就出現一個柔和的、發光的脈衝動畫。

運鏡方式:靜態特寫。

畫面風格與質感:現代，簡潔，高效。脈衝動畫乾脆利落，代表「送達」的提醒。

即夢生成的視頻，咱們暫且不談「極快的速度」和「脈衝動畫」實現的如何，這錶盤直接就換了個樣：

即夢生成的視頻，咱們暫且不談「極快的速度」和「脈衝動畫」實現的如何，這錶盤直接就換了個樣。

可靈生成的視頻就沒有發生這個錯誤:

如果在這麼短的時間內都無法保證一致性，整個視頻的觀感肯定是好不到哪去。

04 使用感受

對於圖生視頻的AI平台，它們確實是強大的工具，但目前還不是成為合格的導演。

先說可靈，它的表現相對更好一些。

對於物理世界的模擬和動態真實感，它完成的不錯，基本符合現實世界中的物理規律。

其次，可靈對於指令中概念的理解深度和藝術詮釋能力更具優勢。不僅是字面意義，它還能在一定程度上理解文字背後的抽象概念和用戶想要表達的情緒。

而且，可靈似乎並不是一個讓做什麼就做什麼的死板機器。它生成的視頻中，有些畫面並未在文字中寫明，卻能或深或淺地反映主題。

如此說來，它更傾向於一個願意突破邊界進行嘗試的「藝術家」。

另外，根據「影評人」Gemini 2.5 Pro的反饋，可靈具備強大的鏡頭語言掌握力，能夠成功完成「推拉變焦」、「向上搖鏡」等複雜運鏡。

對於可靈生成抽象CG場景，影評人認為在技術質量和美學上都已經達到專業水準。

但是在這位「藝術家」發揮想象力的同時，也帶來了一些問題：

較低的圖像保真度和頻繁的場景重構。

選擇性執行用戶指令和跑偏的創意。

這就是可靈「導演哲學」的必然代價，生成的視頻可能會與預想的畫面相差甚遠。

再來說說即夢，相比藝術家，它更保守一些。

即夢生成視頻的優勢在於極高的圖像保真度和穩定性。

每個鏡頭的主體基本不會出現大幅度的扭曲和變形，畫面也比較穩定。

這就意味着，即夢的「圖生視頻」功能，生成視頻的質量很大程度上取決於圖的質量。

此外，即夢對於複雜構圖的指令也能夠較為精準的實現，它對於指令的理解和執行能力更為可靠。

不過，即夢的缺點在於難以實現物理上的真實感，而且缺乏一些動態邏輯。

上面一些令人匪夷所思的場面大多出自它手。這也是對於概念理解深度不夠、缺乏敘事能力的一種體現。

除此之外，「影評人」也指出，即夢的鏡頭語言理解和執行能力較為薄弱，幾乎無法完成較為複雜的電影運鏡，降低了視頻的表現力。

05 最後的一點想法

兩個模型生成的視頻都已經證明，對於一般的平台用戶而言，高難度指令往往帶來的是失敗的結果，技術的邊界尚未被突破。

技術角度來看：

AI生成視頻領域內，「保真」和「創意」這兩條核心的技術路線仍然存在博弈，不能兼顧。

此外，視頻時長也是目前存在的一大限制。

不管是國內還是國外的AI視頻生成平台，大多將單個視頻的時長嚴格控制在5-10秒內。

單個視頻能夠表達的內容有限，生成長時間、情節連貫的視頻對這一領域仍是巨大挑戰。

而這對於用戶來說，為編寫提示詞增加了難度。

寫的太細緻，模型無法理解，也無法在短短几秒內將內容表達完全；

寫的太粗糙，模型生成的內容往往與用戶的意圖相隔十萬八千里。

成本角度來看：

通過強大的設備和算力進行本地部署，再對模型進行微調，可能纔是生成高質量視頻的可靠選擇。

但，這成本可不是一般用戶承受得起的。

即便是這兩個在線應用平台，會員價格也並不便宜。

單買積分的話，即夢上使用視頻3.0模型+720P+5秒視頻的最基本配置是1元1條視頻；

可靈上使用標準模式+5秒視頻則是2元1條視頻。

但根據我的使用經歷來看，想要生成的視頻能達到一般短視頻的水平，肯定是需要升級配置並多次生成、不斷調試的。

而這個過程，開銷肯定會不斷增長。

因此，導演、攝像師和後期老師們大可以鬆一口氣。

想讓AI生成具備觀賞性的影片，我們不妨再多些耐心。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

可靈VS即夢：初探「多模態」

熱議股票