騰訊開源混元Voyager：霸榜三大評測，碾壓所有對手

Voyager世界模型的發佈為多個行業帶來顛覆性變革。在VR/AR領域，它能從單張圖片生成一致的3D點雲，大幅降低開發成本；在遊戲開發中，自動化3D場景生成能力顯著提高效率；影視製作方面，相機可控視頻生成解放了創作自由度；建築規劃領域可快速將設計轉為可探索的3D場景；教育培訓則能提供沉浸式學習體驗。

在人工智能和計算機視覺這個圈子裏，3D場景生成一直是個公認的硬骨頭。

虛擬現實 (VR)、增強現實 (AR)、遊戲開發這些熱門領域，哪個不嗷嗷待哺，等着高質量、能互動的3D場景投餵？需求一天比一天大，但技術瓶頸卻始終卡在那裏。

騰訊混元團隊甩出了一張王牌——混元世界模型-Voyager（HunyuanWorld-Voyager）。號稱業界首個支持原生3D重建的超長漫遊世界模型，聽上去就是要給3D場景生成領域來一次徹底的“改朝換代”。

咱們先聊聊，這事兒為什麼這麼難？

一直以來，搞3D場景生成的技術路線都挺糾結的。一條路是純搞視頻生成，優點是畫面能連續動起來，給你一種沉浸感。但缺點也致命，你看的只是個“影像”，沒法真正跟場景互動。想在裏面搞個物理仿真或者VR體驗？那基本沒戲，因為它壓根沒有真實的3D結構。

另一條路就頭鐵一點，直接上手生成3D世界。這條路聽起來很美好，空間結構一致性強，後續應用拓展性也好。可問題是，高質量的3D訓練數據去哪找？又貴又少。而且3D表徵那巨大的內存佔用，讓模型很難泛化到更多樣、更宏大的場景裏去。兩條路，似乎都有點走不通。

混元世界模型-Voyager打破了傳統視頻生成在空間一致性和探索範圍上的天花板，不僅能生成超長距離、全局都對得上的漫遊場景，最牛的是，它還能把生成的視頻直接導出成3D格式。這一下，就給虛擬現實、物理仿真、遊戲開發這些領域送去了最需要的高保真3D場景漫遊能力。可以説，Voyager的出現，正式宣告3D場景生成技術進入了下一個時代。

用騰訊混元團隊自己的話説，Voyager是混元世界模型1.0的官方擴展。要知道，距離他們發佈HunyuanWorld 1.0 Lite版才過了短短兩週。這種迭代速度，只能説騰訊在AI領域的研發實力和投入確實有點“恐怖”。

所以，這玩意兒到底是怎麼做到的？

混元世界模型-Voyager的背後，是兩個“神仙打架”級別的核心組件在協同工作。正是它們的設計，才讓長距離、世界一致的視頻生成和3D重建從理想照進了現實。

第一個組件叫“世界一致的視頻擴散”（World-Consistent Video Diffusion）。你可以把它理解成一個既懂藝術又懂物理的“導演”。傳統的視頻生成模型，大多是“文藝青年”，只管畫面好不好看（生成RGB視頻），完全不管物理世界的深度信息。

但Voyager這位“導演”不一樣，它在生成視頻的時候，創新性地把場景深度預測也給加了進來，相當於同時搞定了視頻生成和3D建模兩件事。它能根據你給的初始畫面和指定的相機移動軌跡，合成出可以自由控制視角、空間上完全連貫的RGB-D視頻。這個“D”就是深度（Depth）的意思，意味着視頻的每一幀都自帶了3D點雲信息。

這一招的厲害之處在於：

首先，它是多模態聯合生成，RGB視頻和深度視頻同步產出，而且保證精確對齊，直接省去了後期處理的麻煩，數據質量還高。

其次，它通過一個基於現有世界觀測的條件生成機制，確保你生成的視頻不管拉多長，從頭到尾在視覺上和幾何結構上都是統一的，不會出現走着走着牆歪了、桌子沒了的詭異情況。

最後，它還是端到端生成，不像老辦法那樣需要COLMAP這類額外的3D重建工具來“打補丁”，天生就保證了跨幀的一致性。

第二個組件叫“長距離世界探索”（Long-Range World Exploration）。如果説第一個組件是“導演”，那這個組件就是個擁有無限精力的“勘探隊”。它解決的是傳統模型跑不遠、跑着跑着就迷路的問題。

它的核心法寶是一個高效的“世界緩存”機制。具體來説，它會先用混元世界模型1.0生成一個初始的3D點雲作為“基地”，然後把這個“基地”的信息投影到你想要去的新視角，給擴散模型當“導航”。

為了應對越來越大的場景，這個“勘探隊”還學會了“點雲剔除”技術，聰明地管理和優化海量的點雲數據，大大提升了計算效率。更妙的是，它採用了一種自迴歸的推理方式，簡單説就是“邊走邊看邊記”。新生成的視頻幀會實時更新那個“世界緩存”，形成一個閉環系統。

這樣一來，無論你的相機軌跡多麼風騷，它都能保持幾何上的一致性，不僅把漫遊範圍拓寬了，還能反過來給混元世界模型1.0補充新的視角內容，讓整體生成質量更上一層樓。再加上一個叫“上下文感知的一致性技術”來保證視頻採樣絲滑流暢，最終給你的就是電影級的沉浸式體驗。

把這兩個組件合在一起，Voyager就能實現從一張靜態圖出發，生成一個全局一致的3D點雲世界，然後讓你拿着“虛擬攝像機”，想怎麼逛就怎麼逛。逛的同時，它還把帶精確深度信息的RGB視頻一起生成了，高質量的3D重建簡直是信手拈來。

用“暴力美學”喂出來的大模型

要訓練出Voyager這麼一個“怪物”，得餵給它多少“精神食糧”？他們搭建了一套堪稱“數據永動機”的引擎——一個全自動的視頻重建流水線。這套系統能把任何輸入的視頻，自動估算出相機位姿和真實的度量深度。這意味着什麼？意味着他們徹底擺脫了昂貴又耗時的人工標註，可以規模化、多樣化地生產訓練數據。

這個數據引擎的工作流程大概是這樣的：

先把視頻扔進去進行預處理，挑出質量好的幀。然後，用上了SLAM (同步定位與地圖構建) 和捆綁調整算法，自動算出每一幀的相機位置和朝向，這是訓練相機可控模型的關鍵。

接着，用深度估計模型預測出每一幀畫面的深度信息，和RGB圖像配對，就成了Voyager最愛喫的“RGB-D套餐”。最後，系統還會自動檢查對齊和驗證數據質量，把不合格的樣本踢出去。

靠着這套自動化流水線，團隊整合了真實世界裏拍的視頻和用虛幻引擎渲染的視頻，硬是攢出了一個包含超過10萬個視頻片段的超大規模數據集。這個數據集不僅量大管飽，而且來源多樣，涵蓋了各種場景和風格，並且每一份數據都自帶了相機位姿和度量深度這些寶貴的“標籤”。

正是這個高質量、多樣化的大數據集，才把Voyager“喂”得如此強大。

在檢驗成果的時候，研究團隊用了一個叫RealEstate10K的公開數據集來當“考官”。這個數據集來頭不小，是從YouTube上大約1萬個視頻裏扒出來的，包含了大約1000萬幀圖像和對應的相機運動軌跡，是評估視頻生成和3D重建任務的黃金標準。Voyager的很多關鍵性能，就是在這個數據集上跑出來的。

光説不練假把式

了測試Voyager到底有多能打，騰訊混元團隊從視頻生成質量、三維場景重建能力和世界生成能力三個維度，對它進行了一次全方位的“大考”。

首先是視頻生成質量。研究團隊把Voyager和四種主流的開源相機可控視頻生成方法放在一起同臺競技。他們在RealEstate10K測試集裏隨機挑了150個視頻片段，用PSNR、SSIM和LPIPS這三個業界公認的指標來打分，分別衡量生成畫面和真實畫面的感知相似性與結構一致性。

結果怎麼樣？看錶就知道了。

Voyager在所有指標上都實現了全面領先，可以説是毫無懸念地拿下了第一。PSNR指標達到了18.751，比第二名高了將近0.5；SSIM指標是0.715，同樣力壓羣雄；LPIPS指標則是越低越好，Voyager的0.277是全場最低分，説明它生成的內容在人眼看來和真實的視頻最像。

再看看具體的生成效果對比，差距就更明顯了。尤其是在最後一組例子裏，只有Voyager成功地保留了輸入圖像中產品的細節特徵。反觀其他幾個方法，要麼就產生了明顯的瑕疵，要麼就像第一個例子裏那樣，當相機運動幅度一大，直接就“崩了”，生成了完全不合理的結果。

接下來是更硬核的場景生成質量評估。因為對手們都只能生成RGB幀，研究團隊還挺“貼心”地先用一個叫VGGT的工具幫它們估計相機參數，再用它們生成的視頻來初始化點雲。

而Voyager這邊就輕鬆多了，因為它直接生成RGB-D內容，根本不需要任何中間處理，就能直接拿去做高質量的3D Gaussian Splatting (3DGS) 重建。

從表格數據可以看到，即便是在對手們都用了VGGT“外掛”的情況下，Voyager的重建結果依然是最好的，這説明它生成的視頻在幾何一致性上確實更勝一籌。而當Voyager使用自己生成的深度信息來初始化點雲時（也就是完全不用後處理），效果還能更上一層樓，這直接證明瞭它那個深度生成模塊的強大之處。

從定性結果看，比如在最後一組的吊燈例子裏，Voyager很好地保留了吊燈的複雜細節，而其他方法連基本形狀都重建不出來，高下立判。

最後，是世界生成能力的終極考驗。團隊把Voyager拉到了WorldScore這個靜態基準上進行評測。這個基準由斯坦福大學李飛飛團隊提出，是專門用來統一評估世界生成模型的，含金量極高。

結果再次震驚全場。Voyager以77.62的綜合得分雄踞榜首，把其他模型遠遠甩在身後。在各項細分指標裏，它在物體控制、內容對齊、風格一致性和主觀質量四個方面都是第一，相機控制排第二，3D一致性和光度一致性也表現優異。

這充分説明，Voyager在相機運動控制和空間一致性上，已經具備了和頂級3D方法一較高下的實力。特別是在主觀質量評價上拿到最高分，再次驗證了它生成視頻的視覺真實感。

所以，這將如何改變我們的世界？

Voyager的發佈，絕不僅僅是一次技術參數的刷新，它真正開啓的是一片廣闊的應用藍海。作為第一個能打通“超長漫遊”和“原生3D”的的世界模型，它給好幾個行業都帶來了顛覆性的想象空間。

在虛擬現實 (VR) 和增強現實 (AR) 領域，Voyager簡直就是天降甘霖。過去，VR/AR應用裏的3D場景基本靠“堆人力”，建模師們苦不堪言，不僅耗時耗力，還很難搞定大規模場景的實時生成。現在Voyager來了，

從一張圖就能生成一個世界一致的3D點雲，還支持你自定義路徑去探索。這意味着開發者可以光速生成大規模的3D場景，開發週期和成本雙雙打折。而且，它生成的RGB-D視頻可以直接用於渲染，效率直接拉滿。

遊戲開發行業同樣迎來了福音。傳統遊戲開發裏，3D場景建模是個重活、苦活。而Voyager的自動化3D場景生成能力，就是給遊戲開發者送上的一把“神器”。無論是做遊戲原型的快速開發，還是像開放世界遊戲那樣需要超大地圖的場景生成，Voyager都能大大提高效率。它甚至能根據用戶的輸入實時生成動態內容，給遊戲玩法帶來了更多可能。

對於影視製作和動畫領域，Voyager的相機可控視頻生成能力，讓創作變得更自由。過去那些複雜的鏡頭運動，現在可能只需要輸入一張圖和一條相機路徑就能搞定。這不僅是效率的提升，更是創作自由度的解放。

在建築與城市規劃領域，Voyager則是一個強大的可視化工具。設計師們可以快速地將他們的設計草圖或照片，變成可供自由探索的詳細3D場景，與客戶和同事的溝通效率將發生質的飛躍。

甚至在教育與培訓領域，Voyager也能大放異彩。想象一下，醫學生可以在Voyager生成的精細3D人體器官模型裏進行虛擬解剖學習，工科生可以拆解和觀察複雜機械的3D結構，這種沉浸式的學習體驗，效果遠非書本和PPT可比。

混元世界模型-Voyager的發佈，漂亮地解決了傳統路線上的核心矛盾，為業界樹立了一個全新的技術標杆。

騰訊混元團隊也表示，Voyager與之前的混元世界模型1.0和1.0 Lite版共同構成了完整的技術體系。

隨着它的開源，更多的開發者和研究者將能站在這位“巨人”的肩膀上，去探索和創造更多可能。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券