字節越來越像 Google:字節跳動距離 Google 這樣的頭部公司,大概只差六個月

市場資訊
02/14

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

  來源:AI產品阿穎

  不知道 DeepSeek V4 最近還會不會來。來的話,還能不能像去年那樣,在全球範圍引起一輪振奮。

  但至少這周,Seedance 2.0 讓我們重新感受到了去年那種時刻。真的很激動。

  記得前段時間 DeepMind CEO Demis Hassabis 在一次訪談裏說過,字節跳動距離 Google 這樣的頭部公司,大概只差六個月。不是一兩年,是六個月。

  Demis 平時表達很剋制,沒有咋咋呼呼。所以我當時聽到他說這個判斷,愣了下。關鍵的是,他提到中文公司時,只點了字節。

  坦白講,在那個時間點,我心裏是存疑的。那時候國內模型很多家都在衝 SOTA,排行榜成績此起彼伏,並沒有哪一家形成壓倒性的優勢。

  字節當然在發模型,但並沒有給人一種明顯領先的感覺。所以那句話我記住了,卻沒有真正認同。

  直到這個月,直到這兩天。

  Seedance 2.0 出來之後,我覺得所有人都該重新回味一下 Demis 那個判斷。甚至我個人感覺,字節和 Google 的模型差距,可能已經縮小到一兩個月了。

  我越來越覺得,評價一個模型好不好,方式正在變。

  Benchmark 肯定依舊重要,但真正有說服力的,是用戶的口碑傳播。因為現在模型已經司空見慣了,能力到底強不強,用兩次就知道了。

  這些比分數直接得多。

  Seedance 2.0 這一輪就是這個感覺。我朋友圈那麼多人,都在說經驗、震驚之類的詞。我自己也是,用一次,就覺得像變天一樣。

  連賈樟柯這樣之前對 AI 視頻很保守的人,這兩天也開始動搖了,說它計劃用 Seedance 2.0 拍個短片。

  Seedance 2.0 這一輪的表現,讓很多人第一次產生一種共識:字節可能已經站在世界第一梯隊。

  除了 Seedance 2.0,字節還發了另外兩款模型。一個是圖片模型 Seedream 5.0 Lite。一個是今天剛發的豆包大模型2.0,火山引擎已經上線API。

  #01

  Seedance 2.0

  先說個我自己的經歷。

  我們團隊最近在做一個 AI 短片,圖片部分已經全部抽完了,前面也用其他模型跑了大概四分之一的視頻片段。但說實話,驗片的時候我一直覺得不太對。

  具體哪裏不對,我說不上來。我們團隊沒有人是做影視出身的,大家都在摸索。

  我就是覺得片子差點意思,開頭氛圍感不夠,運鏡方式好像也不對,總之自己看着不舒服。很難看下去。

  卡了一周,Seedance 2.0 出來了。

  我試了一下,迅速做了一個決策。之前做完的那部分全部推翻,用 Seedance 2.0 重新來。

  原因很簡單。我只需要用自然語言說清楚自己要什麼,它生成出來的視頻片段,包括運鏡、畫面、聲音,都遠超我們的預期。

  有時候我們自己在表達想法的時候,也不一定完全知道要什麼,但出來的效果,確實好。

  而且 Seedance 2.0 的指令遵循能力相當強。哪怕提示詞很長,它也能理解我們的意思。

  之前很多模型不是這樣的,稍微複雜一點,它就選擇性地挑一部分遵循,幻覺很嚴重。Seedance 2.0 基本解決了這個問題。

  現在 Seedance 2.0 出於肖像保護,已經沒辦法上傳真人照片了。有點可惜。

  但換個角度想,我們完全可以用它來做動漫短片。就像小妖怪的夏天那種風格的片子,現在百分之百可以做到。

  Seedance 2.0 一下子讓這件事越過了臨界點。之前你問我行不行,我會說還在臨界點前後徘徊。這次,直接過去了。

  這就是突破。

  所以你就能理解,為什麼黑神話悟空的馮驥會那麼激動。他說 AI 的童年時代結束了。說得準確。

  確實結束了,AI 視頻已經完全可用了。接下來,這個行業一定會有新的東西湧現出來。

  說了這麼多,我們實際來看看他的效果。

  下面這個案例,大理石材質的動態效果做得非常不錯,小心翼翼的表情、吞嚥動作、飲料液體的流動細節也到位。說白了就是物理邏輯理解得很牛逼。

  提示詞:

  再來看一個案例,之前做這種跨畫風的轉場基本得靠抽卡抽到死。

  但在 Seedance 2.0 裏,它很輕鬆地就能完美承接我輸入的提示詞中複雜的轉場邏輯。那種從第三人稱切到主觀視角的絲滑感真的很頂。

  提示詞:

  #02

  Seedream 5.0 Lite

  Seedream 5.0 Lite 是字節最新的圖片模型。目前即夢還沒上,很多人不知道。但在火山引擎裏已經能體驗了。

  這次的圖片模型主要提升了兩方面的能力。

  第一,主體一致性。

  我拿我們家孩子的照片做了測試。以前 4.5 版本也能生成,但總有一點說不上來的出戏感。五官像,神態差一點,細節容易漂。

  尤其多出幾張圖的時候,感覺像是不同小朋友。這次就穩了很多。反正我老婆說她覺得過年已經不用去影樓了。確實主體的一致性比之前好了很多。

  第二個,指令遵循能力。

  先給大家看個案例。這是我拍的我們村的照片。我的提示詞是:挖掘機的黃色換成紅色,左邊要倒塌的屋頂給它修好。

  這個效果還是非常驚豔。其實這就是 Nano Banana Pro 的編輯圖片能力。

  指令的遵循能力,確實是圖片模型現階段最重要的壁壘,因為大家日常最重要的場景,其實是改圖。

  包括生圖的能力,最終還是要拼改圖的能力。因為沒人能夠一次性就把想要的圖片想清楚。

  #03

  豆包大模型 2.0

  我才體驗了一個來小時。簡單說結論,豆包 2.0 在複雜的深度推理和 Agent 任務上,有了非常明顯的進步。

  我還在測試,跑了幾個場景,效果比之前的 1.8 版本好了一個數量級。

  豆包 2.0 其實是一個系列,包括 Pro、Lite、Mini 三款多模態通用模型,以及一款面向 Coding 場景的編程模型。

  下面這是 Pro 模型的表現。

  這次 2.0 我覺得有三個值得說的地方。從這些地方,也能看出來字節模型的打法。

  第一,原生多模態。

  多模態一直是字節的優勢,豆包大模型 2.0 也是目前為數不多的原生多模態模型。

  原生是什麼意思?就是它不需要外掛一個專門理解圖片的插件,模型本身就能看懂文本、圖片、視頻,就像人一樣,眼睛和大腦是一體的。

  之前很多模型怎麼做的呢?文本理解用一個模型,圖像識別用另一個模型,中間再加一層橋樑把兩邊的信息對接起來。

  這樣做的問題是,信息每多傳一道手,就會有損耗。

  你可以想象兩個人通過翻譯交流,哪怕翻譯水平再高,也不如直接用同一種語言聊天來得順暢。

  豆包 2.0 這次進一步升級了多模態能力。目前,在通用模型上,它的視覺理解能力應該是好於目前我們看到的所有模型了。

  包括 Opus 4.6。其實 Opus 4.6 也並非原生多模態模型,它的推理能力可以,但多模態能力一直一般。

  第二,原生 Agent 能力。

  現在所有頭部模型都在往 Agent 方向跑,豆包大模型 2.0 同樣把這塊作為重點。

  道理很簡單,純聊天的 chatbot 時代過去了。你問它一個問題,它回你一段話,這事已經沒什麼壁壘了。

  接下來一個模型有沒有戲,關鍵就看它能不能真正幫你把事情做完。

  什麼叫做完?比如你讓它寫一篇科技文章,它得先自己規劃怎麼寫,然後去搜資料,搜完了做歸納,歸納完了寫初稿。

  寫完還能根據你的新要求調整結構、補充章節,最後甚至幫你生成封面圖、排好版。

  中間每一步都不需要我們手把手盯着,它自己會反思、自檢、糾偏。

  這就是 Agent 能力的核心,能把一個長鏈路的複雜任務從頭跑到尾。

  豆包 2.0 在這塊的表現確實不錯。

  從評測數據來看,它在長鏈路任務上跑分很高,尤其是深度研究類的任務,三項相關評測都拿了最高分。指令遵循的一致性也很好。

  包括 2.0 的 Code 模型,同樣主打 Agent。

  能在真實的開發環境裏調用工具、配合技能、完成完整的開發流程。Coding Agent 已經是非常明確的方向了,字節不會看不到。

  第三,推理成本的下降。

  推理能力其實跟 Agent 是直接掛鉤的。

  你想,Agent 要連續執行十幾步甚至幾十步任務,每一步都要模型去推理、判斷、決策。推理越強,長任務就跑得越準、越穩。

  但這裏有一個很現實的問題,推理是要燒 Token 的。

  一個簡單的問答可能幾百個 Token 就搞定了,但一個完整的 Agent 任務跑下來,可能要消耗幾萬甚至十幾萬個 Token。

  推理成本太高的話,Agent 在商業上就很難大規模落地。你不可能讓用戶每跑一個任務就花幾塊甚至幾十塊錢。

  豆包 2.0 在這塊做了一件很關鍵的事。模型效果跟業界頂尖大模型基本打平,但 Token 定價降了大約一個數量級。

  一個數量級是什麼概念?別人花 10 塊錢跑的任務,你可能 1 塊錢就能跑。

  這對 Agent 場景太重要了,因為 Agent 天然就是 Token 消耗大戶,成本降一個量級,很多之前算不過來賬的場景,現在就能用起來了。

  所以推理這件事,不能只看模型聰不聰明,還得看用得起用不起。能力強且便宜,這個組合才真正有殺傷力。

  #04

  寫在最後

  字節越來越像 Google。半年前說這句話,大部分人估計還不認可。但現在,我覺得這可能是理解字節模型戰略最準確的一句話。

  像在哪?

  很多公司做模型,模型是模型,產品是產品。模型團隊在實驗室裏衝排行榜,產品團隊在外面想怎麼包裝。兩撥人各幹各的。

  字節不是這樣。它有抖音、即夢、豆包這些巨大的應用入口。

  這些場景裏每天有大量創作者在生產內容,什麼能力夠用了,什麼地方還卡着,這些信號是天然存在的。

  模型的下一步該往哪走,場景本身就在給方向。

  所以字節的模型和應用是一體兩面的。場景裏缺什麼能力,模型就照着那個方向去補。模型能力強了,產品體驗馬上就能感知到。這個反饋鏈路很重要。

  Google 也是這麼做的。它的優勢從來不是某個模型單點領先,是模型直接跑在搜索、YouTube、Workspace 裏,成為用戶每天都在用的能力。

  模型在 Google 手裏是基礎設施。

  OpenAI 的首席產品官之前說過,最好的產品來自深入的研究,而深入的研究需要大量的迭代反饋。

  你得理解自己想解決什麼問題,針對這些問題去收集數據、微調模型。研究和產品必須協同運作。

  然後還有一層,模型和雲的協同。

  關注海外雲廠商的朋友應該有感覺,AWS、Azure、Google Cloud 這三家,價值正在經歷重構。現在最被看好的是 Google Cloud。

  原因很簡單,Google Cloud 背後有自研模型能力在支撐,賣的是自己的東西。亞馬遜微軟在這一點上偏弱,更多是在做平台和分發,模型能力依賴外部。

  火山引擎的邏輯跟 Google Cloud 很像。字節自己的模型能力越強,火山引擎的雲服務就越好賣。

  Seedance、Seedream、豆包大模型 2.0,這些模型都可以通過火山引擎輸出給企業客戶。

  內部應用是壓力測試場,外部雲服務是商業出口,商業收入再投回模型訓練和算力擴張。

  模型能力、應用反饋、雲服務變現,再反哺算力。這是一個自循環的系統。

  一個月前 Demis 說字節和 Google 差六個月。現在這個數字,大概率已經更小了。

新浪聲明:此消息系轉載自新浪合作媒體,新浪網登載此文出於傳遞更多信息之目的,並不意味着讚同其觀點或證實其描述。文章內容僅供參考,不構成投資建議。投資者據此操作,風險自擔。
海量資訊、精準解讀,盡在新浪財經APP

責任編輯:常福強

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10