谷歌I/O開發者大會:發佈最強大通用模型,全新AI模式搜索來了

華爾街見聞
昨天

Google I/O 2025 展示了 Gemini 2.5 作爲跨平臺 AI 引擎的全面實力。從“Stitch”到“Casey”,從語音助手到機器人生成,從 Android 到 Web 到 Cloud,每一項更新都緊扣“降低門檻、加速創造”的核心目標。核心發佈包括,Gemini 2.5 與 Flash 模型、AI Studio 全新開發體驗 、Android 與 Gemini Nano 深度整合 、 多模態工具 Stitches和實時部署能力。

繼微軟之後,谷歌也全面擁抱人工智能(AI)智能體(Agent)。在開發者大會上,谷歌宣佈要讓智能體全面進駐谷歌的主打業務搜索以及AI助手Gemini,並通過Gemini與搜索結合,推出全新的AI模式搜索。

美東時間5月20日週二,谷歌2025年度I/O開發者大會的主題演講展示了在AI、多模態模型、跨設備整合與開發者工具方面的最新成果。從升級後的 Gemini 2.5 Pro 模型到智能眼鏡的 XR 應用,再到 AI 驅動的搜索與網頁瀏覽體驗。谷歌展現的不僅是模型的性能提升,更是AI從“信息工具”進化爲“通用智能體” 的進步。

Google I/O 2025 展示了 Gemini 2.5 作爲跨平臺 AI 引擎的全面實力。從“Stitch”到“Casey”,從語音助手到機器人生成,從 Android 到 Web 到 Cloud,每一項更新都緊扣“降低門檻、加速創造”的核心目標。核心發佈包括,Gemini 2.5 與 Flash 模型、AI Studio 全新開發體驗 、Android 與 Gemini Nano 深度整合 、 多模態工具 Stitches和實時部署能力。

本次發佈內容主要包括:

1. Gemini 2.5 與 Flash 模型的集成演示

Gemini 2.5 Flash 是速度極快、價格友好的 AI 模型,適合原型開發。

新實驗項目 Stitch:通過文本提示自動生成 App UI 設計,並即時轉爲代碼。

設計不僅是靜態圖,而是可以編輯的真實界面;可導出至 Figma 或 IDE 中繼續開發。

2. AI Studio 的重大更新

AI Studio 新增原生語音模型,支持 24 種語言與主動音頻識別。

URL Context 功能:模型可從鏈接中提取上下文,支持最多 20 個鏈接。

增強了函數調用與搜索推理功能,可與外部工具協同工作。

展示瞭如何構建語音助手、遊戲等項目,包括自動生成、調試和部署。

3. Keynote Companion(虛擬主持助手)

用 Gemini 構建的虛擬形象 “Casey”,可監聽關鍵詞如“Gemini”並實時更新 UI。

與地圖整合:通過語音指令讓 Casey 展示地點、尋找 Wi-Fi 咖啡館並提供導航。

支持異步函數調用,實現更自然的多輪對話體驗。

實時部署:通過 Cloud Run 一鍵部署應用到線上,並集成至 IDE(如 VS Code)。

4. Android 平臺的 AI 與 UI 創新

推出 Androidify 應用:通過自拍圖像 + Gemini 模型描述人物特徵,再生成可愛 Android 機器人形象。

使用 Gemini 的多模態能力(文本 + 圖像)+ Imagine 3 模型實現圖像生成。

雲端處理適合高性能任務,設備端使用 Gemini Nano 提供 summarize、rewrite 等輕量功能。

新 UI 系統 Material 3 Expressive:增強界面趣味性,例如“餅乾”形狀按鈕。

Android 16 引入“live updates”、性能優化工具 R8 與 baseline profiles、大屏設備支持(如平板、Chromebook)。

谷歌最強通用AI模型Gemini 2.5 Pro

剛開場,登臺的Alphabet兼谷歌CEO 皮查伊(Sundar Pichai)就強調了Gemini的重要性,稱“在谷歌,每天都是Gemini季”,併力推新模型Gemini 2.5 Pro ——“ 迄今爲止我們最強大的通用 AI 模型”。

皮查伊說,自上次I/O大會以來,谷歌已推出十多款模型和20項AI功能,谷歌的發貨速度已經是史上最快:

“我們希望儘快將最好的模型和產品交到大家手中,因此我們的發貨速度比以往任何時候都快。”

皮查伊透露,Gemini 2.5 Pro模型已在大語言模型(LLM)測評LLM Arena的所有類別排行榜上名列前茅。Gemini是熱門AI代碼編輯器Cursor上增長最快的模型。

他介紹,一年來,谷歌系統每月處理的token數量激增,從去年的9.7萬億增加到現在的480萬億,增長將近50倍。Gemini的App每月有4 億多活躍用戶。

“智能體模式”將上線Chrome、搜索及Gemini App

皮查伊宣佈,谷歌將在Chrome瀏覽器、搜索以及Gemini的App中推出智能體模式(Agent Mode)。

智能體可以與瀏覽器和其他軟件進行交互和操作。谷歌研究的AI智能體Mariner現在可以同時管理多達10個任務,用戶只需向其展示一次任務,它就會學習該任務,並將經驗用於未來的案例。

智能體模式的實驗版即將向Gemini App的訂閱者推出。

皮查伊現場演示Gemini App中的智能體模式,要求它幫用戶找公寓。得到指令後,Gemini搜索房產網Zillow,用電腦調整篩選條件,並使用模型上下文協議MCP預約看房。

皮查伊評價:

“這是一個新興的時代。將研究成果轉化爲現實的最佳方式就是讓它真正發揮作用。”

他說,在經用戶許可的情況下,Gemini 現在可以在各種App中以“私密安全”的方式使用個人信息。

Gemini Live語音助手升級 Gemini 2.5 Pro 和 Flash有原生音頻輸出

谷歌高管稱,Gemini App有三大定位:Personal(個性化)、Proactive(主動)、Powerful(強大)。它可主動幫助你準備考試、整理任務、制定旅行計劃,甚至提前生成解釋視頻。

Gemini Live語音助手升級,即日起在Android 和 iOS免費開放,支持 45種以上的語言。它支持語音對話、攝像頭識別與屏幕共享,能在上下班途中與用戶自然聊天或幫你讀懂周圍環境。谷歌稱,Gemini Live的“這些交互是如此自然,以至於你會忘了你在跟 AI 說話。”

在智能體模式下,Gemini Live可幫用戶找房、預約、訂票。谷歌演示,用戶只需說出需求:“我和兩個室友在奧斯汀找房,每人預算 1200 美元”,Gemini 會自動比對 Zillow 房源、篩選洗衣設施、甚至安排看房時間。完全不需要切換 App,AI 就已爲你搞定。

Canvas功能讓文檔“變身”成可分享的內容。用戶可以上傳文檔,一鍵生成互動網頁、信息圖,甚至播客內容。“Canvas 不是工具,它是共創空間。”

谷歌Gemini模型的產品策略負責人Tulsee Doshi介紹,Gemini 2.5 Pro 和 Flash現在都有原生音頻輸出,支持兩種聲音。

模型現在可以用更具表現力的方式交談,甚至可以低聲細語。它可以無縫切換到印地語,然後以相同的聲音切換回英語。Gemini API現在就可以提供原生音頻輸出。

Gemini的實時語音助手Gemini Live現在可以區分說話者的聲音和背景音,因此可以做出更恰當的響應。

Google Beam利用AI模型實時拼接視圖創造3D人物

谷歌發佈名爲Google Beam 的新產品。它是一個AI驅動的視頻通信平臺,讓人們的視頻感覺如同面對面聊天。它是谷歌3D視頻會議系統項目Starline 技術的升級版。谷歌與惠普合作,將Google Beam 系統商業化,今年晚些時候,惠普將推出首批Google Beam設備。

Google Beam 採用六個攝像頭陣列,從不同角度捕捉拍攝對象、比如人物。AI視頻模型將實時拼接這些視圖,渲染成類似 3D 的畫面,從而創建3D 人物。谷歌表示,該系統擁有近乎完美的頭部追蹤技術,精度可達毫米級,以視頻幀率每秒60 幀(fps)的實時渲染速度呈現。

Gemini 2.5 Pro實時翻譯 Google Meet實時語音翻譯週二上線

谷歌高層介紹,Gemini 2.5 Pro 很快就能實現實時翻譯。Gemini模型產品團隊負責人Tulsee Doshi現場進行了實時翻譯的演示,讓AI語音先用英語說話,在說到一半時切換到印地語。

Doshi 還表示,Gemini 2.5 Pro 更加安全,具有針對提示注入這種網絡共計的保護措施。提示注入是指,利用惡意或非預期提示詞誘騙 AI執行不應執行的操作。

谷歌的在線視頻會議服務Google Meet本週二推出實時語音翻譯功能,目前支持英語到西班牙語的互譯,更多語言將在未來幾周內推出。該服務功能首先面向訂閱用戶,今年晚些時候擴大到企業用戶。

更快更輕便Gemini 2.5 Flash 6月初面世 Gemin 2.5 Deep Think有限開放

Gemini 2.5 Flash是一個高效輕量版本的模型,速度比 Pro 快、成本更低,適合常規任務。它支持 “思考預算”(Thinking Budget)機制,讓用戶可以控制輸出質量與響應速度。

谷歌介紹,谷歌的推理模型Gemini 2.5 Flash效率更高。在實現相同性能的情況下,它使用的token更少,這樣一來,效率就提升了22%。如果用戶使用 Gemini 2.5 Flash 進行構建,使用的token會更少的。

谷歌DeepMind的CEO Demis Hassabis表示,Gemini 2.5 Pro將覆蓋教育。Gemini 2.5 Pro在推理方面具有深度思考能力。新推出的AI模型Gemini 2.5 Flash 將於6月投面世。

Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示,該模型在多項基準測試中均處於領先地位,初期僅向受信任的測試人員開放。

Gemini 2.5 Pro 和 Flash有原生音頻輸出

谷歌Gemini模型的產品策略負責人Tulsee Doshi介紹,Gemini 2.5 Pro 和 Flash現在都有原生音頻輸出,支持兩種聲音。

模型現在可以用更具表現力的方式交談,甚至可以低聲細語。它可以無縫切換到印地語,然後以相同的聲音切換回英語。Gemini API現在就可以提供原生音頻輸出。

Gemini的實時語音助手Gemini Live現在可以區分說話者的聲音和背景音,因此可以做出更恰當的響應。

谷歌編碼智能體Jules開啓公測 Gemini Diffusion用於實驗性研究

Gemini 現在包括模型“原始想法”的“思想摘要”(thought summaries)。Gemini 2.5 Pro 現在有“思考預算”,它存在於 Flash模型中,可以供開發人員控制模型使用多少個token來控制成本和延遲。

上週OpenAI推出了自家的最強寫代碼智能體Codex,本週二谷歌介紹了自研的編碼智能體App Jules。異步編碼代理 Jules 現已開啓公測,任何人都可以註冊。

Gemini 2.5 Pro 可以將用戶繪製的草圖和 3D 動畫編碼到現有的App中,同時更新文件以便使用 AI Studio 生成動畫。

谷歌即將推出一種新的研究模型Gemini Diffusion。這個新模型在回答問題時更加高效、快速。該模型正在面向一小部分人測試。它是谷歌首次將擴散模型用於文本生成的實驗性研究,速度提升 5 倍,可編輯生成文本、代碼與數學邏輯。

Gemini Live如何幫用戶修自行車 Aira實時視覺描述

谷歌演示了一段概念視頻,展示多模態虛擬助手項目Astra加持的Gemini Live功能。它可以幫助用戶進行研究,比如弄清楚如何修理自行車。

Gemini 會進行研究並提供指導,首先找到 PDF 說明書,然後找到 YouTube 視頻,最後搜索自行車店的郵件。用戶可以根據需要給自行車店打電話訂購零件,並查看使用手冊。這基本上就是一個多任務處理的過程。

谷歌還演示了一個名爲Aira的項目。它通過智能眼鏡爲盲人和視力低的用戶提供實時視覺描述服務。

視頻顯示,當用戶準備在俱樂部現場演奏音樂時,用戶用手機的攝像頭環顧房間,通過在手機上運行的Aira服務,手機可以實時描述房間內的事物。

DeepMind的CEO Hassabis說:“我們正在打造更加個性化、更有主動性和更強大的AI。” 所有這一切將迎來“一個充滿發現和奇蹟的新黃金時代”。

谷歌搜索添加AI模式標籤頁 支持長達數百字提問 週二在美上線

皮查伊稱AI概覽(AI Overviews)是谷歌最成功的產品之一,每月有15 億用戶在搜索中使用AI概覽,它推動某些類型的查詢增長了10%。這意味着,谷歌提供生成式AI服務的用戶規模超過其他公司。

Gemini模型將與谷歌搜索集合。它將通過AI模式(AI Mode)增強智能,成爲一種強大的新型AI搜索功能,可幫助解答問題。它是搜索中的新標籤頁,也將包含在AI 概覽中。

作爲全新的搜索功能,AI模式讓用戶可以提出更長、更復雜的查詢。它支持長達數百字的提問、自動分解查詢意圖、並生成結構化答案。該模式本週二就上線,作爲搜索的新標籤頁形勢,向所有美國的用戶推出。

新版本中,用戶可以:

  • 直接通過自然語言發問,系統會提供摘要式、結構化回答。

  • 與搜索結果進行多輪對話,進一步深入瞭解相關內容。

  • 獲取圖文並茂的“智能回答卡片”,例如自動整理出旅遊行程、購物建議、編程指南等。

皮查伊稱:

“我們正在重新定義搜索的未來。不是找到鏈接,而是直接給出答案。”

谷歌搜索負責人Liz Reid介紹,AI模式會得到名爲Deep Research的模型加持,谷歌稱之爲“深度搜索”(DeepSearch)。該模型將通過邏輯搜索結果和高度相關的內容,更好地整理研究主題。

AI模式的搜索“就像你身邊有一位博學助理。” 它還會結合地圖、評論、視頻等生成圖表和推薦內容。

Reid說,AI 模式將擁有谷歌所有最優秀的 AI 特性和功能。“隨着時間的推移,我們將逐步將 AI 模式的許多尖端特性和功能融入核心搜索體驗。” 她還說,AI 模式現在就將支持AI概覽。

多模態 AI 創作突破:圖像、視頻模型和創作平臺、音頻模型

谷歌推出新一代圖像模型Imagine 4 ,讓圖像質量大幅提升,更強細節捕捉、構圖理解,首次支持精確文本生成。

該模型加入“快速變體”:比前代快10倍,適合創意探索。新版本的Imagine模型更強細節捕捉與構圖理解,可識別中文、英文等複雜字體,實時生成圖像、海報甚至插畫。

谷歌介紹Veo 3 視頻模型。它是谷歌最強視頻生成模型,支持角色一致性、鏡頭控制和原生語音生成,能自動合成環境音、對白、背景音樂。甚至連角色間的對話語音都能生成,畫面還能和角色的口型同步。

Veo 3可控制攝像機角度、剪輯節奏,確保人物一致性、風格統一。

谷歌與導演合作開發了名爲Flow的創作平臺,支持一鍵式場景、故事生成。

Flow 平臺支持AI 視頻製作軟件,支持劇本、鏡頭語言、畫面構圖等創作全過程。谷歌與 Darren Aronofsky、Eliza McNitt 等電影人合作推出短片項目。

用戶可上傳角色、設定場景,AI 自動生成鏡頭組接。

谷歌還推出了Lyria 音頻模型和Music AI Sandbox。它支持生成專業音樂、合唱、獨唱,結合 AI Sandbox 成爲音樂人創作工具,能結合 Flow、Veo 可用於完整電影原聲音樂生成。

Android XR智能眼鏡和頭顯Moohan

谷歌展示了在擴展現實——XR生態的重要進展,其中之一是智能眼鏡。它是全天候的Gemini 助理

谷歌的智能眼鏡內建攝像頭、骨傳導音響與內嵌顯示,眼鏡可識別物體、翻譯語言、記住你喝的咖啡名字,還能用語音控制 AI 導航、訂位、拍照。

Gentle Monster 和 Warby Parker 將成爲首批打造 Android XR 眼鏡的眼鏡合作伙伴。

同時,谷歌的Android XR 平臺與三星聯合推出頭顯Moohan。

該頭顯支持沉浸式地圖、視頻播放、交互式 Gemini AI 等。XR 版本地圖可瞬間“帶你”走遍世界。

谷歌稱,Moohan“不再是Clark Kent摘眼鏡變超人,而是戴上眼鏡,你就擁有 AI 超能力。”

AI訂閱套餐Google AI Ultra月費近245美元 含多種Gemini模型、30 TB存儲空間等

谷歌推出全新的 AI 訂閱套餐Google AI Ultra,訂閱者將擁有最高使用限額,並可訪問谷歌最強大的模型和高級功能。

Google AI Ultra 現已在美國上市,每月價格爲 249.99 美元(首次用戶可享受訂閱前三個月的半價優惠。谷歌稱,將很快在更多國家地區推出。

這一套餐包括:

使用Gemini模型,計劃提供 Deep Research 的最高使用限額、Veo 2 的尖端視頻生成功能以及Veo 3 模型的搶先體驗,未來幾周還將獲得增強推理模式 Deep Think 2.5 Pro 版的使用權限;

Whisk,獲得 Whisk Animate 的最高使用限制,它能通過 Veo 2 將您的圖像轉換成生動的八秒視頻;

NotebookLM讓學習者可以用“思維導圖”方式組織資料,今年晚些時候訂閱用戶可獲得最高使用限制和增強的模型功能;

融入Gemini的Gmail、Docs、Vids 等應用,從週三起,就可在Chrome 瀏覽器中直接訪問 Gemini;

YouTube Premium,無廣告、離線和後臺觀看 YouTube 和收聽 YouTube 音樂;

30 TB 存儲空間:爲 Google 相冊、雲端硬盤和 Gmail 提供海量存儲容量;

還包括Flow平臺和Mariner項目的服務。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10