Google I/O 2025 展示了 Gemini 2.5 作爲跨平臺 AI 引擎的全面實力。從“Stitch”到“Casey”,從語音助手到機器人生成,從 Android 到 Web 到 Cloud,每一項更新都緊扣“降低門檻、加速創造”的核心目標。核心發佈包括,Gemini 2.5 與 Flash 模型、AI Studio 全新開發體驗 、Android 與 Gemini Nano 深度整合 、 多模態工具 Stitches和實時部署能力。
繼微軟之後,谷歌也全面擁抱人工智能(AI)智能體(Agent)。在開發者大會上,谷歌宣佈要讓智能體全面進駐谷歌的主打業務搜索以及AI助手Gemini,並通過Gemini與搜索結合,推出全新的AI模式搜索。
美東時間5月20日週二,谷歌2025年度I/O開發者大會的主題演講展示了在AI、多模態模型、跨設備整合與開發者工具方面的最新成果。從升級後的 Gemini 2.5 Pro 模型到智能眼鏡的 XR 應用,再到 AI 驅動的搜索與網頁瀏覽體驗。谷歌展現的不僅是模型的性能提升,更是AI從“信息工具”進化爲“通用智能體” 的進步。
Google I/O 2025 展示了 Gemini 2.5 作爲跨平臺 AI 引擎的全面實力。從“Stitch”到“Casey”,從語音助手到機器人生成,從 Android 到 Web 到 Cloud,每一項更新都緊扣“降低門檻、加速創造”的核心目標。核心發佈包括,Gemini 2.5 與 Flash 模型、AI Studio 全新開發體驗 、Android 與 Gemini Nano 深度整合 、 多模態工具 Stitches和實時部署能力。
本次發佈內容主要包括:
1. Gemini 2.5 與 Flash 模型的集成演示
Gemini 2.5 Flash 是速度極快、價格友好的 AI 模型,適合原型開發。
新實驗項目 Stitch:通過文本提示自動生成 App UI 設計,並即時轉爲代碼。
設計不僅是靜態圖,而是可以編輯的真實界面;可導出至 Figma 或 IDE 中繼續開發。
2. AI Studio 的重大更新
AI Studio 新增原生語音模型,支持 24 種語言與主動音頻識別。
URL Context 功能:模型可從鏈接中提取上下文,支持最多 20 個鏈接。
增強了函數調用與搜索推理功能,可與外部工具協同工作。
展示瞭如何構建語音助手、遊戲等項目,包括自動生成、調試和部署。
3. Keynote Companion(虛擬主持助手)
用 Gemini 構建的虛擬形象 “Casey”,可監聽關鍵詞如“Gemini”並實時更新 UI。
與地圖整合:通過語音指令讓 Casey 展示地點、尋找 Wi-Fi 咖啡館並提供導航。
支持異步函數調用,實現更自然的多輪對話體驗。
實時部署:通過 Cloud Run 一鍵部署應用到線上,並集成至 IDE(如 VS Code)。
4. Android 平臺的 AI 與 UI 創新
推出 Androidify 應用:通過自拍圖像 + Gemini 模型描述人物特徵,再生成可愛 Android 機器人形象。
使用 Gemini 的多模態能力(文本 + 圖像)+ Imagine 3 模型實現圖像生成。
雲端處理適合高性能任務,設備端使用 Gemini Nano 提供 summarize、rewrite 等輕量功能。
新 UI 系統 Material 3 Expressive:增強界面趣味性,例如“餅乾”形狀按鈕。
Android 16 引入“live updates”、性能優化工具 R8 與 baseline profiles、大屏設備支持(如平板、Chromebook)。
剛開場,登臺的Alphabet兼谷歌CEO 皮查伊(Sundar Pichai)就強調了Gemini的重要性,稱“在谷歌,每天都是Gemini季”,併力推新模型Gemini 2.5 Pro ——“ 迄今爲止我們最強大的通用 AI 模型”。
皮查伊說,自上次I/O大會以來,谷歌已推出十多款模型和20項AI功能,谷歌的發貨速度已經是史上最快:
“我們希望儘快將最好的模型和產品交到大家手中,因此我們的發貨速度比以往任何時候都快。”
皮查伊透露,Gemini 2.5 Pro模型已在大語言模型(LLM)測評LLM Arena的所有類別排行榜上名列前茅。Gemini是熱門AI代碼編輯器Cursor上增長最快的模型。
他介紹,一年來,谷歌系統每月處理的token數量激增,從去年的9.7萬億增加到現在的480萬億,增長將近50倍。Gemini的App每月有4 億多活躍用戶。
皮查伊宣佈,谷歌將在Chrome瀏覽器、搜索以及Gemini的App中推出智能體模式(Agent Mode)。
智能體可以與瀏覽器和其他軟件進行交互和操作。谷歌研究的AI智能體Mariner現在可以同時管理多達10個任務,用戶只需向其展示一次任務,它就會學習該任務,並將經驗用於未來的案例。
智能體模式的實驗版即將向Gemini App的訂閱者推出。
皮查伊現場演示Gemini App中的智能體模式,要求它幫用戶找公寓。得到指令後,Gemini搜索房產網Zillow,用電腦調整篩選條件,並使用模型上下文協議MCP預約看房。
皮查伊評價:
“這是一個新興的時代。將研究成果轉化爲現實的最佳方式就是讓它真正發揮作用。”
他說,在經用戶許可的情況下,Gemini 現在可以在各種App中以“私密安全”的方式使用個人信息。
谷歌高管稱,Gemini App有三大定位:Personal(個性化)、Proactive(主動)、Powerful(強大)。它可主動幫助你準備考試、整理任務、制定旅行計劃,甚至提前生成解釋視頻。
Gemini Live語音助手升級,即日起在Android 和 iOS免費開放,支持 45種以上的語言。它支持語音對話、攝像頭識別與屏幕共享,能在上下班途中與用戶自然聊天或幫你讀懂周圍環境。谷歌稱,Gemini Live的“這些交互是如此自然,以至於你會忘了你在跟 AI 說話。”
在智能體模式下,Gemini Live可幫用戶找房、預約、訂票。谷歌演示,用戶只需說出需求:“我和兩個室友在奧斯汀找房,每人預算 1200 美元”,Gemini 會自動比對 Zillow 房源、篩選洗衣設施、甚至安排看房時間。完全不需要切換 App,AI 就已爲你搞定。
Canvas功能讓文檔“變身”成可分享的內容。用戶可以上傳文檔,一鍵生成互動網頁、信息圖,甚至播客內容。“Canvas 不是工具,它是共創空間。”
谷歌Gemini模型的產品策略負責人Tulsee Doshi介紹,Gemini 2.5 Pro 和 Flash現在都有原生音頻輸出,支持兩種聲音。
模型現在可以用更具表現力的方式交談,甚至可以低聲細語。它可以無縫切換到印地語,然後以相同的聲音切換回英語。Gemini API現在就可以提供原生音頻輸出。
Gemini的實時語音助手Gemini Live現在可以區分說話者的聲音和背景音,因此可以做出更恰當的響應。
谷歌發佈名爲Google Beam 的新產品。它是一個AI驅動的視頻通信平臺,讓人們的視頻感覺如同面對面聊天。它是谷歌3D視頻會議系統項目Starline 技術的升級版。谷歌與惠普合作,將Google Beam 系統商業化,今年晚些時候,惠普將推出首批Google Beam設備。
Google Beam 採用六個攝像頭陣列,從不同角度捕捉拍攝對象、比如人物。AI視頻模型將實時拼接這些視圖,渲染成類似 3D 的畫面,從而創建3D 人物。谷歌表示,該系統擁有近乎完美的頭部追蹤技術,精度可達毫米級,以視頻幀率每秒60 幀(fps)的實時渲染速度呈現。
谷歌高層介紹,Gemini 2.5 Pro 很快就能實現實時翻譯。Gemini模型產品團隊負責人Tulsee Doshi現場進行了實時翻譯的演示,讓AI語音先用英語說話,在說到一半時切換到印地語。
Doshi 還表示,Gemini 2.5 Pro 更加安全,具有針對提示注入這種網絡共計的保護措施。提示注入是指,利用惡意或非預期提示詞誘騙 AI執行不應執行的操作。
谷歌的在線視頻會議服務Google Meet本週二推出實時語音翻譯功能,目前支持英語到西班牙語的互譯,更多語言將在未來幾周內推出。該服務功能首先面向訂閱用戶,今年晚些時候擴大到企業用戶。
Gemini 2.5 Flash是一個高效輕量版本的模型,速度比 Pro 快、成本更低,適合常規任務。它支持 “思考預算”(Thinking Budget)機制,讓用戶可以控制輸出質量與響應速度。
谷歌介紹,谷歌的推理模型Gemini 2.5 Flash效率更高。在實現相同性能的情況下,它使用的token更少,這樣一來,效率就提升了22%。如果用戶使用 Gemini 2.5 Flash 進行構建,使用的token會更少的。
谷歌DeepMind的CEO Demis Hassabis表示,Gemini 2.5 Pro將覆蓋教育。Gemini 2.5 Pro在推理方面具有深度思考能力。新推出的AI模型Gemini 2.5 Flash 將於6月投面世。
Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示,該模型在多項基準測試中均處於領先地位,初期僅向受信任的測試人員開放。
谷歌Gemini模型的產品策略負責人Tulsee Doshi介紹,Gemini 2.5 Pro 和 Flash現在都有原生音頻輸出,支持兩種聲音。
模型現在可以用更具表現力的方式交談,甚至可以低聲細語。它可以無縫切換到印地語,然後以相同的聲音切換回英語。Gemini API現在就可以提供原生音頻輸出。
Gemini的實時語音助手Gemini Live現在可以區分說話者的聲音和背景音,因此可以做出更恰當的響應。
Gemini 現在包括模型“原始想法”的“思想摘要”(thought summaries)。Gemini 2.5 Pro 現在有“思考預算”,它存在於 Flash模型中,可以供開發人員控制模型使用多少個token來控制成本和延遲。
上週OpenAI推出了自家的最強寫代碼智能體Codex,本週二谷歌介紹了自研的編碼智能體App Jules。異步編碼代理 Jules 現已開啓公測,任何人都可以註冊。
Gemini 2.5 Pro 可以將用戶繪製的草圖和 3D 動畫編碼到現有的App中,同時更新文件以便使用 AI Studio 生成動畫。
谷歌即將推出一種新的研究模型Gemini Diffusion。這個新模型在回答問題時更加高效、快速。該模型正在面向一小部分人測試。它是谷歌首次將擴散模型用於文本生成的實驗性研究,速度提升 5 倍,可編輯生成文本、代碼與數學邏輯。
谷歌演示了一段概念視頻,展示多模態虛擬助手項目Astra加持的Gemini Live功能。它可以幫助用戶進行研究,比如弄清楚如何修理自行車。
Gemini 會進行研究並提供指導,首先找到 PDF 說明書,然後找到 YouTube 視頻,最後搜索自行車店的郵件。用戶可以根據需要給自行車店打電話訂購零件,並查看使用手冊。這基本上就是一個多任務處理的過程。
谷歌還演示了一個名爲Aira的項目。它通過智能眼鏡爲盲人和視力低的用戶提供實時視覺描述服務。
視頻顯示,當用戶準備在俱樂部現場演奏音樂時,用戶用手機的攝像頭環顧房間,通過在手機上運行的Aira服務,手機可以實時描述房間內的事物。
DeepMind的CEO Hassabis說:“我們正在打造更加個性化、更有主動性和更強大的AI。” 所有這一切將迎來“一個充滿發現和奇蹟的新黃金時代”。
皮查伊稱AI概覽(AI Overviews)是谷歌最成功的產品之一,每月有15 億用戶在搜索中使用AI概覽,它推動某些類型的查詢增長了10%。這意味着,谷歌提供生成式AI服務的用戶規模超過其他公司。
Gemini模型將與谷歌搜索集合。它將通過AI模式(AI Mode)增強智能,成爲一種強大的新型AI搜索功能,可幫助解答問題。它是搜索中的新標籤頁,也將包含在AI 概覽中。
作爲全新的搜索功能,AI模式讓用戶可以提出更長、更復雜的查詢。它支持長達數百字的提問、自動分解查詢意圖、並生成結構化答案。該模式本週二就上線,作爲搜索的新標籤頁形勢,向所有美國的用戶推出。
新版本中,用戶可以:
直接通過自然語言發問,系統會提供摘要式、結構化回答。
與搜索結果進行多輪對話,進一步深入瞭解相關內容。
獲取圖文並茂的“智能回答卡片”,例如自動整理出旅遊行程、購物建議、編程指南等。
皮查伊稱:
“我們正在重新定義搜索的未來。不是找到鏈接,而是直接給出答案。”
谷歌搜索負責人Liz Reid介紹,AI模式會得到名爲Deep Research的模型加持,谷歌稱之爲“深度搜索”(DeepSearch)。該模型將通過邏輯搜索結果和高度相關的內容,更好地整理研究主題。
AI模式的搜索“就像你身邊有一位博學助理。” 它還會結合地圖、評論、視頻等生成圖表和推薦內容。
Reid說,AI 模式將擁有谷歌所有最優秀的 AI 特性和功能。“隨着時間的推移,我們將逐步將 AI 模式的許多尖端特性和功能融入核心搜索體驗。” 她還說,AI 模式現在就將支持AI概覽。
谷歌推出新一代圖像模型Imagine 4 ,讓圖像質量大幅提升,更強細節捕捉、構圖理解,首次支持精確文本生成。
該模型加入“快速變體”:比前代快10倍,適合創意探索。新版本的Imagine模型更強細節捕捉與構圖理解,可識別中文、英文等複雜字體,實時生成圖像、海報甚至插畫。
谷歌介紹Veo 3 視頻模型。它是谷歌最強視頻生成模型,支持角色一致性、鏡頭控制和原生語音生成,能自動合成環境音、對白、背景音樂。甚至連角色間的對話語音都能生成,畫面還能和角色的口型同步。
Veo 3可控制攝像機角度、剪輯節奏,確保人物一致性、風格統一。
谷歌與導演合作開發了名爲Flow的創作平臺,支持一鍵式場景、故事生成。
Flow 平臺支持AI 視頻製作軟件,支持劇本、鏡頭語言、畫面構圖等創作全過程。谷歌與 Darren Aronofsky、Eliza McNitt 等電影人合作推出短片項目。
用戶可上傳角色、設定場景,AI 自動生成鏡頭組接。
谷歌還推出了Lyria 音頻模型和Music AI Sandbox。它支持生成專業音樂、合唱、獨唱,結合 AI Sandbox 成爲音樂人創作工具,能結合 Flow、Veo 可用於完整電影原聲音樂生成。
谷歌展示了在擴展現實——XR生態的重要進展,其中之一是智能眼鏡。它是全天候的Gemini 助理
谷歌的智能眼鏡內建攝像頭、骨傳導音響與內嵌顯示,眼鏡可識別物體、翻譯語言、記住你喝的咖啡名字,還能用語音控制 AI 導航、訂位、拍照。
Gentle Monster 和 Warby Parker 將成爲首批打造 Android XR 眼鏡的眼鏡合作伙伴。
同時,谷歌的Android XR 平臺與三星聯合推出頭顯Moohan。
該頭顯支持沉浸式地圖、視頻播放、交互式 Gemini AI 等。XR 版本地圖可瞬間“帶你”走遍世界。
谷歌稱,Moohan“不再是Clark Kent摘眼鏡變超人,而是戴上眼鏡,你就擁有 AI 超能力。”
谷歌推出全新的 AI 訂閱套餐Google AI Ultra,訂閱者將擁有最高使用限額,並可訪問谷歌最強大的模型和高級功能。
Google AI Ultra 現已在美國上市,每月價格爲 249.99 美元(首次用戶可享受訂閱前三個月的半價優惠。谷歌稱,將很快在更多國家地區推出。
這一套餐包括:
使用Gemini模型,計劃提供 Deep Research 的最高使用限額、Veo 2 的尖端視頻生成功能以及Veo 3 模型的搶先體驗,未來幾周還將獲得增強推理模式 Deep Think 2.5 Pro 版的使用權限;
Whisk,獲得 Whisk Animate 的最高使用限制,它能通過 Veo 2 將您的圖像轉換成生動的八秒視頻;
NotebookLM讓學習者可以用“思維導圖”方式組織資料,今年晚些時候訂閱用戶可獲得最高使用限制和增強的模型功能;
融入Gemini的Gmail、Docs、Vids 等應用,從週三起,就可在Chrome 瀏覽器中直接訪問 Gemini;
YouTube Premium,無廣告、離線和後臺觀看 YouTube 和收聽 YouTube 音樂;
30 TB 存儲空間:爲 Google 相冊、雲端硬盤和 Gmail 提供海量存儲容量;
還包括Flow平臺和Mariner項目的服務。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。