
出品 | 虎嗅科技組
作者 | 宋思杭
編輯 | 苗正卿
頭圖 | 視覺中國
5月21日,在北京一家五星級酒店的宴會廳裏,騰訊雲AI產業應用峯會正在舉行。會場入口處,一排混元大模型和智能體的互動展示吸引了絡繹不絕的參觀者。騰訊集團高級執行副總裁、雲與智慧產業事業群CEO湯道生身着深灰色西裝、淺藍色襯衫出現在會場中央的演講台上。他保持了一貫的沉穩風格,平靜而有力地闡述着騰訊對AI的全面戰略佈局。
「AI持續落地,每個企業正在成為AI公司,每個人也將成為AI加持的’超級個體’。」湯道生開門見山地表示。而在加大AI投入力度方面,騰訊的做法可以說是相當激進,其打通了各業務條線與AI之間的壁壘,極大權限地對各業務開放了AI能力。
而「全面擁抱AI」,既是本場峯會的主題,同時也貫穿了騰訊2025年的全年戰略重要。它正在影響着這家科技大廠的方方面面。在演講中,湯道生還提出了大模型、智能體、知識庫和基礎設施」四個加速」的戰略。其中,智能體則是極為重要的一種呈現形式。它所代表的是當大模型在國內走過三年時間,應用範式的迭代。
然而,究竟什麼是智能體?這個定義在行業裏似乎還不夠清晰。
在大部分人的眼中,智能體是這樣的——當你想打開軟件訂機票,或者查找、整理信息,統計一個excel表,不再需要打開不同軟件app自己完成,而是告訴智能助手,它就能夠自動幫你完成,最終幫你訂好機票。就好像在媒體群訪間,騰訊雲副總裁吳運聲對媒體打趣道,「我現在就很希望有一個智能體來替我回答你們的問題。」
從這個層面來理解,智能體的概念並不模糊。然而,目前之所以概念模糊,正是因為行業內存在諸多問題。
比如市面上的智能體,它們的能力範圍、交互方式甚至底層架構都可能完全不同。這從而也導致用戶對智能體的期望與實際能力之間存在巨大差距。有些智能體可能僅具備自然語言交互能力,有些智能體甚至只是一個簡單的自動化工具,後者與過去的SaaS軟件唯一的差異可能只是象徵性地加了AI,實際上並沒有自主思考從而改變用戶與軟件應用的交互方式,而這一點纔是稚嫩體的核心。吳運聲在現場對媒體表示,「真正的智能體需要有思考、規劃和執行的能力」。
其次,目前的智能體最大的bug還不是會不會思考,而是能力邊界的問題。因為前者已經有部分智能體做到了,但後者,想要真正突破能力邊界,還要走很長的路。
因為用戶往往期望智能體能像人類助手一樣全能,但實際上智能體的能力邊界受到權限、API接口、數據孤島等多方面因素的限制。比如讓智能體幫你訂機票,它可能需要訪問日曆、聯繫人、支付系統,還需要與航空公司的系統對接。任何一個環節出現問題,整個任務都無法完成。但放大來講,這並不只是 AI 時代存在的問題。從這一維度來看,真正能做到的智能體幾乎為0。
在本次騰訊雲AI峯會的會場上,智能體也成了大家討論最激烈的話題。因為在此之前,無論是Manus,還是國內一衆巨頭和模型廠商推出的類Manus產品,一度把智能體推向了風口浪尖,使其成為熱議的焦點。
以下是在騰訊雲AI產業應用峯會現場與騰訊雲副總裁、騰訊雲智能負責人吳運聲的對話內容:
Q:今天騰訊雲推出了智能體開發平台,在這背後騰訊雲有哪些思考?
吳運聲:首先是從我自己從業者的感覺來講,最近幾年AI的發展非常迅速,大環境從技術到產品形態,到面對客戶的需求,以及技術與客戶需求的結合,這些變化非常重要。
我們一貫的理念是AI不是一個基座,它是要真正服務客戶需求的,所以不管做技術做產品,我們都希望服務客戶實際的場景,給客戶帶來價值,這是我們的宗旨。
過往我們提知識引擎,是因為我們觀察到在大模型出來之後,企業知識的使用或者知識庫能力對企業的構建起着非常重要的作用。所以我們最直接的用途是怎麼用技術在知識挖掘上有更好的能力,在這一塊我們積累了非常多的能力,今天我也介紹了相關能力,比如我們怎麼在大 Excel表格裏挖掘答案,在過去這是很難的。
Q:智能體與傳統 SaaS 的本質差異?
吳運聲:我認為最關鍵的區別在於:
一、智能體具備自主思考和決策能力。傳統的軟件開發範式(包括 SaaS)通常是開發者事先設計好流程,即使存在分支邏輯,也是開發者預先定義好的。但智能體面對的是自然語言交互,用戶的輸入是開放的,不可能窮舉所有分支。這時就需要智能體能夠自主理解、規劃、執行任務,而不是依賴於固定流程。
二、智能體能融合確定性工作流與自主規劃機制。我們的智能體平台也支持工作流組件的融合。用戶可以構建確定性的流程來處理特定任務,同時也允許智能體在其中進行自主規劃。這樣就實現了靈活性與確定性的結合,更好地滿足複雜多樣的企業應用場景。
Q:最近一兩個月,騰訊在視覺模型和多模態模型方面的發布節奏明顯加快了。作為優圖實驗室的負責人,您能否從騰訊自身的行業觀察和客戶需求出發,談談為什麼我們現在會加快這一塊的技術發布和開源?背後有哪些戰略或行業層面的考量?
吳運聲:我們現在發布節奏加快,本質是客戶需求在驅動我們不斷優化技術堆棧。無論是視覺、多模態、文本還是智能體技術,它們其實並不是孤立演進的,而是彼此協同、共同支撐整個企業AI應用的落地。
舉個例子,我們早期就有一個非常重要的產品——媒體AI中台,服務對象包括電視台、廣告公司、內容平台等。很多客戶有海量的媒資內容,尤其是視頻內容,最常見的需求是:
• 快速檢索視頻中的某一段內容,例如 1990 年春晚中馮鞏的小品;
• 將長視頻進行自動切分、分類、打標籤;
• 對視頻內容生成摘要,便於理解和傳播。
過去用傳統 AI 技術實現這些能力的時候,其實效果並不理想。比如抽取關鍵詞、生成摘要這類任務,對語言理解能力要求很高。傳統模型對「第十一屆三中全會」或「2008年北京奧運會」這種長實體的識別非常依賴詞典或規則,擴展性很差。
但現在我們有了大模型,特別是多模態大模型,在語義理解、上下文建模、內容切分、標籤生成等方面都有顯著提升。比如:
• 大模型可以將不同語言表達的相似語義映射到同一個語義空間,從而實現更強的語義檢索與比對;
• 視頻理解也不再是單純依賴視覺模型,而是視覺+文本多模態協同;
• 通過引入Agent+工作流機制,可以將整個內容理解與加工流程高度自動化、模塊化地重構。
所以你會看到我們在視覺模型、多模態模型上的開源和產品化節奏會快很多。這不是單點能力的堆積,而是以客戶需求為中心,把能力整合成「系統性解決方案」的過程。
總結來說,技術節奏的加快是被真實業務需求推動的。我們過去很多年的能力積累,現在正好藉助大模型、Agent等最新範式重新激活,用更智能、更高效的方式去解決問題。
Q:從騰訊的角度看,在推動智能體落地過程中有哪些能力儲備?又有哪些挑戰正在面對?
吳運聲:從儲備來看,我們其實不是「為了智能體而智能體」,而是在智能體背後有深厚的基礎能力作為支撐。
• 第一是知識管理能力:這是構建企業智能體的核心基礎,企業的智能體最終還是要用企業自己的知識體系來提供服務。
• 第二是工作流的能力:儘管現在強調 Agent 的自主規劃能力,但現實場景中,很多任務還是需要明確的業務流程。我們把傳統的工作流能力和 Agent 能力融合起來,提出了一個很有代表性的創新——在工作流中引入「全局視野」的智能體節點。
傳統的工作流是串行執行、節點獨立,但我們現在讓每一個節點在執行時,都可以和一個擁有全局上下文理解能力的智能體交互,從而在保持流程確定性的同時,也兼顧了智能體的靈活性。
至於挑戰,主要有兩個方面:
1. 技術層面:目前的 Agent 框架仍在快速演進,尤其是在自主規劃(planning)這個環節上,底層模型還不能100%把複雜任務完全準確地拆解並執行。這是模型和框架協同進化的問題。
2. 客戶認知層面:很多客戶還停留在對「Agent」作為一個新概念的理解階段。但真正要用好 Agent,需要掌握它的使用方式、搭建方法和運行機制。這中間存在一個不小的「認知與使用」的鴻溝,也需要我們通過產品體驗優化、培訓、服務等多種方式不斷去彌合。
我們相信,隨着模型能力增強 + 平台工具完善 + 企業認知提升,智能體將在更多行業場景中真正發揮價值。
Q:您怎麼看當前AI應用的發展趨勢?是否覺得智能體是最有前途的方向?因為現在大家似乎都在做智能體。
吳運聲:說智能體是AI應用裏最有前途的,這個說法其實比較模糊。AI在很多領域都有廣泛應用,智能體確實發展迅速,且智能體技術本身就是基於大模型。
很多企業使用的大模型技術,是不是算作用智能體,其實界限沒有那麼分明。智能體和大模型是互相促進的關係。智能體依賴於大模型的發展,特別是在模型理解任務、自主規劃和調用工具等能力上的進步。
所以我認為AI的發展是全方位的,不僅包括大語言模型、多模態模型,還有語音模型、視覺模型等一系列模型的進步。智能體是其中一個非常重要的方向。
Q:在騰訊整體的AI生態裏,智能體開發平台處於什麼樣的位置?它如何與騰訊其他AI產品聯動?
吳運聲:智能體開發平台的定位是為客戶搭建更強大、更復雜的智能體應用。我們在做這個平台時,天然會整合騰訊過去積累的各類AI能力,比如端到端的語音識別和交互能力。以剛纔演示的寄快遞場景為例,語音通話能力貫穿始終,這正是我們以前積累的優勢。