Google AI搜索翻車實錄:高頻錯誤背後的「準確率幻覺」

BitPush
04/13

作者:克洛德,深潮 TechFlow

原文標題:每小時數千萬條錯誤,調查揭露Google AI搜索的「準確率幻覺」


深潮導讀:《紐約時報》聯合 AI 初創公司 Oumi 的最新測試顯示,Google 搜索的 AI 摘要功能(AI Overviews)準確率約為 91%,但以 Google 年處理 5 萬億次搜索的體量換算,這意味着每小時產生數千萬條錯誤答案。更棘手的是,即便答案正確,超過半數的引用鏈接也無法支撐其結論。

Google 正在以前所未有的規模向用戶輸送錯誤信息,而大多數人毫不知情。

據《紐約時報》報道,AI 初創公司 Oumi 受其委託,使用 OpenAI 開發的行業標準測試 SimpleQA 對 Google 的 AI Overviews 功能進行了準確性評估。測試覆蓋 4326 次搜索查詢,分別在去年 10 月(Gemini 2 驅動)和今年 2 月(升級至 Gemini 3 後)各進行一輪。結果顯示,Gemini 2 的準確率約為 85%,Gemini 3 提升至 91%。

91%聽起來不錯,但放到 Google 的體量上就是另一回事。Google 每年處理約 5 萬億次搜索查詢,按 9%的錯誤率計算,AI Overviews 每小時產生超過 5700 萬條不準確的答案,每分鐘接近 100 萬條。

答案對了,來源卻是錯的

比準確率更令人不安的是引用來源的「脫錨」問題。

Oumi 的數據顯示,Gemini 2 時代,37%的正確回答存在「無根據引用」問題,即 AI 摘要所附鏈接並不支持其給出的信息。升級到 Gemini 3 後,這一比例不降反升,跳增至 56%。換言之,模型在給出正確答案的同時,越來越不會「交作業」。

Oumi CEO Manos Koukoumidis 的質疑直指要害:「即便答案是對的,你怎麼知道它是對的?你怎麼去驗證?」

AI Overviews 大量引用低質量來源加劇了這一問題。Oumi 發現,FacebookReddit 分別是 AI Overviews 第二和第四大引用來源。在不準確的回答中,Facebook 被引用的頻率達到 7%,高於準確回答中的 5%。

BBC 記者一篇假文章,24 小時內「投毒」成功

AI Overviews 的另一個嚴重缺陷是極易被操縱。

一名 BBC 記者用一篇刻意編造的虛假文章進行測試,不到 24 小時,Google 的 AI 摘要便將其中的虛假信息作為事實呈現給用戶。

這意味着任何了解系統運作機制的人,都可能通過發布虛假內容並推高其流量來「投毒」AI 搜索結果。Google 發言人 Ned Adriance 對此的回應是,搜索 AI 功能建立在與屏蔽垃圾信息相同的排名和安全機制上,並稱測試中的「大多數例子都是人們實際不會搜索的不切實際的查詢」。

Google 反駁:測試本身就有問題

Google 對 Oumi 的研究提出了多項質疑。Google 發言人稱該研究「存在嚴重漏洞」,理由包括:SimpleQA 基準測試本身包含不準確信息;Oumi 使用自家 AI 模型 HallOumi 來評判另一個 AI 的表現,可能引入額外誤差;測試內容不反映用戶的真實搜索行為。

Google 內部測試也顯示,Gemini 3 在脫離 Google 搜索框架獨立運行時,產生虛假輸出的比例高達 28%。但 Google 強調,AI Overviews 藉助搜索排名系統來提升準確性,表現優於模型本身。

不過,正如 PCMag 評論所指出的邏輯悖論:如果你的辯護理由是「指出我們 AI 不準確的報告本身也用了可能不準確的 AI」,這恐怕並不能增強用戶對你產品準確性的信心。


Twitter:https://twitter.com/BitpushNewsCN

比推 TG 交流群:https://t.me/BitPushCommunity

比推 TG 訂閱: https://t.me/bitpush

說明: 比推所有文章只代表作者觀點,不構成投資建議

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10