作者 | 黃昱
隨着AI模型滲透率的提高,一些說多了的「謊話」成了事實,併成為AI對現實的潛在威脅。
日前央視3·15將「給AI投毒」推上熱搜。通過一款名為"力擎GEO(生成式引擎優化)優化系統"的軟件,只需虛構一款產品並批量發布虛假軟文,主流AI在推薦時就會將其列為「高性價比」產品。
這一亂象揭示了令人不安的現實:當人們以為在享受AI帶來的"自由搜索"時,實際上可能正在一個被多方勢力精心預設的信息環境中打轉。
黑產服務商通過"數據投毒"操控AI推薦結果,將虛假信息包裝成"標準答案"推送給數億用戶。
北京社科院副研究員王鵬告訴華爾街見聞,這一現象反映出,AI模型對信源缺乏實時真實性校驗,生成式AI正在取代傳統搜索引擎成為新的「軟廣溫床」。
AI大模型投毒的核心,是在訓練/微調、RAG(Retrieval-Augmented Generation,檢索增強生成)、推理三大環節注入惡意數據 / 指令,讓模型輸出虛假、有害或被操控的內容。
3·15曝光的相當於是RAG 檢索投毒(GEO/SEO 批量造假),本質上是AI被騙了。
AI問答90%依賴RAG,攻擊者無需碰模型權重,只要污染外部知識庫 / 網頁即可操控答案。
當地基被污染,AI就成為了一個巨大的「楚門世界」。面對這樣的威脅,大模型廠商要如何修築起防禦牆?與此同時,一個AI安全產業也在不斷壯大。
環境的污染
3·15晚會曝光的GEO亂象,是導致「AI楚門世界」形成的原因之一。GEO讓品牌內容在AI大模型生成答案時被優先引用、優先推薦,相當於AI 時代的「SEO」。
倘若 GEO 僅用於規範內容、提升 AI與檢索系統的理解效率,它本是良性的信息競爭手段。
可如今GEO 早已偏離初衷:通過炮製僞內容、虛構權威、營造虛假共識、批量重複投放,從源頭操控大模型的信息來源、引用偏好與答案生成邏輯。
大灣區人工智能應用研究院研究總監段磊告訴華爾街見聞,央視曝光的「AI投毒」本質是大模型的「智能表現」依賴互聯網數據質量,數據治理如果沒跟上,很容易出現被利益驅使的惡意污染數據、惡意使用GEO策略的行為,造成對其有利,但危害大模型發展和社會價值的局面。
段磊認為,這也反映了現在AI發展中的數據治理、安全技術和相關法規的滯後,需要跟上AI的整體發展速度。
有大模型相關技術人員告訴華爾街見聞,AI大模型會被數據投毒或者污染的環節主要包括三個,訓練/微調、RAG 檢索、推理三大環節,訓練投毒改 「記憶」,RAG 投毒改 「答案」,推理投毒改「指令」。
當前危害最廣、最易實施的是RAG 檢索投毒,也是央視 3・15 曝光的核心。
AI安全專家、BraneMatrix公司CEO李光輝表示,當前GEO主要作用在AI的檢索增強、聯網搜索、知識庫調用、RAG這類環節,本質上與模型訓練、訓練環境無關。
模型本身的參數並未被改動,只是在它回答問題時,桌上被擺滿了一批經過精心操縱的「參考材料」。
GEO僞造虛假信息傳播,本質上AI不是在「犯錯」,只是在如實反映一個已經被污染的互聯網。
防禦的招式
數據投毒的產業化發展,暴露出AI時代內容治理的深層困境。
3·15晚會曝光後,以"力擎GEO"為關鍵詞的搜索產品雖已被淘寶、閒魚等平台快速下架,但「AI被騙」的問題不會徹底消失。
2026年1月29日,國家市場監督管理總局發布《2026年全國廣告監管工作要點》,其中明確指出,AI生成廣告是互聯網廣告監管的重點、難點問題。主管部門將會在新的一年對此開展集中整治,消除人工智能市場上出現的這些「噪音」和「雜音」
這次「AI投毒」暴露的主要是互聯網環境中的信息安全問題,更揭示了大模型的「信任機制」存在結構性漏洞。
當前大模型的信任機制,建立在「多數即正確」的統計直覺之上。
比如AI大模型傾向於將高頻出現、相互印證的信息視為更可信,而GEO正是通過批量生產「軟文矩陣」,將特定品牌與「推薦」、「首選」等詞反覆綁定,以此「餵飽」模型。
共識幻覺也是當前大模型面臨的一大問題。
模型默認網上被多次提及的觀點更接近「共識」,GEO則利用這一點,僞造「專家測評」、「用戶口碑」等內容閉環,讓虛假信息在模型內部被「自我證實」。
華爾街見聞還發現,多數模型在回答時不會清晰標註信息來源,用戶無法分辨答案是基於權威數據還是營銷軟文,這極大地削弱了追責的可能。
在RAG 環節投毒的核心邏輯,是利用大模型的抓取與排序機制,通過大規模「數據灌溉」讓虛假信息在模型語料庫中佔據更高的權重,從而左右模型的輸出結果。
有大模型企業內部人士告訴華爾街見聞,這本質上是一個長期存在且尚未徹底解決的問題。儘管此次「AI投毒「事件引發了廣泛關注,各大模型廠商也並未專門出面進行解釋。
這一問題其實從大模型誕生那一刻開始,很多AI大廠就意識到了,並將其作為重點攻克的難題之一。
據華爾街見聞了解,大模型廠商抵禦 RAG 投毒的核心思路是全鏈路多層防禦,大致路徑是數據源准入、檢索過濾、內容清洗生成校驗、系統加固,通過這樣層層攔截毒化內容、阻斷指令劫持、約束輸出可信度。
具體落地舉措有:檢索權重動態調整,即對批量生成、無來源、低信譽內容大幅降權,對時效性強的問題增加權威信源權重;時間切割策略,即對近期批量發布的內容延遲收錄或降權,防止 GEO 黑產快速 「洗腦」。
此外,強調實時內容校驗,生成答案前做事實覈查、邏輯校驗、安全過濾,對醫療、金融等敏感領域強制多源交叉驗證。
值得一提的是,「溯源追蹤」已成為行業標準:廠商不再僅僅依賴公開網頁抓取,而是通過建立「高可信語料庫」,優先採用權威媒體、學術期刊及持牌機構的官方數據。
段磊也指出,要真正抵禦「AI投毒」,不應該完全依賴模型公司通過技術手段來應對,數據治理是整個行業、包括政府應該參與的生態治理,應推動AI數據安全的行業標準、規範數據集的採集、清洗和審核流程;對於惡意投毒的行為,應探索法律法規上的應對措施。
重構可信性
在普通大衆看不到的數字暗處,一場針對人工智能「認知」的暗戰已經升級。
攻擊者不僅針對AI搜索的內容「投毒」,更將投毒目標前移至訓練數據和開源組件等。
「AI投毒」正成為大模型公信力的「隱形殺手」。面對日益猖獗的惡意數據滲透,一場由大模型廠商、雲巨頭及安全新勢力共同構築的多層次「淨水工程」正在加速成型。
目前的AI投毒防禦呈現出明顯的「雙軌並行」特徵:大模型廠商構建原生「免疫系統」,而專業的安全供應商則提供深度的「排毒方案」與合規審計。
據中研普華產業研究院《2024-2029年中國AI安全行業市場全景調研與發展前景預測報告》分析,到2028年,全球網絡安全人工智能市場規模將達到606億美元,複合年增長率為21.9%。
數世諮詢報告指出,模型安全保護市場,自2025年開始加速進入需求爆發期,現階段以合規為核心驅動。隨着大模型穩定性以及數據要素價值的升高,未來以「合規+業務」為雙輪驅動。
王鵬也表示,可以看到,AI發展已經催生大模型安全審計、語料清洗等專項服務。隨 AI 普及,安全將從「選配」轉為「剛需」。未來防禦不僅是技術競爭,更是合規准入的門檻,具備全鏈路檢測能力的第三方安全公司將迎來爆發。
在這場反AI投毒的戰役中,參與方已根據各自的技術基因,演化出三種清晰的業務邏輯。
第一類是傳統安全巨頭的「AI化盾牌」,代表廠商有奇安信、啓明星辰、深信服、360、綠盟科技等,這派玩家利用深厚的網絡安全積澱,將投毒防禦嵌入到其原有的流量監測和數據安全體系中。
第二類是雲與AI巨頭例如 阿里雲、騰訊雲、華為雲、微軟Azure、AWS等。作為平台方,他們關注的是如何在大模型運行的環境中加裝監控,聚焦「環境隔離」與「指令審計」等。
第三類則是新興AI安全供應商。其中瑞萊智慧、Protect AI、Pillar Security等會為模型提供專業的 「壓力測試」,主動識別訓練集中的投毒後門,同時通過神經元級的檢測技術,發現 AI 在處理特定數據時的異常波動,從而精準揪出隱藏在海量語料中的 「毒株」。
同樣屬於AI安全供應商的海致科技,則核心聚焦 AI 幻覺治理與圖模融合可信推理,星瀾科技側重 AI內容安全與深度僞造檢測。
「AI技術的大規模應用正以前所未有的深度重塑網絡安全的產業版圖。」一位人工智能投資人士告訴華爾街見聞,網絡安全建設的戰略價值愈發突出,行業正迎來關鍵拐點。
段磊則認為,隨着AI的飛速發展,大模型、算力的門檻極高,被一些大型公司佔據,但數據有很多深耕的空間,可能有很多新的機會。AI要實現更大的價值,安全可靠是必須的,所以安全是一個重要的產業機遇方向。
當AI正式成為信息入口,確保其「水源」不被污染,已不僅是技術挑戰,更是守護數字時代公共安全的底線。這場針對AI投毒的「防禦戰」,才啱啱開始。