大模型如何「反投毒」：一場有關RAG的自淨反擊戰

作者 | 黃昱

隨着AI模型滲透率的提高，一些說多了的「謊話」成了事實，併成為AI對現實的潛在威脅。

日前央視3·15將「給AI投毒」推上熱搜。通過一款名為"力擎GEO（生成式引擎優化）優化系統"的軟件，只需虛構一款產品並批量發布虛假軟文，主流AI在推薦時就會將其列為「高性價比」產品。

這一亂象揭示了令人不安的現實：當人們以為在享受AI帶來的"自由搜索"時，實際上可能正在一個被多方勢力精心預設的信息環境中打轉。

黑產服務商通過"數據投毒"操控AI推薦結果，將虛假信息包裝成"標準答案"推送給數億用戶。

北京社科院副研究員王鵬告訴華爾街見聞，這一現象反映出，AI模型對信源缺乏實時真實性校驗，生成式AI正在取代傳統搜索引擎成為新的「軟廣溫床」。

AI大模型投毒的核心，是在訓練/微調、RAG（Retrieval-Augmented Generation，檢索增強生成）、推理三大環節注入惡意數據 / 指令，讓模型輸出虛假、有害或被操控的內容。

3·15曝光的相當於是RAG 檢索投毒（GEO/SEO 批量造假），本質上是AI被騙了。

AI問答90%依賴RAG，攻擊者無需碰模型權重，只要污染外部知識庫 / 網頁即可操控答案。

當地基被污染，AI就成為了一個巨大的「楚門世界」。面對這樣的威脅，大模型廠商要如何修築起防禦牆？與此同時，一個AI安全產業也在不斷壯大。

環境的污染

3·15晚會曝光的GEO亂象，是導致「AI楚門世界」形成的原因之一。GEO讓品牌內容在AI大模型生成答案時被優先引用、優先推薦，相當於AI 時代的「SEO」。

倘若 GEO 僅用於規範內容、提升 AI與檢索系統的理解效率，它本是良性的信息競爭手段。

可如今GEO 早已偏離初衷：通過炮製僞內容、虛構權威、營造虛假共識、批量重複投放，從源頭操控大模型的信息來源、引用偏好與答案生成邏輯。

大灣區人工智能應用研究院研究總監段磊告訴華爾街見聞，央視曝光的「AI投毒」本質是大模型的「智能表現」依賴互聯網數據質量，數據治理如果沒跟上，很容易出現被利益驅使的惡意污染數據、惡意使用GEO策略的行為，造成對其有利，但危害大模型發展和社會價值的局面。

段磊認為，這也反映了現在AI發展中的數據治理、安全技術和相關法規的滯後，需要跟上AI的整體發展速度。

有大模型相關技術人員告訴華爾街見聞，AI大模型會被數據投毒或者污染的環節主要包括三個，訓練/微調、RAG 檢索、推理三大環節，訓練投毒改「記憶」，RAG 投毒改「答案」，推理投毒改「指令」。

當前危害最廣、最易實施的是RAG 檢索投毒，也是央視 3・15 曝光的核心。

AI安全專家、BraneMatrix公司CEO李光輝表示，當前GEO主要作用在AI的檢索增強、聯網搜索、知識庫調用、RAG這類環節，本質上與模型訓練、訓練環境無關。

模型本身的參數並未被改動，只是在它回答問題時，桌上被擺滿了一批經過精心操縱的「參考材料」。

GEO僞造虛假信息傳播，本質上AI不是在「犯錯」，只是在如實反映一個已經被污染的互聯網。

防禦的招式

數據投毒的產業化發展，暴露出AI時代內容治理的深層困境。

3·15晚會曝光後，以"力擎GEO"為關鍵詞的搜索產品雖已被淘寶、閒魚等平台快速下架，但「AI被騙」的問題不會徹底消失。

2026年1月29日，國家市場監督管理總局發布《2026年全國廣告監管工作要點》，其中明確指出，AI生成廣告是互聯網廣告監管的重點、難點問題。主管部門將會在新的一年對此開展集中整治，消除人工智能市場上出現的這些「噪音」和「雜音」

這次「AI投毒」暴露的主要是互聯網環境中的信息安全問題，更揭示了大模型的「信任機制」存在結構性漏洞。

當前大模型的信任機制，建立在「多數即正確」的統計直覺之上。

比如AI大模型傾向於將高頻出現、相互印證的信息視為更可信，而GEO正是通過批量生產「軟文矩陣」，將特定品牌與「推薦」、「首選」等詞反覆綁定，以此「餵飽」模型。

共識幻覺也是當前大模型面臨的一大問題。

模型默認網上被多次提及的觀點更接近「共識」，GEO則利用這一點，僞造「專家測評」、「用戶口碑」等內容閉環，讓虛假信息在模型內部被「自我證實」。

華爾街見聞還發現，多數模型在回答時不會清晰標註信息來源，用戶無法分辨答案是基於權威數據還是營銷軟文，這極大地削弱了追責的可能。

在RAG 環節投毒的核心邏輯，是利用大模型的抓取與排序機制，通過大規模「數據灌溉」讓虛假信息在模型語料庫中佔據更高的權重，從而左右模型的輸出結果。

有大模型企業內部人士告訴華爾街見聞，這本質上是一個長期存在且尚未徹底解決的問題。儘管此次「AI投毒「事件引發了廣泛關注，各大模型廠商也並未專門出面進行解釋。

這一問題其實從大模型誕生那一刻開始，很多AI大廠就意識到了，並將其作為重點攻克的難題之一。

據華爾街見聞了解，大模型廠商抵禦 RAG 投毒的核心思路是全鏈路多層防禦，大致路徑是數據源准入、檢索過濾、內容清洗生成校驗、系統加固，通過這樣層層攔截毒化內容、阻斷指令劫持、約束輸出可信度。

具體落地舉措有：檢索權重動態調整，即對批量生成、無來源、低信譽內容大幅降權，對時效性強的問題增加權威信源權重；時間切割策略，即對近期批量發布的內容延遲收錄或降權，防止 GEO 黑產快速「洗腦」。

此外，強調實時內容校驗，生成答案前做事實覈查、邏輯校驗、安全過濾，對醫療、金融等敏感領域強制多源交叉驗證。

值得一提的是，「溯源追蹤」已成為行業標準：廠商不再僅僅依賴公開網頁抓取，而是通過建立「高可信語料庫」，優先採用權威媒體、學術期刊及持牌機構的官方數據。

段磊也指出，要真正抵禦「AI投毒」，不應該完全依賴模型公司通過技術手段來應對，數據治理是整個行業、包括政府應該參與的生態治理，應推動AI數據安全的行業標準、規範數據集的採集、清洗和審核流程；對於惡意投毒的行為，應探索法律法規上的應對措施。

重構可信性

在普通大衆看不到的數字暗處，一場針對人工智能「認知」的暗戰已經升級。

攻擊者不僅針對AI搜索的內容「投毒」，更將投毒目標前移至訓練數據和開源組件等。

「AI投毒」正成為大模型公信力的「隱形殺手」。面對日益猖獗的惡意數據滲透，一場由大模型廠商、雲巨頭及安全新勢力共同構築的多層次「淨水工程」正在加速成型。

目前的AI投毒防禦呈現出明顯的「雙軌並行」特徵：大模型廠商構建原生「免疫系統」，而專業的安全供應商則提供深度的「排毒方案」與合規審計。

據中研普華產業研究院《2024-2029年中國AI安全行業市場全景調研與發展前景預測報告》分析，到2028年，全球網絡安全人工智能市場規模將達到606億美元，複合年增長率為21.9%。

數世諮詢報告指出，模型安全保護市場，自2025年開始加速進入需求爆發期，現階段以合規為核心驅動。隨着大模型穩定性以及數據要素價值的升高，未來以「合規+業務」為雙輪驅動。

王鵬也表示，可以看到，AI發展已經催生大模型安全審計、語料清洗等專項服務。隨 AI 普及，安全將從「選配」轉為「剛需」。未來防禦不僅是技術競爭，更是合規准入的門檻，具備全鏈路檢測能力的第三方安全公司將迎來爆發。

在這場反AI投毒的戰役中，參與方已根據各自的技術基因，演化出三種清晰的業務邏輯。

第一類是傳統安全巨頭的「AI化盾牌」，代表廠商有奇安信、啓明星辰、深信服、360、綠盟科技等，這派玩家利用深厚的網絡安全積澱，將投毒防禦嵌入到其原有的流量監測和數據安全體系中。

第二類是雲與AI巨頭例如阿里雲、騰訊雲、華為雲、微軟Azure、AWS等。作為平台方，他們關注的是如何在大模型運行的環境中加裝監控，聚焦「環境隔離」與「指令審計」等。

第三類則是新興AI安全供應商。其中瑞萊智慧、Protect AI、Pillar Security等會為模型提供專業的「壓力測試」，主動識別訓練集中的投毒後門，同時通過神經元級的檢測技術，發現 AI 在處理特定數據時的異常波動，從而精準揪出隱藏在海量語料中的「毒株」。

同樣屬於AI安全供應商的海致科技，則核心聚焦 AI 幻覺治理與圖模融合可信推理，星瀾科技側重 AI內容安全與深度僞造檢測。

「AI技術的大規模應用正以前所未有的深度重塑網絡安全的產業版圖。」一位人工智能投資人士告訴華爾街見聞，網絡安全建設的戰略價值愈發突出，行業正迎來關鍵拐點。

段磊則認為，隨着AI的飛速發展，大模型、算力的門檻極高，被一些大型公司佔據，但數據有很多深耕的空間，可能有很多新的機會。AI要實現更大的價值，安全可靠是必須的，所以安全是一個重要的產業機遇方向。

當AI正式成為信息入口，確保其「水源」不被污染，已不僅是技術挑戰，更是守護數字時代公共安全的底線。這場針對AI投毒的「防禦戰」，才啱啱開始。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

大模型如何「反投毒」：一場有關RAG的自淨反擊戰

環境的污染

防禦的招式

重構可信性

熱議股票