“AI投毒”曝光之后,如何正确的跟AI搞关系,即将成为一门新生意

蓝鲸财经
Yesterday

文|锦缎

今年的央视3·15晚会上,AI毫无意外地成为焦点之一。“AI大模型数据投毒”,央视以直白方式曝光了这条产业链,其运作方式在报道中得到了直观呈现。

在央视财经的测试中,业内人士随机购买了一款名为“GEO优化系统”的软件,并虚构了一款现实中不存在的产品——“Apollo-9智能手环”。为便于后续识别信息来源,测试者借鉴生物学中的“标记重捕”法,为该手环编造了一系列“一眼假”的卖点,如“量子纠缠技术”“黑洞级续航”。

接下来的流程展示了这项技术的运作方式:

首先,GEO软件通过内置算法,自动生成十余篇评测“软文”,措辞夸张,内容充斥着虚构的高分用户评价。

随后,软件自动登录各大自媒体平台,批量发布这些文章。

两个小时后,当记者向某些匿名AI搜索引擎询问“Apollo-9智能手环”时,这款虚假产品已出现在AI生成的回答中。

从技术角度看,这套流程并不复杂。但其背后产业链的规模,或许超出许多人的直观感受:

在这场人为设计的测试中,具备高度智能的大语言模型,被几篇低质软文成功“误导”,输出虚假信息。

这也验证了一个此前已被提出的判断:大语言模型的底层机制中,存在可被利用的漏洞,且不止一处。而这一现象背后,涉及更深层的技术与商业变革。

 从SEO到GEO

要理解“AI投毒”的技术原理,需要从搜索引擎的演变说起。

过去二十年,搜索引擎优化(SEO)是互联网流量分发的核心逻辑。无论国内百度还是国外谷歌,只要摸透主流搜索引擎的爬虫算法,通过“关键词密度+外链数量”的组合,便可在很大程度上实现信息的垄断与商业变现。

搜索引擎的普及本身是一次技术革命,它使知识获取方式从书本转向互联网,并催生了价值超过800亿美元的产业。

但技术演进并未止步。

2023年后,以ChatGPT为代表的大语言模型开始改变信息获取方式。与搜索引擎相比,ChatGPT等工具提供的直接答案页面,通常不包含大量广告或低质信息。此后,苹果谷歌等公司陆续将AI模型深度整合进浏览器,传统搜索引擎的商业路径正逐步收窄。

当互联网充斥着大量冗余信息,用户对“精准总结的答案”的需求成为主流。AI工具恰好满足了这一需求,并逐步培养用户习惯。

在此背景下,传统的页面排名(Page Rank)机制的意义正在减弱,一种新的流量分发范式正在形成:生成式引擎优化(Generative Engine Optimization, GEO)。

技术层面的迭代,开启了一场围绕“AI心智”的商业竞争。

 “AI投毒”的底层原理

现有大语言模型虽经过复杂训练,具备较高智能水平,但其预训练知识库通常是静态的。无论是Google的Gemini、OpenAI的ChatGPT,还是DeepSeek,知识库一般只更新至某一时间节点(如2025年)。但用户需求是动态的。为了让基于历史数据训练的模型能回答当下问题,主流技术方案是检索增强生成(Retrieval-Augmented Generation, RAG)。

RAG机制的应用场景包括给定的知识库,也可扩展至整个互联网。若要让AI承担类似搜索引擎的功能,就需要将互联网信息视为一个动态更新的知识库。当用户提出问题时,AI的工作流程大致如下:

检索:在全网范围内抓取与问题相关的最新网页;

阅读:在短时间内读取网页的核心内容;

生成:交叉比对不同来源的信息,剔除冗余,形成包含引用的直接答案。

拆解这一流程后,“AI投毒”的原理便相对清晰:问题出在生成阶段的“交叉比对”环节。

这也是RAG机制的天然局限:对于预训练知识库之外的信息,模型主要依靠交叉比对来判断事实真伪。检索时,尽管权威信源不会报道虚假信息,但若大量边缘网站以相似口径集中渲染同一虚构产品——如“Apollo-9手环”的正面评价,措辞甚至高度雷同——那么在数学概率层面,假消息便可能被模型误判为可信信息。只要人为制造的“伪证”数量足够多,模型的阅读理解系统就可能被绕过。

在这一过程中,网页在传统搜索引擎中的排名高低已不重要。关键在于,内容是否被模型“选中”,并作为依据纳入最终答案。

 大模型的内容偏好

“AI投毒”的本质,是对AIGC平台语料库的污染。只要Transformer架构未被颠覆,幻觉问题便难以根除,这也为“AI投毒”留下了操作空间。

目前,类似“Apollo-9手环”的虚假信息被批量投放至中文互联网是否合法,尚无明确法律界定。但对于正规企业与优质内容创作者而言,GEO机制可能带来实质性冲击。

事实上,GEO技术并非新近出现。2024年,普林斯顿大学发表了全球首篇关于GEO的学术论文《GEO: Generative Engine Optimization》。论文中,该技术的初衷是实现优质内容的更广泛传播。研究团队构建了包含上万个查询的基准测试集,通过黑盒测试得出以下结论:

其一,传统SEO策略在AI主导的信息分发中基本失效。过去营销号常用的“关键词堆砌”(Keyword Stuffing)策略,在大语言模型中反而容易被识别为噪音。由于注意力机制的存在,信息熵较低的文本会引发困惑度(Perplexity)升高,权重随之降低。

其二,“事实密度”(Fact Density)是影响AI内容引用的关键因素。事实密度指内容中真实信息的占比。近年来,大语言模型普遍经过RLHF(基于人类反馈的强化学习)对齐训练,奖励模型倾向于引导模型输出有据可循、逻辑清晰的内容。因此,网页的事实密度越高,大模型提取内容时的损失函数越低。

实验数据显示,以下简单策略可将内容引用率提升30%至40%:

添加引用:在内容中附上可信来源链接;

添加专家引言:直接引用行业专家原话;

添加统计数据:用具体数字替换模糊描述。

其三,GEO可能成为小型平台的“流量平权工具”。在传统搜索引擎中,小网站因缺乏域名权重和历史外链,难以与门户网站竞争。但在AI检索机制下,只要内容提供精准数据或权威引言,小网站仍可能获得较高引用率。这不仅是内容质量的回归,也意味着算法底层逻辑的重构。

 关于GEO商业前景的两点判断

若从算法与学术层面抽离,以更宏观的视角审视GEO,可以发现一个隐藏于技术背后的趋势:

这一变革的本质,并非SEO的简单升级,而是企业与互联网基础设施交互方式的系统性重构。

过去二十年,企业在互联网上的核心商业诉求是流量获取。而未来十年,随着AI逐步成为人类的信息代理人,企业的核心命题将转向“大模型关系管理”(Large Model Relationship Management)。

由此可引出关于GEO商业前景的两点判断:

第一,未来的竞价排名,标的可能不再是点击,而是模型的“认知”。

无论是Google、OpenAI还是DeepSeek,目前大模型的商业模式以订阅制为主,而非广告点击。若这些AI平台不愿因广告破坏用户体验,最终可能会开放面向B端的知识库直连API模式。或许,OpenAI此前考虑在ChatGPT中加入广告却又搁置,亦与此有关。

未来,企业或不再争夺搜索结果排名,而转向向AI平台支付“数据接入费”。通过专用API,企业可将产品内容无损导入大模型的RAG系统,既避免品牌推荐出现幻觉,也掌握了AI对产品的最终解释权。

由此形成的新商机是:谁能为传统企业将官网内容转化为大模型偏好的结构化数据,谁便有可能取代传统广告代理商,成为AI时代的新型数字营销服务商。

第二,顶级的GEO策略,可能演化为逆向RAG工程。

未来企业的官网或产品详情页,可能不再以人类为主要阅读对象,而是专门面向机器撰写。产品优势、竞品对比、权威背书,或将不再以自然语言呈现,而是转化为JSON等结构化数据格式,甚至主动推送至大模型的抓取列表。

正如当年的Google AdWords与Facebook推荐算法,每一次信息分发权力的转移,都会带来流量红利与套利空间。如今,大模型正逐步掌控人类获取信息的入口,成为“外置大脑”。在此背景下,最先理解底层逻辑并适应新规则的一方,仍将分到最大一块蛋糕。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10