Anthropic天价赔款？大模型“盗版”的100000种花样

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：硅星人）

作者｜黄小艺

邮箱｜ huangxiaoyi@pingwest.com

AI大模型的秘密配方是什么？答案可能很简单：海量的“盗版内容”。

这几乎是行业内公开的秘密。2023年，《纽约时报》一纸诉状将OpenAI和微软告上法庭，正式拉开了这场战争的序幕。很快，战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼；Anthropic同样因其模型Claude的训练数据而被告，一时间，几乎所有头部玩家都被推上了被告席。

这场大模型与版权方的核心争议是：在未经授权的情况下，将海量的受版权保护作品用作AI训练数据，究竟是合法的“变革性使用”，还是“侵权盗用”？

在众多悬而未决的案件中，进展最快是Anthropic案，在2025年6月的里程碑式裁决中，法院给出了一个极其重要的参考信号：模型训练这一行为本身，因其能够创造出功能完全不同的新事物，具有高度的“变革性”，可能不构成侵权；然而，获取训练数据的方式，如果涉及盗版网站或未经授权的复制，则几乎无法被“合理使用”原则所豁免。

根据计算，Anthropic或将因此面临着7500亿美元的天价诉讼赔款。这个信号，让所有AI公司都捏了一把汗。大模型厂商们“先污染，后治理”的野蛮生长，或许要到头了。

大模型的N种数据“盗取”路径

为了满足无止境的数据需求，各大模型厂商各自走出了一条充满争议甚至堪称“脑洞大开”的野路子，每一种都游走在法律边缘。

一、从公开抓取到蓄意“清洗”

这是AI数据积累最原始、最普遍的方式。AI公司利用强大的网络爬虫，像撒下一张覆盖全球互联网的巨网，不加区分地将新闻网站、专业博客、学术论坛、社交媒体上的公开内容尽数捕捞，构建起初期的训练数据集。

例如，OpenAI在构建其著名的WebText数据集时，就抓取了社交新闻网站Reddit上用户分享的数百万个外部链接，间接将海量受版权保护的内容纳入囊中，《纽约时报》的文章赫然在列。

除了抓取，更致命的是清洗行为。

二、格式转换：从视频和纸书中提取文本

随着高质量的公开文本数据日益枯竭，厂商们将目光投向了其他格式的内容载体，通过技术手段，将其转换为可供模型训练的纯文本，这种做法更为隐蔽。

一种典型手法是OpenAI对其语音识别工具Whisper的“妙用”。据称，OpenAI利用Whisper转录了超过一百万小时的YouTube视频内容。这意味着，无论是深度访谈、专业课程还是纪录片解说，这些视频中最核心的“语言资产”，在未经视频创作者许可的情况下，被悄然提取出来，直接“喂”给了GPT-4，绕过了视频本身的视听版权。

Anthropic也采用了一种戏剧性的手法。在意识到直接使用盗版书库的巨大法律风险后，Anthropic专门聘请了前谷歌图书扫描项目的负责人Tom Turvey，启动了一项成本高昂、操作复杂的“物理世界洗白计划”：

第一步，批量采购：斥巨资从图书分销商和零售商处，购买数百万本纸质书，其中不乏二手书。

第二步，物理转化：将这些书运至服务商处，由机器拆掉装订、裁切书页，然后逐页进行高速扫描，生成包含图像和可机读文本的PDF数字文件。

第三步，销毁原件：扫描完成后，纸质原件被直接丢弃。此举的核心目的，是在法律上论证这是一种“格式转换”，而非创造了“额外的副本”，从而规避侵权指控。

第四步，数据建库：为这些数字化的图书建立详细的书目信息数据库，并进行分词、清理等一系列复杂的预处理，最终形成一个来源上看似“合法”的高质量训练数据集。

但这一行为，恰恰证明了：第一，AI公司已充分认识到高质量数据的版权价值；第二，获取合规数据的成本，远比想象中要惊人得多。

三、“影子图书馆”

在争分夺秒的技术竞赛和巨大的性能压力下，部分公司选择了一条最高效，也最高风险的捷径——直接拥抱明确的盗版资源库。

Meta在训练其开源模型Llama时，就被直接指控使用了来自“影子图书馆”（如Library Genesis、Books3）的非法书籍副本。无独有偶，Anthropic的内部文件也显示，其联合创始人在公司创立初期，就下载了包含近20万本书的盗版库Books3，并对这些资源的盗版性质心知肚明。

四、平台借助隐私协议获取数据

与上述几种“硬核”盗版方式不同，巨头们展示了一种更具平台特色的“阳谋”。它不依赖于外部抓取或盗版，而是利用其庞大的用户生态系统，通过服务条款来“合法”地将用户数据内化为自己的训练资源。

谷歌的隐私政策中，明确表示可能会使用用户公开分享的信息来训练其AI模型。这意味着，当一个普通用户在Google Docs上协作一份文档，在Google Maps上写下一段评论，或是在Blogger上发布一篇文章时，这些内容都可能在用户不经意间，被纳入谷歌的AI训练数据池，由此谷歌也构建起了一道竞争对手难以逾越的数据护城河。

这些五花八门、游走在法律边缘的数据获取方式，显示出在AI发展的“圈地”阶段，大模型们都在以最低的成本、最快的速度，获取最大规模的数据，数据来源的合规风险置于次要位置。然而，版权方的一系列诉讼彻底打破了这种默契，他们将攻击焦点精准地对准了最脆弱的一环：数据的原始获取路径。

一个更昂贵的AI时代来了

AI版权战争的真正转折点，是诉讼焦点的变化：不再纠缠AI“如何使用”数据，而是直击它“从何获取”数据。

最初，双方的法律攻防主要围绕AI“使用”数据的性质展开。

AI公司认为，它们的行为并非传统意义的“复制”，而是“学习”，模型在内化数据中的模式、语法和知识，就像一个学生阅读海量书籍以形成自己的写作风格，其目的是创造全新的东西，因此是一种高度“变革性”的使用。版权方则反驳，AI的商业化产品会直接与原作形成市场竞争，替代用户对新闻订阅和书籍购买的需求，从而损害其核心商业利益。

然而，在这两个战场上，版权方都打得异常艰难。在这种胶着状态下，版权方的诉讼策略发生了一次决定性的转向，他们找到了一个更根本、也更致命的攻击点——数据的来源合法性。

法院的阶段性审理，也给出了一个极其微妙且影响深远的信号：一方面，初步裁决认为AI的输出内容和训练行为本身，因其“变革性”，或许不构成直接侵权，这在某种程度上为大模型的发展留下了空间，避免了技术创新被彻底扼杀；但另一方面，法院对“来源合法性”划出了明确的红线，严厉打击了使用盗版资源的行为。

而面对如雪片般飞来的诉讼，大模型厂商中的激进派也在向保守派转变。

保守派的代表就是苹果，它从一开始就将用户隐私和规则置于更重要的位置，宁愿在AI竞赛中起步较晚，也要通过明确授权许可（如与图片库Shutterstock的合作）和自有数据来规避法律风险。

而激进派的Meta和早期的OpenAI，则是信奉“移动快，打破规则”的硅谷信条，将潜在的法律诉讼视为一种可以计算和承受的商业成本。但在诉讼缠身后，OpenAI迅速转变为积极的数据“购买者”，斥巨资与美联社、金融时报等数十家媒体签署内容许可协议；Anthropic则上演了从使用盗版书库，到斥巨资购买、扫描、销毁实体书的“苦力式洗白”。

这些都意味着，“数据免费”的黄金时代已一去不复返，数据将成为AI公司财报上一个明确且高昂的成本项。

从整个行业来看，手握优质内容的内容出版商、新闻机构，将从被动的受害者，转变为AI产业链上游一个手握筹码、拥有强大议价权的关键参与者；这反过来又会急剧抬高行业的竞争壁垒，拥有强大现金流和顶尖法务团队的科技巨头相比AI创业公司将有着更强的竞争优势。AI行业的竞争，已从单纯的算法和算力竞赛，扩展到了一场关于数据供应链管理、商业谈判和法务合规能力的全面战争。

当那些充满争议的盗版“野路子”被一条条堵死，一个更加昂贵的AI时代，已经来了。

点个爱心，再走吧

海量资讯、精准解读，尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

Anthropic天价赔款？大模型“盗版”的100000种花样

Most Discussed