Anthropic天價賠款?大模型“盜版”的100000種花樣

市場資訊
08/15

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:硅星人)

作者 | 黃小藝

郵箱 | huangxiaoyi@pingwest.com

AI大模型的祕密配方是什麼?答案可能很簡單:海量的“盜版內容”。

這幾乎是行業內公開的祕密。2023年,《紐約時報》一紙訴狀將OpenAI和微軟告上法庭,正式拉開了這場戰爭的序幕。很快,戰火燒遍了整個硅谷。Meta因其Llama模型涉嫌使用盜版書籍而面臨集體訴訟;Anthropic同樣因其模型Claude的訓練數據而被告,一時間,幾乎所有頭部玩家都被推上了被告席。

這場大模型與版權方的核心爭議是:在未經授權的情況下,將海量的受版權保護作品用作AI訓練數據,究竟是合法的“變革性使用”,還是“侵權盜用”?

在衆多懸而未決的案件中,進展最快是Anthropic案,在2025年6月的里程碑式裁決中,法院給出了一個極其重要的參考信號:模型訓練這一行爲本身,因其能夠創造出功能完全不同的新事物,具有高度的“變革性”,可能不構成侵權;然而,獲取訓練數據的方式,如果涉及盜版網站或未經授權的複製,則幾乎無法被“合理使用”原則所豁免。

根據計算,Anthropic或將因此面臨着7500億美元的天價訴訟賠款。這個信號,讓所有AI公司都捏了一把汗。大模型廠商們“先污染,後治理”的野蠻生長,或許要到頭了。

1

大模型的N種數據“盜取”路徑

爲了滿足無止境的數據需求,各大模型廠商各自走出了一條充滿爭議甚至堪稱“腦洞大開”的野路子,每一種都遊走在法律邊緣。

一、從公開抓取到蓄意“清洗”

這是AI數據積累最原始、最普遍的方式。AI公司利用強大的網絡爬蟲,像撒下一張覆蓋全球互聯網的巨網,不加區分地將新聞網站、專業博客、學術論壇、社交媒體上的公開內容盡數捕撈,構建起初期的訓練數據集。

例如,OpenAI在構建其著名的WebText數據集時,就抓取了社交新聞網站Reddit上用戶分享的數百萬個外部鏈接,間接將海量受版權保護的內容納入囊中,《紐約時報》的文章赫然在列。

除了抓取,更致命的是清洗行爲。

在《紐約時報》和Daily News等媒體的訴訟中,原告指出,OpenAI在抓取新聞內容時,主動並系統性地移除了版權聲明、作者署名、頁腳等關鍵的版權管理信息(CMI)。這一行爲被判定爲數據獲取行爲的性質發生了根本性的轉變——從可能無意的“順手牽羊”,升級爲具有明確規避意圖的“數據清洗”。

二、格式轉換:從視頻和紙書中提取文本

隨着高質量的公開文本數據日益枯竭,廠商們將目光投向了其他格式的內容載體,通過技術手段,將其轉換爲可供模型訓練的純文本,這種做法更爲隱蔽。

一種典型手法是OpenAI對其語音識別工具Whisper的“妙用”。據稱,OpenAI利用Whisper轉錄了超過一百萬小時的YouTube視頻內容。這意味着,無論是深度訪談、專業課程還是紀錄片解說,這些視頻中最核心的“語言資產”,在未經視頻創作者許可的情況下,被悄然提取出來,直接“喂”給了GPT-4,繞過了視頻本身的視聽版權。

Anthropic也採用了一種戲劇性的手法。在意識到直接使用盜版書庫的巨大法律風險後,Anthropic專門聘請了前谷歌圖書掃描項目的負責人Tom Turvey,啓動了一項成本高昂、操作複雜的“物理世界洗白計劃”:

第一步,批量採購:斥巨資從圖書分銷商和零售商處,購買數百萬本紙質書,其中不乏二手書。

第二步,物理轉化:將這些書運至服務商處,由機器拆掉裝訂、裁切書頁,然後逐頁進行高速掃描,生成包含圖像和可機讀文本的PDF數字文件。

第三步,銷燬原件:掃描完成後,紙質原件被直接丟棄。此舉的核心目的,是在法律上論證這是一種“格式轉換”,而非創造了“額外的副本”,從而規避侵權指控。

第四步,數據建庫:爲這些數字化的圖書建立詳細的書目信息數據庫,並進行分詞、清理等一系列複雜的預處理,最終形成一個來源上看似“合法”的高質量訓練數據集。

但這一行爲,恰恰證明了:第一,AI公司已充分認識到高質量數據的版權價值;第二,獲取合規數據的成本,遠比想象中要驚人得多。

三、“影子圖書館”

在爭分奪秒的技術競賽和巨大的性能壓力下,部分公司選擇了一條最高效,也最高風險的捷徑——直接擁抱明確的盜版資源庫。

Meta在訓練其開源模型Llama時,就被直接指控使用了來自“影子圖書館”(如Library Genesis、Books3)的非法書籍副本。無獨有偶,Anthropic的內部文件也顯示,其聯合創始人在公司創立初期,就下載了包含近20萬本書的盜版庫Books3,並對這些資源的盜版性質心知肚明。

四、平臺藉助隱私協議獲取數據

與上述幾種“硬核”盜版方式不同,巨頭們展示了一種更具平臺特色的“陽謀”。它不依賴於外部抓取或盜版,而是利用其龐大的用戶生態系統,通過服務條款來“合法”地將用戶數據內化爲自己的訓練資源。

谷歌的隱私政策中,明確表示可能會使用用戶公開分享的信息來訓練其AI模型。這意味着,當一個普通用戶在Google Docs上協作一份文檔,在Google Maps上寫下一段評論,或是在Blogger上發佈一篇文章時,這些內容都可能在用戶不經意間,被納入谷歌的AI訓練數據池,由此谷歌也構建起了一道競爭對手難以逾越的數據護城河。

這些五花八門、遊走在法律邊緣的數據獲取方式,顯示出在AI發展的“圈地”階段,大模型們都在以最低的成本、最快的速度,獲取最大規模的數據,數據來源的合規風險置於次要位置。然而,版權方的一系列訴訟徹底打破了這種默契,他們將攻擊焦點精準地對準了最脆弱的一環:數據的原始獲取路徑。

1

一個更昂貴的AI時代來了

AI版權戰爭的真正轉折點,是訴訟焦點的變化:不再糾纏AI“如何使用”數據,而是直擊它“從何獲取”數據。

最初,雙方的法律攻防主要圍繞AI“使用”數據的性質展開。

AI公司認爲,它們的行爲並非傳統意義的“複製”,而是“學習”,模型在內化數據中的模式、語法和知識,就像一個學生閱讀海量書籍以形成自己的寫作風格,其目的是創造全新的東西,因此是一種高度“變革性”的使用。版權方則反駁,AI的商業化產品會直接與原作形成市場競爭,替代用戶對新聞訂閱和書籍購買的需求,從而損害其核心商業利益。

然而,在這兩個戰場上,版權方都打得異常艱難。在這種膠着狀態下,版權方的訴訟策略發生了一次決定性的轉向,他們找到了一個更根本、也更致命的攻擊點——數據的來源合法性。

法院的階段性審理,也給出了一個極其微妙且影響深遠的信號:一方面,初步裁決認爲AI的輸出內容和訓練行爲本身,因其“變革性”,或許不構成直接侵權,這在某種程度上爲大模型的發展留下了空間,避免了技術創新被徹底扼殺;但另一方面,法院對“來源合法性”劃出了明確的紅線,嚴厲打擊了使用盜版資源的行爲。

而面對如雪片般飛來的訴訟,大模型廠商中的激進派也在向保守派轉變。

保守派的代表就是蘋果,它從一開始就將用戶隱私和規則置於更重要的位置,寧願在AI競賽中起步較晚,也要通過明確授權許可(如與圖片庫Shutterstock的合作)和自有數據來規避法律風險。

而激進派的Meta和早期的OpenAI,則是信奉“移動快,打破規則”的硅谷信條,將潛在的法律訴訟視爲一種可以計算和承受的商業成本。但在訴訟纏身後,OpenAI迅速轉變爲積極的數據“購買者”,斥巨資與美聯社、金融時報等數十家媒體簽署內容許可協議;Anthropic則上演了從使用盜版書庫,到斥巨資購買、掃描、銷燬實體書的“苦力式洗白”。

這些都意味着,“數據免費”的黃金時代已一去不復返,數據將成爲AI公司財報上一個明確且高昂的成本項。

從整個行業來看,手握優質內容的內容出版商、新聞機構,將從被動的受害者,轉變爲AI產業鏈上游一個手握籌碼、擁有強大議價權的關鍵參與者;這反過來又會急劇抬高行業的競爭壁壘,擁有強大現金流和頂尖法務團隊的科技巨頭相比AI創業公司將有着更強的競爭優勢。AI行業的競爭,已從單純的算法和算力競賽,擴展到了一場關於數據供應鏈管理、商業談判和法務合規能力的全面戰爭。

當那些充滿爭議的盜版“野路子”被一條條堵死,一個更加昂貴的AI時代,已經來了。

點個愛心,再走 吧

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10