文|數據猿
近期,包括迪士尼企業、漫威角色、盧卡斯影業、20世紀福克斯電影公司(統稱「迪士尼」)以及環球影城製片公司和夢工廠動畫(統稱「環球影業」)在內的多家好萊塢主要電影公司,在洛杉磯聯邦法院對人工智能公司Midjourney提起全面訴訟 。
原告方主張,Midjourney在未經授權的情況下支持用戶生成包括小黃人、《冰雪奇緣》《怪物史萊克》等幾乎所有旗下動畫電影中的人物形象,是典型的「搭便車和無底線的剽竊行為」 。
類似的訴訟官司,這幾年越來越多。Midjourney的友商Stability AI也被美國圖片交易公司Getty Images起訴過,對方稱Stable Diffusion 使用從互聯網上獲取的視覺資產進行訓練,其中包括來自Getty Images以及可公開訪問的第三方網站的約1230萬個視覺資產等。
隨着AI的發展,數據資產的版權問題與現有法律之間的矛盾進一步升級,由迪士尼等巨頭企業發起的訴訟,不僅關係着鉅額賠償,也關係着更長遠的未來,這些虛擬財富如何分配。
版權持有方集體告AI
持有版權的大企業,把AI公司告上法庭似乎成了常態 。
2023年12月27日,《紐約時報》就曾在美國紐約南區聯邦地區法院對微軟和OpenAI提起訴訟,指控兩家公司未經其同意,使用「數百萬」受版權保護的文章訓練其AI模型 。彼時,《紐約時報》指出AI模型正在為其新聞內容構建「市場替代品」,通過分流付費用戶和影響廣告收入造成重大經濟損害 。
半年後,環球音樂集團(UMG Recordings)起訴Suno和Uncharted Labs(Udio),指控這兩家生成式AI音樂服務公司大規模侵犯版權 。環球音樂集團聲稱,Suno和Udio未經許可,非法複製其數字錄音用於訓練AI系統,並能根據用戶提示生成與受版權保護錄音高度相似的音樂文件 。
時間來到今年,除了引發熱議的迪士尼起訴Midjourney,同一時期還有另一個有趣的官司,在線論壇和鏈接分享平台Reddit起訴了初創公司Anthropic 。在提交給法院的文件中,Reddit稱Anthropic是「一家大器晚成的AI公司,自詡為AI行業的白騎士」 。隨後話鋒一轉,說「該案體現出了Anthropic的兩面性:在公開場合,通過自稱正義且尊重界限和法律,他們試圖討好消費者;然而在私底下,他們無視任何規則,只想進一步中飽私囊」 。
按Reddit的主張,Anthropic未經許可使用平台內容來訓練AI模型,在明知爬蟲機器人被禁止訪問的情況下,Anthropic自2024年7月以來對Reddit平台發起了超過10萬次訪問 。值得注意的是,2024年8月,Reddit的CEO Steve Huffman曾在採訪時點名必應、Anthropic和Perplexity未經許可抓取Reddit數據,並呼籲對方付費 。
態度上看,Reddit並不反對AI,還對外表示過「我們相信,我們不斷增長的平台數據將成為領先大型語言模型訓練的關鍵要素,併成為Reddit的額外盈利渠道」 。Anthropic創始人Daniela Amodei的老東家OpenAI,就是Reddit的「付費」用戶——2024年5月16日,Reddit宣佈與OpenAI達成合作,允許OpenAI利用Reddit的用戶生成內容進行模型訓練 。
據當時Reddit招股說明書的數據,通過與AI公司簽訂數據授權協議,他們已經實現2.03億美元的收入,預計該數字會隨着時間的推移而增加 。
對於這些持有版權、原始內容的企業們來說,擁抱AI的浪潮是必然,關鍵在於,是被單方面「白嫖」,還是一手交錢一手交貨。
「合理使用」還是「市場說了算」?
Anthropic不是第一次惹上官司 。
2023年10月18日,環球音樂集團和其他出版商起訴Anthropic,稱其濫用「無數」受版權保護的歌詞來訓練模型 。這個案子一直拉鋸到2025年1月4日,雙方對部分版權侵權訴訟達成和解,Anthropic承諾實施「防護措施」,以防止其AI聊天機器人Claude在輸出中複製受版權保護的歌詞,也就是所謂的「護欄協議」 。
在給《好萊塢報道》的一份聲明中,Anthropic表示,「我們將繼續努力,證明在現有版權法的框架下,在生成式AI模型的訓練中使用可能受版權保護的素材,是典型的合理使用」 ——在美國的這些版權官司裏,「合理使用」(Fair Use)原則已成為AI開發者最主要的抗辯理由,也是決定AI訓練合法性的關鍵戰場 。
AI開發者通常辯稱,他們複製受版權保護作品是為了訓練模型,這是一種「轉換性」使用,類似於人類學習或搜索引擎索引,且其AI輸出創造了全新的內容,不直接競爭原始作品。
然而,美國版權局(USCO)在其2025年5月發布的《版權與人工智能報告》第三部分預發布版本中明確指出,AI訓練與人類學習的類比是「錯誤的」,因為合理使用並非所有學習行為的普遍辯護,且AI能夠創建「完美副本」,而人類保留的只是不完美的印象 。美國司法界對此的保守傾向,從判例上可見端倪 。
2024年2月,美國特拉華州聯邦地區法院在Thomson Reuters Enterprise Centre GMBH v. Ross Intelligence Inc.案中做出了對版權所有者有利的裁決,認定競爭對手未經授權使用受版權保護的「頭注」(headnotes)來訓練其AI系統不構成合理使用 。
雖然該案主審法Stephanos Bibas明確指出,他的分析僅限於所涉的「非生成式AI」模型,但此案依然被視為AI版權領域的一個重要判例,因為它強調了「對市場的影響」是合理使用分析中最重要的因素 。
簡單來說,如果AI生成的內容損害了這些類型作品的市場,即使沒有證據表明對特定原始作品的市場造成直接損失,也可能被認定為侵權。畢竟,消費者不在乎你的內容怎麼來的,他們只關心東西好不好。
數字資產也是資產
人類創作的內容產品受版權保護,那麼人類用AI生產的呢?
這個問題,在大洋彼岸的美國,答案有些保守——在美國版權局看來,美國的版權保護僅適用於體現有意義人類作者身份的作品,因此,完全由AI生成、缺乏足夠人類創作投入的內容無法獲得版權保護 。
類似的司法先例不少,例如知名的Naruto v. Slater案:2011年,自然攝影師David Slater到印度尼西亞去拍攝黑猴,一隻母黑猴Naruto靠近並按下遙控快門,斯萊特隨後發布了這些照片,稱為「猴子自拍照」,並收到動物保護團體善待動物組織的起訴書 。
善待動物組織認為這張照片的版權應該歸Naruto本猴,Slater無權持有並使用,然而美國版權局不這麼認為,2014年12月,美國版權局聲明非人類所創作的作品不是美國著作權的主體,2016年,美國聯邦法官決定猴子無法自行持有這些圖像的著作權 。
同樣的邏輯,也被延續到人類和AI之間 。2018年,美國計算機科學家Stephen Thaler向美國版權局提交了幾份專利申請,包括一張名叫「天堂入口」的AI生成圖片,美國版權局駁回了他的申請,Thaler因此提起訴訟 。
在這個案子中,美國哥倫比亞特區巡迴上訴法院強調人類作者身份是版權註冊的「基石要求」,裁定AI系統不能被視為作品的作者 。美國版權局則對純AI生成作品和「AI輔助作品」進行了關鍵區分:如果人類對AI生成內容進行有意義的編輯、完善、選擇、排列或整合,使其體現出實質性的人類創造力和原創表達,則AI輔助作品可能獲得版權保護 。
數字經濟時代,版權是連接傳統知識產權與新興數字資產的關鍵紐帶。 許多核心的數字資產,如數字內容(圖像、文本、音視頻)、代碼、數據集等,其價值的源泉往往在於其受版權法保護的原創性,沒有版權,不僅代表着沒有擁有權、使用權,更沒有商業利用權。
比起美國,我國在AI生成內容的版權歸屬上採取了更為寬鬆的立場 。2025年3月,常熟人民法院裁定AI生成圖像具有版權 。在該案中,林某使用Midjourney生成了一張城市水岸半心形圖像,並用Photoshop進行編輯 。
法院認為,林某對提示詞的修改以及通過圖像處理軟件對圖片的修改,反映了其獨特的選擇和安排,因此生成的圖像具有原創性,屬於《著作權法》保護的作品。換句話說,作者持有這些圖片的版權,還能用這版權賺錢。
看,數字資產也是資產。
新時代的船票
傳統的數據持有方,與AI企業沒必要對立,在數字資產的使用上,雙方是天然的合作伙伴——數據是AI進步的「燃料」,AI是數據變現的渠道。
根據IDC的預測,全球數據將從2023年的120ZB增長到2027年的291ZB,其中企業數據佔比將越來越高,這預示着數據作為核心資產的巨大潛力。聰明如Reddit,早早找好了擁抱新時代的姿勢,而強硬如叫喊着封殺OpenAI的《紐約時報》,至今還站在法院外等着一個結果。
數字經濟時代,數據已經超越傳統生產要素的範疇,成為一種全新的關鍵生產要素:AI模型的訓練和優化高度依賴於數據的質量和數量,數據不再僅僅是記錄信息的載體,而是驅動AI產生智能、實現決策的關鍵「血液」,數據的多樣性、豐富性和實時性直接決定了AI模型的性能和泛化能力。
另外一方面,數據成了企業新的核心競爭力。擁有獨特、高質量的數據集意味着在AI應用和商業模式創新上具備先發優勢,換句話說,數據不再僅僅是輔助決策的工具,而是企業構建自身壁壘、實現可持續發展的戰略資產。
AI巨大的需求擺在面前,企業們沒有理由拒絕這個蓬勃的市場。實際上,隨着數據要素的流通和共享,已經誕生了數據服務商、數據信託、數據交易平台等新業態。企業可以通過數據授權、數據共享等方式,創造新的收入來源和商業模式,數據要素的價值不再侷限於其原始用途,而是可以通過與其他數據融合、通過AI分析產生更高價值。
說到底,版權持有方與AI企業之間的衝突,表面上是版權之爭,實際上是對數據作為核心數字資產如何進行價值分配和商業利用的探索。打官司的過程,就是圍繞利益分配的博弈。
以Reddit為代表的版權持有方們和AI企業達成和解以及合作,無疑透露出版權的邊界正在擴展的現狀,它不僅關乎內容的複製和傳播權,更延伸至內容所承載的數據價值,以及這些數據在AI生態系統中的再利用和再創造。
對於內容創作者和數據持有者而言,如何從被「白嫖」的客體轉變為參與生產的主角,通過數據授權、利益分成等模式,將自身獨特的版權內容轉化為有價值的數據資產,決定着他們能否在新一輪數字變革中搶佔先機,共享AI發展帶來的紅利。
這方面,國內早就有了配套的政策摸索。2023年,財政部發布《企業數據資源相關會計處理暫行規定》,明確企業數據資源的會計處理方法,鼓勵企業對數據資源進行管理和披露,數據入表不僅能提高企業對數據資源的重視,也會促進數據要素的流通和交易。
至於手握着數據這張船票的企業們,能否登上AI這艘駛向新時代的巨輪,不僅要看歷史的進程,也得靠企業們自己努力。