#本文僅代表作者觀點,不代表IPRdaily立場,未經作者許可,禁止轉載#
“美國加州法院裁定:使用版權內容訓練AI屬合法行為?!?br>
案件概述
一家位于美國加利福尼亞州北區的人工智能企業Anthropic,從互聯網上的非法網站上下載了大量受著作權保護的盜版電子書籍。此外,該企業還購買了一些受著作權保護的書籍(其中一些與非法網站上的書籍重疊),拆除了書籍的裝訂,對每一頁進行了掃描,并將其轉換為可檢索的數字化格式。這些行為均旨在建立一個包含“世界上所有書籍”的中央圖書館,以實現“永久保存”的目標。Anthropic從這個中央圖書館挑選出不同數據集合,用于訓練其正在開發的LLMs(Claude),為人工智能服務提供動力。然而,一些書籍的作者,作為原告,對該公司提起了侵權訴訟。本次簡易判決的爭議焦點在于,根據《著作權法》第107條,涉案作品的使用在多大程度上可以被視為“合理使用”。
案件基本背景
被告Anthropic為一家人工智能公司,由前OpenAI員工于2021年1月成立。該公司推出的核心產品是一款名為“Claude”的人工智能軟件服務。用戶向Claude輸入文本提示后,該軟件能夠迅速以文字形式作出回應,展現出類似人類的閱讀和書寫能力。Claude之所以具備此能力,是因為Anthropic利用其構建研究圖書館中的書籍及其他文本資料對Claude進行了訓練。
原告Andrea Bartz、Charles Graeber以及Kirk Wallace Johnson均為Anthropic公司未經許可擅自復制其著作的作者。本案涉及作家Bartz所著的四部小說,分別為《The Lost Night: A Novel》、《The Herd》、《We Were Never Here》以及《The Spare Room》,Graeber所撰寫的兩部非小說類作品,即《The Good Nurse: A True Story of Medicine, Madness, and Murder》和《The Breakthrough: Immunotherapy and the Race to Cure Cancer》,以及Johnson所著的三部非小說類作品《To Be A Friend Is Fatal: The Fight to Save the Iraqis America Left Behind》、《The Feather Thief: Beauty, Obsession, and the Natural History Heist of the Century》以及《The Fishermen and the Dragon: Fear, Greed, and a Fight for Justice on the Gulf Coast》。
2021年1月或2月開始,Anthropic從線上的在線圖書館下載了多本盜版書籍。據統計,Anthropic非法復制了超過700萬冊圖書,其中包括原告作者們至少兩部作品的副本。不過,后期出于法律方面的考量,Anthropic開始減少對盜版書籍的依賴,并開創出一條獲取圖書資源的新渠道,即投入數百萬美元購買了數百萬本印刷書籍,并將這些書籍掃描為數字形式(丟棄紙質書稿),包含掃描頁面的圖像和機器可讀文本。通過上述收集資源的方式,Anthropic 構建了一個“研究圖書館”(research library)或“通用數據區”(generalized data area),并計劃“永久保存所有內容”“即便這些書籍不用于訓練語言模型”。
被選中用于訓練LLMs的作品主要通過四種方式被復制:從研究圖書館中復制用以創建訓練集、以清理重復或價值低內容為目的的復制、標記化(tokenized)過程中的復制以及模型訓練所引發模型本身對作品的壓縮復制。值得注意的一點,由于最終的人工智能服務由LLM和附加軟件結合提供,該項服務本身(也即Claude)并不會直接向公眾輸出與原作相同或實質性近似的內容。
關鍵時間線
2024年8月,三位作者提起集體訴訟,控告Anthropic侵犯了其著作權,盜版用于其研究圖書館建設和訓練其LLM。
2024年10月,日程安排令要求在2025年3月6日之前提出任何集體動議。作者迅速對訴狀進行了修改,將相關聯的公司實體列為原告。
Anthropic公司并未依照先前的計劃選擇提出駁回起訴的動議,而是允許在集體訴訟認證之前,提前就合理使用問題進行簡易判決。(目前,Anthropic公司僅就合理使用原則提出了簡易判決動議,為了獲得簡易判決,Anthropic公司必須基于無可爭議的事實和/或有利于合理使用的事實推論承擔舉證責任。)這是本案首份實質性裁決。同期提出的集體訴訟認證動議仍待審理。
分析
(一)法律基礎
美國《著作權法》第107條關于合理使用構成的四項要素:
對受著作權保護作品的合理使用……出于諸如批評、評論、新聞報道、教學(包括課堂使用的多份復制)、學術或研究等目的,不構成著作權侵權。在具體個案中判斷對作品的使用是否屬于合理使用時,應考慮的因素應包括:
(1) 使用的目的和性質,包括該使用行為是否具有商業性質或為非營利教育目的;
(2) 受著作權保護作品的性質;
(3) 所使用部分的數量和實質性內容與整個受著作權保護作品的關系;
(4) 該使用行為對受著作權保護作品的潛在市場或價值所產生的影響。
(二)四要素分析
依據在先判例,法院需首先判定某件受著作權保護的作品是否“被以多種方式使用”,然后逐一評估每種使用方式是否構成合理使用。因此本案將涉案使用行為拆解為訓練時的復制行為、依據合法圖書或網絡盜版資源而建立研究圖書館的復制行為三類,并分別分析了各項使用行為是否符合合理使用的四大要素。
1. 使用目的和性質
(1)訓練時的復制行為
Anthropic公司通過復制作者受著作權保護的作品,迭代映射每個文本片段與文本片段序列之間的統計關系,使得訓練完成的LLM在接收新文本輸入時,能像人類閱讀提示并撰寫回復那樣生成新文本輸出。無論這些LLM是否壓縮復制了這些內容,將作品用于訓練LLM的“目的與性質”具有變革性——且程度堪稱驚人。
首先,原告無權禁止他人將其作品用于訓練或學習本身。其次,Anthropic公司的大型語言模型并未向公眾復制特定作品的創造性元素,甚至沒有復制某位作者可辨識的表達風格(假設這些內容可受著作權保護),而只是輸出了語法、結構和文風。這并不屬于著作權法保護的內容。最后,原告所援引的“湯森路透訴人工智能數據訓練著作權侵權案”與本案事實不符,本案的用途與著作權所有者有權控制的任何內容保持了足夠的“獨立性”。
因此,第一要素支持訓練復制行為構成合理使用。
(2)建立研究圖書館的復制行為
① 依據合法圖書的數字化復制行為
Anthropic公司購買了數百萬冊印刷版書籍以“建立研究圖書”。該公司在將每本印刷版替換為數字副本(僅供內部圖書館使用,不對外共享或銷售)后銷毀了原印刷本。對于這些副本,作者并未指控Anthropic未支付采購費用,僅抗議其將載體形式從印刷版改為數字版。
法院認為,根據本案事實,這種載體轉換本身并未新增副本數量,既改善了存儲條件又實現了可檢索性,且未侵害著作權人的合法權益——該行為具有轉化性。
② 依據網絡盜版資源的復制行為
在為其研究圖書館采購書籍前,Anthropic公司下載了超過七百萬冊盜版書籍,未支付任何費用,且即便在決定不再(或永遠不)將這些盜版書籍用于訓練其人工智能后,仍保留這些盜版副本。
法院認為,通過盜版手段建立研究資料庫且拒不支付著作權費用,同時保留可能具備潛在用途的副本,這種行為本身就構成獨立的使用目的——且絕非轉化性使用。
2. 受著作權保護作品的性質
第二要素的主要功能在于輔助評估其他要素:揭示爭議作品性質與其二次使用性質之間的差異(前文所述),以及每部作品被使用部分的數量/實質性程度與二次使用之間的關聯(下文將述)。該要素同樣對所有復制行為作出不利于合理使用的判定。
3. 所使用部分的數量和實質性內容與整個受著作權保護作品的關系
(1)訓練時的復制行為
原告并未指控Claude服務的輸出內容與其作品存在任何可追溯的關聯。因此,用于訓練Claude底層大語言模型的復制行為具有特別合理性。首先,各方均認同訓練任何一個大語言模型都需要數十億詞匯量。既然使用海量作品具有合理必要性,那么實際訓練過程中使用任一作品都具有同等合理性。其次,目前尚未有證據表明向公眾輸出的內容構成侵權。綜上,第三個要素支持認定訓練復制行為屬于合理使用。
(2)建立研究圖書館的復制行為
① 依據合法圖書的數字化復制行為
對于Anthropic公司采購并轉化為數字館藏的紙質圖書,該公司本就享有保留這些館藏副本的權利。復制行為的目的在于優化館藏存儲條件并提升檢索功能,而完整復制作品內容恰恰符合這一目的要求。該過程不存在超額復制行為,且原始復制件已被銷毀。
② 依據網絡盜版資源的復制行為
考慮到“盡可能獲取所有書籍以備大語言模型訓練或其他用途”這一目的,幾乎任何未經授權的復制行為都屬過度。
4. 對受著作權保護作品的潛在市場或價值所產生的影響
(1)訓練時的復制行為
用于訓練特定大語言模型的復制件過去沒有、將來也不會取代對作者作品復制件的需求,或者說不會以《著作權法》所認定的方式產生影響。雖然作者方主張,訓練大語言模型將導致與其作品形成競爭關系的作品激增,但作者方的訴請與聲稱“培養學童寫作能力將導致競爭作品激增”并無二致。這并非《著作權法》所關注的那類競爭性或創造性替代。以及,作者方繼而主張,訓練大語言模型已(或將)擠占一個新興市場——即授權其作品專門用于大語言模型訓練的市場,但《著作權法》并未賦予作者方開發此類用途市場的權利。
(2)建立研究圖書館的復制行為
① 依據合法圖書的數字化復制行為
對于這些副本,本裁決假設Anthropic公司將印刷版轉為數字版的行為,替代了其本應向作者直接采購新數字副本的交易(若非其能夠購買二手印刷版)。但根據第一要素所述理由,此類損失并不涉及《著作權法》為作者保留的專有權利。這僅是格式轉換行為,并未剝奪作者的法定權益。
② 依據網絡盜版資源的復制行為
Anthropic在這些問題上幾乎沒有反駁余地。首先,Anthropic辯稱Claude的服務并未通過替代原告作品傳統市場[或篡奪]來降低其價值。但竊取作者作品的盜版顯然造成了這種影響。其次,Anthropic聲稱或許能在公開市場購買部分書籍(及其他文本),但無法購得它復制的其他文本。但本案并不涉及那些它無法購買的文本——它本可以購買原告的著作(以及許多其他作品),事實上它后來也確實購買了。最后,Anthropic主張放棄購買單本書籍對這些文本的影響微乎其微。但若將此類行為寬恕為合理使用可能導致,只要聲稱出于轉化性使用目的(如撰寫書評摘錄、訓練大語言模型等)使用作品,就可以竊取本可購買的作品而無需擔責。
總結
本裁決認定Anthropic公司的訓練使用行為構成合理使用,并基于不同理由確認印刷轉數字的格式轉換屬于合理使用。但否決了Anthropic公司關于必須將盜版圖書館副本視為訓練副本的簡易判決請求。
法院將就Anthropic創建中央圖書館所使用的盜版副本及其造成的實際損害或法定賠償(包括故意侵權情形)進行審判。盡管Anthropic后續購買一本其早前從互聯網下載的盜版書籍,但這并不能免除其復制行為的法律責任,但可能影響法定賠償金額的判定。對于圖書館復制件或用于非大型語言模型訓練用途的其他復制件所引發的爭議,其責任歸屬仍存在開放空間。
(原標題:美國法院首次做出人工智能訓練行為構成合理使用的判決)
點擊“閱讀原文”,獲取該案完整版
欄目支持,共建合作伙伴持續招募
來源:國際知識產權觀察微信平臺
編輯:IPRdaily辛夷 校對:IPRdaily縱橫君
注:原文鏈接:盤點:2025年上半年多領域名企知識產權訴訟梳理!(點擊標題查看原文)
「關于IPRdaily」
IPRdaily是全球領先的知識產權綜合信息服務提供商,致力于連接全球知識產權與科技創新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區的高科技公司及成長型科技企業的管理者及科技研發或知識產權負責人,還有來自政府、律師及代理事務所、研發或服務機構的全球近100萬用戶(國內70余萬+海外近30萬),2019年全年全網頁面瀏覽量已經突破過億次傳播。
(英文官網:iprdaily.com 中文官網:iprdaily.cn)
本文來自國際知識產權觀察微信平臺并經IPRdaily.cn中文網編輯。轉載此文章須經權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉載,請注明出處:“http://www.tyccp663.com”