#本文仅代表作者观点,不代表IPRdaily立场,未经作者许可,禁止转载#
“美国加州法院裁定:使用版权内容训练AI属合法行为。”
案件概述
一家位于美国加利福尼亚州北区的人工智能企业Anthropic,从互联网上的非法网站上下载了大量受著作权保护的盗版电子书籍。此外,该企业还购买了一些受著作权保护的书籍(其中一些与非法网站上的书籍重叠),拆除了书籍的装订,对每一页进行了扫描,并将其转换为可检索的数字化格式。这些行为均旨在建立一个包含“世界上所有书籍”的中央图书馆,以实现“永久保存”的目标。Anthropic从这个中央图书馆挑选出不同数据集合,用于训练其正在开发的LLMs(Claude),为人工智能服务提供动力。然而,一些书籍的作者,作为原告,对该公司提起了侵权诉讼。本次简易判决的争议焦点在于,根据《著作权法》第107条,涉案作品的使用在多大程度上可以被视为“合理使用”。
案件基本背景
被告Anthropic为一家人工智能公司,由前OpenAI员工于2021年1月成立。该公司推出的核心产品是一款名为“Claude”的人工智能软件服务。用户向Claude输入文本提示后,该软件能够迅速以文字形式作出回应,展现出类似人类的阅读和书写能力。Claude之所以具备此能力,是因为Anthropic利用其构建研究图书馆中的书籍及其他文本资料对Claude进行了训练。
原告Andrea Bartz、Charles Graeber以及Kirk Wallace Johnson均为Anthropic公司未经许可擅自复制其著作的作者。本案涉及作家Bartz所著的四部小说,分别为《The Lost Night: A Novel》、《The Herd》、《We Were Never Here》以及《The Spare Room》,Graeber所撰写的两部非小说类作品,即《The Good Nurse: A True Story of Medicine, Madness, and Murder》和《The Breakthrough: Immunotherapy and the Race to Cure Cancer》,以及Johnson所著的三部非小说类作品《To Be A Friend Is Fatal: The Fight to Save the Iraqis America Left Behind》、《The Feather Thief: Beauty, Obsession, and the Natural History Heist of the Century》以及《The Fishermen and the Dragon: Fear, Greed, and a Fight for Justice on the Gulf Coast》。
2021年1月或2月开始,Anthropic从线上的在线图书馆下载了多本盗版书籍。据统计,Anthropic非法复制了超过700万册图书,其中包括原告作者们至少两部作品的副本。不过,后期出于法律方面的考量,Anthropic开始减少对盗版书籍的依赖,并开创出一条获取图书资源的新渠道,即投入数百万美元购买了数百万本印刷书籍,并将这些书籍扫描为数字形式(丢弃纸质书稿),包含扫描页面的图像和机器可读文本。通过上述收集资源的方式,Anthropic 构建了一个“研究图书馆”(research library)或“通用数据区”(generalized data area),并计划“永久保存所有内容”“即便这些书籍不用于训练语言模型”。
被选中用于训练LLMs的作品主要通过四种方式被复制:从研究图书馆中复制用以创建训练集、以清理重复或价值低内容为目的的复制、标记化(tokenized)过程中的复制以及模型训练所引发模型本身对作品的压缩复制。值得注意的一点,由于最终的人工智能服务由LLM和附加软件结合提供,该项服务本身(也即Claude)并不会直接向公众输出与原作相同或实质性近似的内容。
关键时间线
2024年8月,三位作者提起集体诉讼,控告Anthropic侵犯了其著作权,盗版用于其研究图书馆建设和训练其LLM。
2024年10月,日程安排令要求在2025年3月6日之前提出任何集体动议。作者迅速对诉状进行了修改,将相关联的公司实体列为原告。
Anthropic公司并未依照先前的计划选择提出驳回起诉的动议,而是允许在集体诉讼认证之前,提前就合理使用问题进行简易判决。(目前,Anthropic公司仅就合理使用原则提出了简易判决动议,为了获得简易判决,Anthropic公司必须基于无可争议的事实和/或有利于合理使用的事实推论承担举证责任。)这是本案首份实质性裁决。同期提出的集体诉讼认证动议仍待审理。
分析
(一)法律基础
美国《著作权法》第107条关于合理使用构成的四项要素:
对受著作权保护作品的合理使用……出于诸如批评、评论、新闻报道、教学(包括课堂使用的多份复制)、学术或研究等目的,不构成著作权侵权。在具体个案中判断对作品的使用是否属于合理使用时,应考虑的因素应包括:
(1) 使用的目的和性质,包括该使用行为是否具有商业性质或为非营利教育目的;
(2) 受著作权保护作品的性质;
(3) 所使用部分的数量和实质性内容与整个受著作权保护作品的关系;
(4) 该使用行为对受著作权保护作品的潜在市场或价值所产生的影响。
(二)四要素分析
依据在先判例,法院需首先判定某件受著作权保护的作品是否“被以多种方式使用”,然后逐一评估每种使用方式是否构成合理使用。因此本案将涉案使用行为拆解为训练时的复制行为、依据合法图书或网络盗版资源而建立研究图书馆的复制行为三类,并分别分析了各项使用行为是否符合合理使用的四大要素。
1. 使用目的和性质
(1)训练时的复制行为
Anthropic公司通过复制作者受著作权保护的作品,迭代映射每个文本片段与文本片段序列之间的统计关系,使得训练完成的LLM在接收新文本输入时,能像人类阅读提示并撰写回复那样生成新文本输出。无论这些LLM是否压缩复制了这些内容,将作品用于训练LLM的“目的与性质”具有变革性——且程度堪称惊人。
首先,原告无权禁止他人将其作品用于训练或学习本身。其次,Anthropic公司的大型语言模型并未向公众复制特定作品的创造性元素,甚至没有复制某位作者可辨识的表达风格(假设这些内容可受著作权保护),而只是输出了语法、结构和文风。这并不属于著作权法保护的内容。最后,原告所援引的“汤森路透诉人工智能数据训练著作权侵权案”与本案事实不符,本案的用途与著作权所有者有权控制的任何内容保持了足够的“独立性”。
因此,第一要素支持训练复制行为构成合理使用。
(2)建立研究图书馆的复制行为
① 依据合法图书的数字化复制行为
Anthropic公司购买了数百万册印刷版书籍以“建立研究图书”。该公司在将每本印刷版替换为数字副本(仅供内部图书馆使用,不对外共享或销售)后销毁了原印刷本。对于这些副本,作者并未指控Anthropic未支付采购费用,仅抗议其将载体形式从印刷版改为数字版。
法院认为,根据本案事实,这种载体转换本身并未新增副本数量,既改善了存储条件又实现了可检索性,且未侵害著作权人的合法权益——该行为具有转化性。
② 依据网络盗版资源的复制行为
在为其研究图书馆采购书籍前,Anthropic公司下载了超过七百万册盗版书籍,未支付任何费用,且即便在决定不再(或永远不)将这些盗版书籍用于训练其人工智能后,仍保留这些盗版副本。
法院认为,通过盗版手段建立研究资料库且拒不支付著作权费用,同时保留可能具备潜在用途的副本,这种行为本身就构成独立的使用目的——且绝非转化性使用。
2. 受著作权保护作品的性质
第二要素的主要功能在于辅助评估其他要素:揭示争议作品性质与其二次使用性质之间的差异(前文所述),以及每部作品被使用部分的数量/实质性程度与二次使用之间的关联(下文将述)。该要素同样对所有复制行为作出不利于合理使用的判定。
3. 所使用部分的数量和实质性内容与整个受著作权保护作品的关系
(1)训练时的复制行为
原告并未指控Claude服务的输出内容与其作品存在任何可追溯的关联。因此,用于训练Claude底层大语言模型的复制行为具有特别合理性。首先,各方均认同训练任何一个大语言模型都需要数十亿词汇量。既然使用海量作品具有合理必要性,那么实际训练过程中使用任一作品都具有同等合理性。其次,目前尚未有证据表明向公众输出的内容构成侵权。综上,第三个要素支持认定训练复制行为属于合理使用。
(2)建立研究图书馆的复制行为
① 依据合法图书的数字化复制行为
对于Anthropic公司采购并转化为数字馆藏的纸质图书,该公司本就享有保留这些馆藏副本的权利。复制行为的目的在于优化馆藏存储条件并提升检索功能,而完整复制作品内容恰恰符合这一目的要求。该过程不存在超额复制行为,且原始复制件已被销毁。
② 依据网络盗版资源的复制行为
考虑到“尽可能获取所有书籍以备大语言模型训练或其他用途”这一目的,几乎任何未经授权的复制行为都属过度。
4. 对受著作权保护作品的潜在市场或价值所产生的影响
(1)训练时的复制行为
用于训练特定大语言模型的复制件过去没有、将来也不会取代对作者作品复制件的需求,或者说不会以《著作权法》所认定的方式产生影响。虽然作者方主张,训练大语言模型将导致与其作品形成竞争关系的作品激增,但作者方的诉请与声称“培养学童写作能力将导致竞争作品激增”并无二致。这并非《著作权法》所关注的那类竞争性或创造性替代。以及,作者方继而主张,训练大语言模型已(或将)挤占一个新兴市场——即授权其作品专门用于大语言模型训练的市场,但《著作权法》并未赋予作者方开发此类用途市场的权利。
(2)建立研究图书馆的复制行为
① 依据合法图书的数字化复制行为
对于这些副本,本裁决假设Anthropic公司将印刷版转为数字版的行为,替代了其本应向作者直接采购新数字副本的交易(若非其能够购买二手印刷版)。但根据第一要素所述理由,此类损失并不涉及《著作权法》为作者保留的专有权利。这仅是格式转换行为,并未剥夺作者的法定权益。
② 依据网络盗版资源的复制行为
Anthropic在这些问题上几乎没有反驳余地。首先,Anthropic辩称Claude的服务并未通过替代原告作品传统市场[或篡夺]来降低其价值。但窃取作者作品的盗版显然造成了这种影响。其次,Anthropic声称或许能在公开市场购买部分书籍(及其他文本),但无法购得它复制的其他文本。但本案并不涉及那些它无法购买的文本——它本可以购买原告的著作(以及许多其他作品),事实上它后来也确实购买了。最后,Anthropic主张放弃购买单本书籍对这些文本的影响微乎其微。但若将此类行为宽恕为合理使用可能导致,只要声称出于转化性使用目的(如撰写书评摘录、训练大语言模型等)使用作品,就可以窃取本可购买的作品而无需担责。
总结
本裁决认定Anthropic公司的训练使用行为构成合理使用,并基于不同理由确认印刷转数字的格式转换属于合理使用。但否决了Anthropic公司关于必须将盗版图书馆副本视为训练副本的简易判决请求。
法院将就Anthropic创建中央图书馆所使用的盗版副本及其造成的实际损害或法定赔偿(包括故意侵权情形)进行审判。尽管Anthropic后续购买一本其早前从互联网下载的盗版书籍,但这并不能免除其复制行为的法律责任,但可能影响法定赔偿金额的判定。对于图书馆复制件或用于非大型语言模型训练用途的其他复制件所引发的争议,其责任归属仍存在开放空间。
(原标题:美国法院首次做出人工智能训练行为构成合理使用的判决)
点击“阅读原文”,获取该案完整版
栏目支持,共建合作伙伴持续招募
来源:国际知识产权观察微信平台
编辑:IPRdaily辛夷 校对:IPRdaily纵横君
注:原文链接:盘点:2025年上半年多领域名企知识产权诉讼梳理!(点击标题查看原文)
「关于IPRdaily」
IPRdaily是全球领先的知识产权综合信息服务提供商,致力于连接全球知识产权与科技创新人才。汇聚了来自于中国、美国、欧洲、俄罗斯、以色列、澳大利亚、新加坡、日本、韩国等15个国家和地区的高科技公司及成长型科技企业的管理者及科技研发或知识产权负责人,还有来自政府、律师及代理事务所、研发或服务机构的全球近100万用户(国内70余万+海外近30万),2019年全年全网页面浏览量已经突破过亿次传播。
(英文官网:iprdaily.com 中文官网:iprdaily.cn)
本文来自国际知识产权观察微信平台并经IPRdaily.cn中文网编辑。转载此文章须经权利人同意,并附上出处与作者信息。文章不代表IPRdaily.cn立场,如若转载,请注明出处:“http://www.iprdaily.cn”