旧金山联邦法院新集体诉讼指控Salesforce盗用图书训练AI模型
一起在旧金山联邦法院提起的新集体诉讼指控软件巨头Salesforce使用盗版图书库构建其XGen人工智能模型,并在问题曝光后删除了相关来源引用。该诉讼由作家E.莫莉·坦泽和詹妮弗·吉尔摩周三提交,依据《版权法》提起,指控其持续侵权行为,称Salesforce"通过继续存储、复制、使用和处理包含原告...受版权保护书籍副本的数据集"进行侵权。
涉嫌使用盗版数据集训练AI
诉状指出,Salesforce公司"盗用了数十万本受版权保护的书籍来开发其XGen系列大语言模型",依赖于包含Books3书籍库的"臭名昭著的RedPajama和The Pile数据集"。Books3是从私人追踪网站Bibliotik复制的超过19.6万本书的合集。
文件显示,Salesforce在2023年6月发布XGen时,最初将"RedPajama-Books"列为其训练来源之一,公司工程师还直接将GitHub用户引导至这两个数据集。但到9月份,该公司据称从其网站上删除了这些引用,代之以模糊的"来自公开可用源的自然语言数据"描述。
平台移除侵权数据
诉讼称,托管Books3的平台Hugging Face在次月因版权投诉移除了该数据集。诉状还指控Salesforce在2022年使用The Pile训练其CodeGen模型,随后通过其Agentforce AI平台将该技术商业化,包括2024年10月发布的XGen-Sales模型。
两个月后,Salesforce据称删除了相关披露内容,删除了关于"RedPajama-Books"的图表和引用,代之以"公开可用数据混合"的模糊表述,并在2023年12月声称其模型使用的是"合法合规的数据集",未提及RedPajama。
法律专家分析诉讼前景
Fathom Legal管理合伙人伊希塔·夏尔马向媒体表示,作者必须"证明实际经济损失,而不仅仅是他们的书籍被用于训练",并指出文斯·查布里亚法官最近驳回了针对Meta的类似索赔,认为"'我们的作品被使用'的简单主张不足以成立"。
近期类似案件中对OpenAI和Anthropic的裁决也倾向于AI公司,法官认为作者未能证明市场损害,尽管有法官批评Anthropic维持着"一个永久性的盗版书籍库"。
"使用RedPajama或The Pile等公共数据集不会自动消除故意侵权,"夏尔马说,并补充道,"如果他们知道或忽视了受版权保护的作品被包含在内,法院仍可能认定其存在鲁莽漠视行为。"她补充说:"除非AI能复制原始作品的部分内容,否则模型权重本身不被视为版权侵权。"
CEO言论被引为证据
诉状引用了Salesforce首席执行官马克·贝尼奥夫的声明,他在2024年1月接受彭博社采访时表示,AI公司"窃取"训练数据,且"所有训练数据都是偷来的"。
原告方寻求为自2022年10月以来作品被使用的所有美国版权持有人获得集体认证,要求法定损害赔偿、销毁侵权副本、返还利润、故意侵权声明以及律师费。