自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

Salesforce因AI训练数据涉嫌非法面临集体诉讼

2025-10-17 17:44:57
收藏

旧金山联邦法院新集体诉讼指控Salesforce盗用图书训练AI模型

一起在旧金山联邦法院提起的新集体诉讼指控软件巨头Salesforce使用盗版图书库构建其XGen人工智能模型,并在问题曝光后删除了相关来源引用。该诉讼由作家E.莫莉·坦泽和詹妮弗·吉尔摩周三提交,依据《版权法》提起,指控其持续侵权行为,称Salesforce"通过继续存储、复制、使用和处理包含原告...受版权保护书籍副本的数据集"进行侵权。

涉嫌使用盗版数据集训练AI

诉状指出,Salesforce公司"盗用了数十万本受版权保护的书籍来开发其XGen系列大语言模型",依赖于包含Books3书籍库的"臭名昭著的RedPajama和The Pile数据集"。Books3是从私人追踪网站Bibliotik复制的超过19.6万本书的合集。

文件显示,Salesforce在2023年6月发布XGen时,最初将"RedPajama-Books"列为其训练来源之一,公司工程师还直接将GitHub用户引导至这两个数据集。但到9月份,该公司据称从其网站上删除了这些引用,代之以模糊的"来自公开可用源的自然语言数据"描述。

平台移除侵权数据

诉讼称,托管Books3的平台Hugging Face在次月因版权投诉移除了该数据集。诉状还指控Salesforce在2022年使用The Pile训练其CodeGen模型,随后通过其Agentforce AI平台将该技术商业化,包括2024年10月发布的XGen-Sales模型。

两个月后,Salesforce据称删除了相关披露内容,删除了关于"RedPajama-Books"的图表和引用,代之以"公开可用数据混合"的模糊表述,并在2023年12月声称其模型使用的是"合法合规的数据集",未提及RedPajama。

法律专家分析诉讼前景

Fathom Legal管理合伙人伊希塔·夏尔马向媒体表示,作者必须"证明实际经济损失,而不仅仅是他们的书籍被用于训练",并指出文斯·查布里亚法官最近驳回了针对Meta的类似索赔,认为"'我们的作品被使用'的简单主张不足以成立"。

近期类似案件中对OpenAI和Anthropic的裁决也倾向于AI公司,法官认为作者未能证明市场损害,尽管有法官批评Anthropic维持着"一个永久性的盗版书籍库"。

"使用RedPajama或The Pile等公共数据集不会自动消除故意侵权,"夏尔马说,并补充道,"如果他们知道或忽视了受版权保护的作品被包含在内,法院仍可能认定其存在鲁莽漠视行为。"她补充说:"除非AI能复制原始作品的部分内容,否则模型权重本身不被视为版权侵权。"

CEO言论被引为证据

诉状引用了Salesforce首席执行官马克·贝尼奥夫的声明,他在2024年1月接受彭博社采访时表示,AI公司"窃取"训练数据,且"所有训练数据都是偷来的"。

原告方寻求为自2022年10月以来作品被使用的所有美国版权持有人获得集体认证,要求法定损害赔偿、销毁侵权副本、返还利润、故意侵权声明以及律师费。

展开阅读全文
更多新闻