AI训练数据的版权保护:公地的悲剧还是合作的繁荣?-无心号

GPT-4o内置声音模仿「寡姐」一案闹的沸沸扬扬，虽然以OpenAI发布声明暂停使用疑似寡姐声音的「SKY」的语音、否认曾侵权声音为阶段性结束。但是，一时间「即便是AI，也得保护人类版权」这一话题甚嚣尘上，更刺激起了人们本来就对AI是否可控这一现代迷思的焦虑。

无心号四卷带您了解

近日，普林斯顿大学、哥伦比亚大学、哈佛大学和宾夕法尼亚大学共同推出了一项关于生成式AI版权保护的新方案，题为《An Economic Solution to Copyright Challenges of Generative AI》。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

生成式人工智能（AI）技术的快速进展已经深刻影响了文艺产业，带来了文学、视觉艺术和音乐等领域中由AI生成的内容时代。这些AI模型如大型语言模型和扩散模型能够创作出能够与人类艺术家的作品媲美乃至可能取代的高复杂性内容。

这种能力的迅速增长引发了关于大模型训练数据作者权利的法律和道德界限的重要问题，特别是在版权侵犯方面的争议。

版权保护一直以来都是各国法律中不可或缺的一部分。保护创作者的权益，可以更有利于调动创作者的积极性，使得文化事业更加繁华。版权保护为创作者不止提供了精神支持，也同时提供了物质支持（利益分配），这也是为创作者进一步提供了再创作的物质基础和精神动力。

另一方面，版权保护也更利于优秀作品的传播，因为版权保护也是在保护传播者的正当权益和保护公众对于分享知识文化成果的权利。诚然，一部作品的诞生，不是为了孤芳自赏，更多的是为了以某种形式分享给大众，为大众所用。而且, 版权保护也可以让创作者更加合理地使用他人的结果，避免引发剽窃等诸多麻烦。

因此，目前有几家AI公司因涉嫌生产侵犯版权的内容而卷入法律诉讼。比如说《纽约时报》起诉 Chatgpt的开发者 OpenAI [1]，控诉后者将数百万篇《纽约时报》的文章被用于训练智能聊天机器人（例如ChatGPT ）。这些机器人现在作为新闻消息源与《纽约时报》展开竞争。

《纽约时报》声称，OpenAI和微软大型语言模型 (LLM)能够模仿《纽约时报》的文字风格从而生成类似内容，有时候甚至能原封不动生成已有的内容，这种现象影响到《纽约时报》通过订阅和广告获得收入，并且有违版权许可。

起诉书中，《纽约时报》提及到一个例子 – 微软的「以必应浏览（Browse With Bing）」中的功能，能够几乎一字不差地重现《纽约时报》旗下网站「The Wirecutter」的内容，但完全没有为提供相关的链接进行引用。这个例子充分体现了AI 非法使用版权内容。

目前，针对OpenAI的类似诉讼案件正在不断增加，例如近来GPT-4o内置声音模仿「寡姐」一案[2]。但由于对于AI 非常使用版权内容难以界定，诉讼案件尚在激烈讨论中。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

图1：NY Times指控ChatGPT生成内容和NY Times文章高度一致。

这种不确定性可能导致双方在法庭争议中浪费大量资源。

因此，需要一种新的框架来公平合理地处理这些新出现的版权问题，确保在鼓励创新的同时，也保护数据提供者的合法权益。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

图2：该工作被Ethan Mollick宣传。

Shapley版权分享框架

该文章的框架分为两步：

第一步是评估模型在整个数据集的每一个可能子集上训练的效用。直观上，如果在某数据子集上训练的模型能够有很大的可能性生成与部署模型相似的AI生成内容（例如艺术作品），那么该数据子集的效用就会很大。
第二步是根据第一步的效用使用合作博弈论工具（即Shapley值）来确定任何训练数据版权所有者的应得份额。简而言之，如果将其数据包括在模型训练中能够增加效用，那么版权所有者的份额就会大。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

图3：基于Shapley值的版权分配框架。

不同数据源组合的效用

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

Shapley值是博弈论中的一个解决方案概念，它提供了一种根据每个玩家组合作为联盟的效用分配收益的原则性方法。它是由诺贝尔奖获得者Lloyd Shapley (此后简称为Shapley) 提出的。

Shapley （1923-2016）是美国籍数学家和经济学家，并且由于对稳定分配理论和市场设计的实践做出突出贡献，而获得了2012年的经济学诺贝尔奖 [3]。Shapley是博弈论领域的传奇，并且在其博士工作和博士论文中引入了Shapley值。

美国经济学会称Shapley是「博弈论和经济学理论的巨人」。

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

SRS提供了一种经济学方法解决生成式AI环境中的版权和收益分配问题，支持公正的数据使用和创新激励。

该文章用一个简单的例子来解释Shapley值的计算过程。在这个例子中，有三个数据所有者（A, B, C），他们共同训练一个模型，使用模型对某生成内容的log-likelihood作为效用函数。假设使用不同的数据组合训练后的模型的log-likelihood如下：

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

可以根据以下量来计算A的Shapley值：

根据Shapley值公式，可以得到

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

计算考虑

为了减轻这种计算负担，可以采用两种方法：

实验结果

该文章通过实验评估了所提出框架在分配AI生成内容版税方面的有效性，重点关注创意艺术和图像领域的标志设计。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 97552693@qq.com 举报，一经查实，本站将立刻删除。本文链接：https://hbwxh.com/n/12576.html

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?