作者和 OpenAI 的 ChatGPT 的版权之争

风生水起 • 2023年11月6日 02:04 • 科技 • 阅读 86

四年前，我出版了我的第一本书：《末世：世界末日简要指南》。

它确实…好吗？我在您现在正在阅读的网站上获得了问答 -谢谢，迪伦！——这本书最终帮助我找到了运营 Future Perfect 的工作。有一天，我从一个电台热播节目转到另一个电台热播节目，试图用五分钟的片段向从费城到菲尼克斯的早间 DJ 解释为什么我们应该更加担心人类灭绝的威胁，以及我们可以采取哪些措施来防止这种情况的发生。。

但它并不是畅销书。让我们这样说吧——大约每六个月，我就会收到出版商的一封信，其中包含“不支付版税声明”，这有点像从你父母那里得到一张圣诞贺卡，只不过它没有钱，只是包含了记下告诉你他们养育你花了多少钱。

所以我承认，几个月前，当我收到来自aisafety.info的人发来的一封电子邮件时，我有点高兴，他们的目标是创建一个集中中心，用于解释有关人工智能安全和人工智能一致性的问题——如何让人工智能对人类目标负责——对普通受众负责。为此，他们正在构建一个大型语言模型（取了一个令人愉快的名字“ Stampy ”），它可以充当聊天机器人，回答人们可能提出的有关该主题的问题。（该网站刚刚软启动，而 Stampy 仍处于原型阶段。）他们请求允许使用我的书《End Times》，其中包含关于人工智能存在风险的长章，作为 Stampy 将训练的数据的一部分在。

我的第一个想法，就像任何作者的想法一样：有人实际上读过（或者至少知道）我的书！但后来我又想到：作为一名作家，允许聊天机器人接受你自己作品的训练意味着什么？（而且是免费的，不少于。）我是否为一个可以帮助人们更好地理解像人工智能安全这样复杂而重要的主题的项目做出了贡献？或者我只是在加速自己的过时过程？

培训天数

随着像 ChatGPT 这样的大型语言模型变得更加广泛和更加强大，这些都是现在的问题。正如我的同事萨拉·莫里森 (Sara Morrison)今年夏天报道的那样，已经有一些代表作家和艺术家针对谷歌和 OpenAI 等大型科技公司提起的集体诉讼，这些公司声称他们的作品（包括整本书）已被用来训练聊天机器人，而无需任何授权。他们的许可并且没有报酬。8 月，一群著名小说家——包括《权力的游戏》作者乔治·R·R·马丁（George RR Martin），他确实还有其他一些截止日期需要遵守——对 ChatGPT 制造商 OpenAI 提起诉讼，指控其“大规模系统性盗窃”。

这种担忧并不是什么新鲜事——科技公司长期以来一直因利用人们的数据来改进和完善他们的产品而受到批评，而这种方式通常对普通用户来说远非透明。但人工智能的感觉有所不同，瑞安·克拉克森律师告诉萨拉，他的律师事务所是一些集体诉讼的幕后黑手。“到目前为止，科技公司还没有在生成式人工智能方面做到他们现在正在做的事情，即获取每个人的信息并将其输入到产品中，从而导致人们的职业过时，并以以前难以想象的方式彻底破坏他们的隐私。 ”。

在这里我要指出的是，aisafety.info 所做的事情与 Meta 或 Microsoft 等公司的工作有着根本的不同。一方面，他们在使用我的作品之前征求了我作为作者的许可。这非常有礼貌！

除此之外，aisafety.info 是一个非营利性研究小组，这意味着没有人会从我的工作提供的培训数据中赚钱。（我怀疑这一事实不会让我的出版商感到惊讶。）聊天机器人 Stampy 将成为一种教育工具，作为 Vox 部门的负责人，该部门非常关心强大人工智能的风险，我很高兴我的工作可以在让机器人变得更聪明方面发挥一些小作用。

我们迫切需要有关人工智能风险的更可靠的信息来源。“我认为人们对人工智能一致性和安全性的普遍理解非常差，”aisafety.info 的罗伯特·迈尔斯告诉我。“我想说，人们比以前更加关心，但他们了解的并不多。”

经过正确源材料训练的聊天机器人可以成为出色的教育工具。人工智能导师可以根据学生的教育水平进行调整，并可以随时了解有关该学科的最新信息。此外，令人愉快的讽刺是，利用语言模型中的一些最新突破来创建一种教育工具，旨在帮助人们了解他们正在使用的技术的潜在危险。

什么是人工智能的“合理使用”？

我认为，在获得训练作品作者的明确许可的情况下，出于非营利性、教育目的训练聊天机器人似乎是可以的。但是像乔治·R·R·马丁或约翰·格里沙姆这样的小说家是否可以控告营利性公司在未经明确许可的情况下拿走他们的作品呢？

不幸的是，法律在这个问题上还很不明确。正如哈佛大学法学教授兼第一修正案专家丽贝卡·图什内特 (Rebecca Tushnet)在《哈佛公报》上发表的采访中解释的那样，数字公司通常能够采用合理使用的概念来捍卫现有知识产权的获取。她说：“如果不合理使用这些词来输出不复制的内容，我们今天所知道的互联网，包括谷歌、图像搜索和谷歌图书，就不会存在。”

考虑这个问题的一种方法是思考像我这样的人类如何写书。当我研究和撰写《末世》时，我借鉴并综合了数百位不同作者的现有作品。有时我会直接引用它们，尽管对于其他作者在合理使用下可以直接引用多少个人作品有具体的规则。（粗略的规则是，引用出版书籍时的字数为 300 字，引用简短的文章或论文时的字数约为 200 字。）

然而，更常见的是，我在研究中阅读和处理的内容在我的大脑中回响，与其他报告和推理相结合，并作为我自己的作品出现——我的作品是由我自己的消息来源提供的。或者，换句话说，是由我自己的个人训练数据集提供的信息。

就人工智能而言，差异在于规模。ChatGPT 在几秒钟内“阅读”的已发表单词数量比我几辈子所能阅读的还要多，而且与我不同的是，在我人类有限的短期记忆中，这些数据不会立即被我接下来想到的任何内容所取代。（棒球季后赛，如果我诚实的话。）法律学者可以借鉴数百年的版权法来确定在人类案件中该怎么做，但法律可以准确、公平地管理，甚至理解人工智能可以做什么相同的材料尚未编写。

正如 Tushnet 继续指出的那样，我们应该少关注那些根据现行法律可能无法回答的法律问题，而更多地关注从语言模型中塑造我们想要什么和不想要什么。是的，经过训练的聊天机器人是为了传播人工智能安全的福音。《权力的游戏》系列下一本书的人工智能编写版本可能不会那么多。