OpenAI、Google 和 Meta 正使用您的数据构建他们的 AI 系统

当白宫公布七家人工智能公司签署的自愿安全和社会承诺清单时,有一点明显缺失:与这些人工智能系统收集和用于训练这项强大技术的数据相关的任何内容。很可能包括你的。

人们对复杂的生成人工智能系统给公众带来的潜在危害有很多担忧。他们对我们的数据所做的事情就是其中之一。我们对这些模型从哪里获取所需的 PB 数据、如何使用这些数据以及在涉及敏感信息时采取了哪些保护措施(如果有)知之甚少。制造这些系统的公司并没有告诉我们太多信息,甚至可能不了解他们自己。

你可能对这一切都感到满意,或者认为生成式人工智能所能带来的好处远远超过了构建它所带来的坏处。但很多其他人则不然。

两周前,一条病毒推文指责谷歌从谷歌文档中获取数据来训练其人工智能工具。在后续报道中,其作者声称谷歌“多年来一直使用文档和电子邮件来训练他们的人工智能”。最初的推文有近千万次浏览,并被转发了数千次。事实上,这甚至可能不是真的,这几乎是题外话。(谷歌表示,除非获得用户许可,否则它不会使用其免费或企业 Workspace 产品(包括 Gmail 和 Docs)中的数据来训练其生成式 AI 模型,尽管它确实使用匿名方式训练了一些 Workspace AI 功能,例如拼写检查和智能撰写数据。)

“到目前为止,科技公司还没有在生成式人工智能方面做到他们现在正在做的事情,即获取每个人的信息并将其输入到产品中,从而导致人们的职业过时,并以以前难以想象的方式彻底破坏他们的隐私。 ”,Ryan Clarkson 说道,他的律师事务所负责针对OpenAI、微软和谷歌的集体诉讼。

谷歌总法律顾问哈莉玛·德莱恩·普拉多(Halimah DeLaine Prado)在一份声明中表示,该公司已明确表示其使用来自公共来源的数据,并补充说“美国法律支持利用公共信息创造新的有益用途,我们期待驳斥这些毫无根据的指控” ”。

然而,我们对自己的信息究竟拥有哪些权利,仍在通过诉讼、工人罢工、监管机构调查、行政命令以及可能的新法律来确定。这些公司将来可能会处理您的数据,但您能对这些公司已经获取、使用并从中获利的数据做些什么呢?答案可能不是很多。

生成型人工智能公司渴望获得您的数据。他们是这样得到的。

简而言之,生成式人工智能系统需要尽可能多的数据进行训练。他们获得的越多,就越能更好地模拟人类的声音、表情、说话和写作方式。互联网提供了大量数据,通过网络抓取工具和 API 相对容易获取这些数据。但这个吞噬过程并不区分受版权保护的作品或个人数据;如果它在那里,它就会接受它。

“在缺乏有意义的隐私法规的情况下,这意味着人们可以在整个互联网上广泛抓取,获取任何‘公开可用’的东西——即互联网的顶层,因为缺乏更好的术语——然后将其用于自己的领域。产品,”电子隐私信息中心人工智能和人权项目的负责人本·温特斯 (Ben Winters) 说,他是该项目关于生成性人工智能危害的报告的合著者。

这意味着,在您以及网站被抓取的几家公司不知情的情况下,某些初创公司可能正在获取并使用您的数据来支持您不知道的技术。这些数据可能在这些公司存在之前几年就已经发布在互联网上。它可能根本不是您发布的。或者您可能认为您向公司提供您的数据是出于您认为满意的一个目的,但现在您担心它被用于其他目的。许多公司的隐私政策不断更新和变化的内容可能会让他们做到这一点。他们经常谈论如何使用您的数据来改进现有产品或开发新产品。可以想象,这包括生成式人工智能系统。

无济于事的是,生成式人工智能公司在披露其数据来源时非常谨慎,通常只是简单地说它们是“公开的”。甚至Meta的第一个 LLaMA 模型的更详细的来源列表也提到了“ Common Crawl ”之类的东西,它是整个互联网的开源档案,以及 Github、Wikipedia 和 Stack Exchange 等网站,这些网站也是巨大的信息库。(Meta尚未透露用于刚刚发布的 Llama 2 的数据。)所有这些来源都可能包含个人信息。OpenAI承认它使用个人数据来训练其模型,但表示它“偶然”遇到了这些数据,并且只是使用它来使“我们的模型变得更好”,而不是建立人们的档案来向他们出售广告。

谷歌和 Meta 拥有大量个人用户数据,他们表示现在不使用它们来训练语言模型,但我们不能保证他们将来不会这样做,特别是如果这意味着获得竞争优势的话。我们知道,谷歌多年来一直扫描用户的电子邮件,以便定位广告(该公司表示不再这样做)。Meta在与第三方(包括剑桥分析公司)共享数据时遭遇重大丑闻,并被处以50 亿美元罚款,而剑桥分析公司后来滥用了这些数据。事实上,这些公司给了用户足够的理由,让他们不相信他们对数据隐私的保证或生产安全系统的承诺。

克拉克森说:“大型科技公司的自愿承诺需要一定程度的信任,但他们不值得,也没有赢得信任。”

版权、隐私法和“公开”数据

对于创作者(例如作家、音乐家和演员)来说,版权和肖像权是一个主要问题,原因很明显。生成式人工智能模型都经过了工作训练,未来可能会让他们失业。

这就是喜剧演员 Sarah Silverman在集体诉讼中起诉 OpenAI 和 Meta的原因。她声称,这两家公司通过使用包含她的书《The Bedwetter》中文本的数据集来训练她的书面作品。还有关于肖像权和开源计算机代码的使用的诉讼。

生成式人工智能的使用也是作家和演员罢工的原因之一,他们的工会WGA 和 SAG-AFTRA 担心工作室会根据艺术家的文字和图像训练人工智能模型并简单地生成新内容而不补偿人类最初的创造者。

但你,作为普通人,可能没有知识产权需要保护,或者至少你的生计可能不依赖于它。因此,您可能更多地担心 OpenAI 这样的公司在其系统收集、重新混合并吐出您的隐私时如何保护您的隐私。

监管机构、立法者和律师也对此感到好奇。隐私法比美国更严格的意大利甚至因隐私问题而暂时禁止 ChatGPT。其他欧洲国家正在考虑对 ChatGPT 进行自己的调查。美国联邦贸易委员会也将目光瞄准了 OpenAI,调查其是否可能违反消费者保护法。该机构还明确表示将密切关注生成式人工智能工具。

但联邦贸易委员会只能执行法律允许的范围。拜登总统鼓励国会通过人工智能相关法案,许多国会议员表示他们也想这样做。然而,国会行动缓慢是出了名的,在监管或保护消费者免受社交媒体平台影响方面几乎没有采取任何措施。立法者可能会从中吸取教训,并在人工智能方面更快地采取行动,否则他们可能会重蹈覆辙。事实上,在生成人工智能向公众介绍后不久,人们就有兴趣做一些事情,这是有希望的。

Winters 表示:“人们提出立法并表示想要针对 [AI] 采取行动的速度比解决其他问题快了 900 万倍。”

但也很难想象国会会对数据隐私采取行动。美国没有联邦消费者在线隐私法。13 岁以下的儿童确实得到了一些隐私保护,通过了自己的隐私法的州的居民也是如此。某些类型的数据也受到保护。这使得全国许多成年人几乎没有什么数据隐私权。

我们可能会通过法庭来弄清楚生成式人工智能如何符合我们已有的法律,这就是像克拉克森这样的人发挥作用的地方。

“这是通过这些诉讼让人们听到自己声音的机会,”他说。“我认为他们会要求就其中一些问题采取行动,而到目前为止我们还没有通过其他渠道取得太大进展。透明度、选择退出的能力、补偿、数据的道德来源——诸如此类。”

在某些情况下,克拉克森和克拉克森律师事务所的合伙人蒂姆·乔达诺(Tim Giordano)也正在处理这些案件,他们表示,现有法律没有明确涵盖人们使用生成人工智能的权利,但法官可以解释并适用于这些权利。在其他情况下,比如加州的隐私法,要求共享或出售人们数据的公司为他们提供选择退出和删除其信息的方式。

“目前这些模特无法删除他们了解到的有关我们的个人信息,因此我们认为这是侵犯隐私的明显例子,”佐丹奴说。

例如,ChatGPT 的选择退出和数据删除工具仅适用于使用 ChatGPT 服务的人收集的数据。它确实有办法让“某些司法管辖区”的人们现在选择不让 OpenAI 的模型处理他们的数据,但它也不能保证它会这样做,并且它要求您提供证据证明您的数据是在该司法管辖区处理的。第一名。

尽管 OpenAI最近改变了政策,并停止使用其客户提供的数据来训练模型,但另一组隐私问题却出现了,这些模型如何使用您在使用它们时提供的数据以及它们释放到野外的信息。OpenAI 首席执行官 Sam Altman 向 CNBC 表示:“客户显然希望我们不要训练他们的数据。”这表明人们对他们的数据被用来训练人工智能系统感到不满意,尽管只有一些人有机会选择脱离它,并且在有限的情况下。与此同时,OpenAI因 ChatGPT 的回应而被起诉诽谤,该回应谎称有人诈骗并窃取了非营利组织的资金。这不是唯一一次ChatGPT 响应对某人提出了虚假指控。

那么您目前可以对此做些什么呢?这就是这里的棘手之处。现在的许多隐私问题都是由于过去未能通过真正、有意义的隐私法造成的,这些法律本可以在这些数据集和技术存在之前保护您的数据。您始终可以尝试最大程度地减少现在发布的数据,但对于已经被抓取和使用的数据却无能为力。你需要一台时间机器来实现这一点,但即使是生成式人工智能也还无法发明时间机器。

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/74492.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2023年8月5日 22:17
下一篇 2023年8月5日 22:27

相关推荐

  • 您的数据治理和管理实践是否跟上了人工智能热潮?

    随着金融服务公司竞相跟上机器学习和人工智能 (AI) 等技术进步,数据治理 (DG) 和数据管理 (DM) 发挥着越来越重要的作用——在技术军备竞赛中,这一作用往往被低估。 DG 和 DM 是成功的企业数据和分析平台的核心组成部分。它们必须符合组织的投资理念和结构。掌握业务领域知识、经验和专业知识使公司能够将 BD 管理与传统小数据管理结合起来。 毫无疑问,…

    2024年7月31日
    7900
  • 1万亿美元涨势后,Nvidia 似乎已准备好进行股票分割

    英伟达公司(Nvidia Corp)的强劲上涨仅在今年就增加了超过1万亿美元的价值,使其远高于上次拆股时的水平。一些人认为这家人工智能巨头有能力再次这样做。 该公司上次宣布进行一拆四的股票分割是在 2021 年 5 月,当时股价约为每股 600 美元。如今,该股已接近 1,000 美元水平,延续了去年 240% 的涨幅。尽管多头认为基于未来盈利增长的估值相对…

    2024年3月15日
    26300
  • 华尔街在新兴市场寻找人工智能赢家

    一些全球最大的基金管理公司正在寻找美国以外的下一波人工智能赢家。 在全球对人工智能的狂热推动下,英伟达公司股价在不到一年的时间内上涨了三倍,美国半导体制造商关键指数上涨了 50% 之际,投资者正将目光转向新兴市场,以寻求更好的价值和更大的选择空间。 高盛集团旗下的资产管理部门表示,他们正在专门寻找人工智能供应链组件制造商的股份,例如冷却系统和电源。摩根大通资…

    2024年5月7日
    4400
  • 大型科技公司的轻松之路即将结束

    大型科技公司的轻松之路即将结束 具有一定规模的科技公司长期以来一直期望得到当局的宽容,这是有原因的。他们总是如愿以偿。多年来,苹果公司利用法律漏洞在欧盟几乎不纳税,同时在那里创造了创纪录的利润,这要归功于爱尔兰的特殊待遇,爱尔兰是苹果欧洲总部所在地。多年来,Alphabet Inc. 旗下的谷歌之所以能够巩固其在搜索领域的主导地位,就是因为该公司给予自己的购…

    2024年10月7日
    3000
  • 亚马逊 Prime Day 是一个虚构的节日,旨在诱骗人们购物

    您可能认为速溶锅不会成为您夏季购物清单的首选。酷热的天气并不能让人们有心情吃一顿丰盛的炖菜。但亚马逊凭借 Prime Day 活动(现为 48 小时特惠盛会),成功使其成为每年 7 月中旬消费者购买的热门商品。 俗话说,如果你建造了它,他们就会来,这对亚马逊来说意味着噗!凭空发明一个购物假期。 亚马逊 Prime Day 于 2015 年首次推出,最初是为了…

    2023年7月14日
    19100

发表回复

登录后才能评论
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部