OpenAI、Google 和 Meta 正使用您的数据构建他们的 AI 系统

当白宫公布七家人工智能公司签署的自愿安全和社会承诺清单时,有一点明显缺失:与这些人工智能系统收集和用于训练这项强大技术的数据相关的任何内容。很可能包括你的。

人们对复杂的生成人工智能系统给公众带来的潜在危害有很多担忧。他们对我们的数据所做的事情就是其中之一。我们对这些模型从哪里获取所需的 PB 数据、如何使用这些数据以及在涉及敏感信息时采取了哪些保护措施(如果有)知之甚少。制造这些系统的公司并没有告诉我们太多信息,甚至可能不了解他们自己。

你可能对这一切都感到满意,或者认为生成式人工智能所能带来的好处远远超过了构建它所带来的坏处。但很多其他人则不然。

两周前,一条病毒推文指责谷歌从谷歌文档中获取数据来训练其人工智能工具。在后续报道中,其作者声称谷歌“多年来一直使用文档和电子邮件来训练他们的人工智能”。最初的推文有近千万次浏览,并被转发了数千次。事实上,这甚至可能不是真的,这几乎是题外话。(谷歌表示,除非获得用户许可,否则它不会使用其免费或企业 Workspace 产品(包括 Gmail 和 Docs)中的数据来训练其生成式 AI 模型,尽管它确实使用匿名方式训练了一些 Workspace AI 功能,例如拼写检查和智能撰写数据。)

“到目前为止,科技公司还没有在生成式人工智能方面做到他们现在正在做的事情,即获取每个人的信息并将其输入到产品中,从而导致人们的职业过时,并以以前难以想象的方式彻底破坏他们的隐私。 ”,Ryan Clarkson 说道,他的律师事务所负责针对OpenAI、微软和谷歌的集体诉讼。

谷歌总法律顾问哈莉玛·德莱恩·普拉多(Halimah DeLaine Prado)在一份声明中表示,该公司已明确表示其使用来自公共来源的数据,并补充说“美国法律支持利用公共信息创造新的有益用途,我们期待驳斥这些毫无根据的指控” ”。

然而,我们对自己的信息究竟拥有哪些权利,仍在通过诉讼、工人罢工、监管机构调查、行政命令以及可能的新法律来确定。这些公司将来可能会处理您的数据,但您能对这些公司已经获取、使用并从中获利的数据做些什么呢?答案可能不是很多。

生成型人工智能公司渴望获得您的数据。他们是这样得到的。

简而言之,生成式人工智能系统需要尽可能多的数据进行训练。他们获得的越多,就越能更好地模拟人类的声音、表情、说话和写作方式。互联网提供了大量数据,通过网络抓取工具和 API 相对容易获取这些数据。但这个吞噬过程并不区分受版权保护的作品或个人数据;如果它在那里,它就会接受它。

“在缺乏有意义的隐私法规的情况下,这意味着人们可以在整个互联网上广泛抓取,获取任何‘公开可用’的东西——即互联网的顶层,因为缺乏更好的术语——然后将其用于自己的领域。产品,”电子隐私信息中心人工智能和人权项目的负责人本·温特斯 (Ben Winters) 说,他是该项目关于生成性人工智能危害的报告的合著者。

这意味着,在您以及网站被抓取的几家公司不知情的情况下,某些初创公司可能正在获取并使用您的数据来支持您不知道的技术。这些数据可能在这些公司存在之前几年就已经发布在互联网上。它可能根本不是您发布的。或者您可能认为您向公司提供您的数据是出于您认为满意的一个目的,但现在您担心它被用于其他目的。许多公司的隐私政策不断更新和变化的内容可能会让他们做到这一点。他们经常谈论如何使用您的数据来改进现有产品或开发新产品。可以想象,这包括生成式人工智能系统。

无济于事的是,生成式人工智能公司在披露其数据来源时非常谨慎,通常只是简单地说它们是“公开的”。甚至Meta的第一个 LLaMA 模型的更详细的来源列表也提到了“ Common Crawl ”之类的东西,它是整个互联网的开源档案,以及 Github、Wikipedia 和 Stack Exchange 等网站,这些网站也是巨大的信息库。(Meta尚未透露用于刚刚发布的 Llama 2 的数据。)所有这些来源都可能包含个人信息。OpenAI承认它使用个人数据来训练其模型,但表示它“偶然”遇到了这些数据,并且只是使用它来使“我们的模型变得更好”,而不是建立人们的档案来向他们出售广告。

谷歌和 Meta 拥有大量个人用户数据,他们表示现在不使用它们来训练语言模型,但我们不能保证他们将来不会这样做,特别是如果这意味着获得竞争优势的话。我们知道,谷歌多年来一直扫描用户的电子邮件,以便定位广告(该公司表示不再这样做)。Meta在与第三方(包括剑桥分析公司)共享数据时遭遇重大丑闻,并被处以50 亿美元罚款,而剑桥分析公司后来滥用了这些数据。事实上,这些公司给了用户足够的理由,让他们不相信他们对数据隐私的保证或生产安全系统的承诺。

克拉克森说:“大型科技公司的自愿承诺需要一定程度的信任,但他们不值得,也没有赢得信任。”

版权、隐私法和“公开”数据

对于创作者(例如作家、音乐家和演员)来说,版权和肖像权是一个主要问题,原因很明显。生成式人工智能模型都经过了工作训练,未来可能会让他们失业。

这就是喜剧演员 Sarah Silverman在集体诉讼中起诉 OpenAI 和 Meta的原因。她声称,这两家公司通过使用包含她的书《The Bedwetter》中文本的数据集来训练她的书面作品。还有关于肖像权和开源计算机代码的使用的诉讼。

生成式人工智能的使用也是作家和演员罢工的原因之一,他们的工会WGA 和 SAG-AFTRA 担心工作室会根据艺术家的文字和图像训练人工智能模型并简单地生成新内容而不补偿人类最初的创造者。

但你,作为普通人,可能没有知识产权需要保护,或者至少你的生计可能不依赖于它。因此,您可能更多地担心 OpenAI 这样的公司在其系统收集、重新混合并吐出您的隐私时如何保护您的隐私。

监管机构、立法者和律师也对此感到好奇。隐私法比美国更严格的意大利甚至因隐私问题而暂时禁止 ChatGPT。其他欧洲国家正在考虑对 ChatGPT 进行自己的调查。美国联邦贸易委员会也将目光瞄准了 OpenAI,调查其是否可能违反消费者保护法。该机构还明确表示将密切关注生成式人工智能工具。

但联邦贸易委员会只能执行法律允许的范围。拜登总统鼓励国会通过人工智能相关法案,许多国会议员表示他们也想这样做。然而,国会行动缓慢是出了名的,在监管或保护消费者免受社交媒体平台影响方面几乎没有采取任何措施。立法者可能会从中吸取教训,并在人工智能方面更快地采取行动,否则他们可能会重蹈覆辙。事实上,在生成人工智能向公众介绍后不久,人们就有兴趣做一些事情,这是有希望的。

Winters 表示:“人们提出立法并表示想要针对 [AI] 采取行动的速度比解决其他问题快了 900 万倍。”

但也很难想象国会会对数据隐私采取行动。美国没有联邦消费者在线隐私法。13 岁以下的儿童确实得到了一些隐私保护,通过了自己的隐私法的州的居民也是如此。某些类型的数据也受到保护。这使得全国许多成年人几乎没有什么数据隐私权。

我们可能会通过法庭来弄清楚生成式人工智能如何符合我们已有的法律,这就是像克拉克森这样的人发挥作用的地方。

“这是通过这些诉讼让人们听到自己声音的机会,”他说。“我认为他们会要求就其中一些问题采取行动,而到目前为止我们还没有通过其他渠道取得太大进展。透明度、选择退出的能力、补偿、数据的道德来源——诸如此类。”

在某些情况下,克拉克森和克拉克森律师事务所的合伙人蒂姆·乔达诺(Tim Giordano)也正在处理这些案件,他们表示,现有法律没有明确涵盖人们使用生成人工智能的权利,但法官可以解释并适用于这些权利。在其他情况下,比如加州的隐私法,要求共享或出售人们数据的公司为他们提供选择退出和删除其信息的方式。

“目前这些模特无法删除他们了解到的有关我们的个人信息,因此我们认为这是侵犯隐私的明显例子,”佐丹奴说。

例如,ChatGPT 的选择退出和数据删除工具仅适用于使用 ChatGPT 服务的人收集的数据。它确实有办法让“某些司法管辖区”的人们现在选择不让 OpenAI 的模型处理他们的数据,但它也不能保证它会这样做,并且它要求您提供证据证明您的数据是在该司法管辖区处理的。第一名。

尽管 OpenAI最近改变了政策,并停止使用其客户提供的数据来训练模型,但另一组隐私问题却出现了,这些模型如何使用您在使用它们时提供的数据以及它们释放到野外的信息。OpenAI 首席执行官 Sam Altman 向 CNBC 表示:“客户显然希望我们不要训练他们的数据。”这表明人们对他们的数据被用来训练人工智能系统感到不满意,尽管只有一些人有机会选择脱离它,并且在有限的情况下。与此同时,OpenAI因 ChatGPT 的回应而被起诉诽谤,该回应谎称有人诈骗并窃取了非营利组织的资金。这不是唯一一次ChatGPT 响应对某人提出了虚假指控。

那么您目前可以对此做些什么呢?这就是这里的棘手之处。现在的许多隐私问题都是由于过去未能通过真正、有意义的隐私法造成的,这些法律本可以在这些数据集和技术存在之前保护您的数据。您始终可以尝试最大程度地减少现在发布的数据,但对于已经被抓取和使用的数据却无能为力。你需要一台时间机器来实现这一点,但即使是生成式人工智能也还无法发明时间机器。

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/74492.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2023年8月5日 22:17
下一篇 2023年8月5日 22:27

相关推荐

  • 为什么挪威正在重新考虑对电动汽车的依赖

    挪威奥斯陆——机动车辆产生的二氧化碳排放量占全球二氧化碳排放量的近十分之一,世界各国政府和环保人士都在努力减轻损失。在富裕国家,战略往往围绕电动汽车展开——许多人有充分理由向挪威寻求灵感。 在过去十年中,挪威已成为全球电动汽车应用领域无可争议的领导者。凭借慷慨的政府激励措施,目前该国新车销量的87%是纯电动汽车,这一比例使欧盟(13%)和美国(7%)相形见绌…

    2023年11月4日
    14500
  • 家族办公室如何利用人工智能? 四大应用

    人工智能 (AI) 在商业世界和流行文化中引起了巨大的轰动和恐惧。每个人都听说过 ChatGPT 和其他生成式人工智能平台,并且越来越多的人在个人和职业生活中使用它们。 投资世界也不例外,金融专业人士正在寻找既实施生成式人工智能又保护自己免受其影响的方法。虽然人工智能是一种有用的工具,可以创造强大而积极的成果,但它也涉及巨大的风险。这就是为什么家族办公室需要…

    2023年11月21日
    11000
  • Augmedics 斥资 8250 万美元利用 AR 和 AI 推进脊柱手术

    脊柱手术是增长最快的手术类别之一,目前每年进行的手术数量接近 800 万例。但它们的频率掩盖了复杂性,有时甚至…

    2023年6月27日
    14200
  • 减肥药即将对糖业造成冲击

    减肥药即将对糖业造成冲击 作者: Ilena Peng,Dayanne Sousa,24 年 5 月 28 日 在一个挤满了 800 多名糖交易商的房间里,消费者研究公司 Circana 的高管 Sally Lyons Wyatt 传达了一个重要信息:Ozempic 即将进入你们的行业。 “它未来有可能发展成为巨无霸吗?”她本月早些时候在纽约糖业晚宴上发表演…

    2024年6月17日
    2100
  • 谷歌、微软和亚马逊正在推出他们最新的人工智能助手

    谷歌周二表示,正在将Bard 扩展到其多个应用程序,包括 Gmail 和 Docs。第二天,亚马逊透露,它将“很快”让你与 Alexa 进行“近乎人类的对话”。周四,微软举行了一次活动,宣布计划将其生成式人工智能助手“Copilot”嵌入其许多产品中。 产品和服务不同,但其背后的公司所销售的理念是相同的:生成式人工智能很棒,我们的生成式人工智能工具也很棒,所…

    2023年9月27日
    12100

发表回复

登录后才能评论
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部