OpenAI、Google 和 Meta 正使用您的数据构建他们的 AI 系统

当白宫公布七家人工智能公司签署的自愿安全和社会承诺清单时,有一点明显缺失:与这些人工智能系统收集和用于训练这项强大技术的数据相关的任何内容。很可能包括你的。

人们对复杂的生成人工智能系统给公众带来的潜在危害有很多担忧。他们对我们的数据所做的事情就是其中之一。我们对这些模型从哪里获取所需的 PB 数据、如何使用这些数据以及在涉及敏感信息时采取了哪些保护措施(如果有)知之甚少。制造这些系统的公司并没有告诉我们太多信息,甚至可能不了解他们自己。

你可能对这一切都感到满意,或者认为生成式人工智能所能带来的好处远远超过了构建它所带来的坏处。但很多其他人则不然。

两周前,一条病毒推文指责谷歌从谷歌文档中获取数据来训练其人工智能工具。在后续报道中,其作者声称谷歌“多年来一直使用文档和电子邮件来训练他们的人工智能”。最初的推文有近千万次浏览,并被转发了数千次。事实上,这甚至可能不是真的,这几乎是题外话。(谷歌表示,除非获得用户许可,否则它不会使用其免费或企业 Workspace 产品(包括 Gmail 和 Docs)中的数据来训练其生成式 AI 模型,尽管它确实使用匿名方式训练了一些 Workspace AI 功能,例如拼写检查和智能撰写数据。)

“到目前为止,科技公司还没有在生成式人工智能方面做到他们现在正在做的事情,即获取每个人的信息并将其输入到产品中,从而导致人们的职业过时,并以以前难以想象的方式彻底破坏他们的隐私。 ”,Ryan Clarkson 说道,他的律师事务所负责针对OpenAI、微软和谷歌的集体诉讼。

谷歌总法律顾问哈莉玛·德莱恩·普拉多(Halimah DeLaine Prado)在一份声明中表示,该公司已明确表示其使用来自公共来源的数据,并补充说“美国法律支持利用公共信息创造新的有益用途,我们期待驳斥这些毫无根据的指控” ”。

然而,我们对自己的信息究竟拥有哪些权利,仍在通过诉讼、工人罢工、监管机构调查、行政命令以及可能的新法律来确定。这些公司将来可能会处理您的数据,但您能对这些公司已经获取、使用并从中获利的数据做些什么呢?答案可能不是很多。

生成型人工智能公司渴望获得您的数据。他们是这样得到的。

简而言之,生成式人工智能系统需要尽可能多的数据进行训练。他们获得的越多,就越能更好地模拟人类的声音、表情、说话和写作方式。互联网提供了大量数据,通过网络抓取工具和 API 相对容易获取这些数据。但这个吞噬过程并不区分受版权保护的作品或个人数据;如果它在那里,它就会接受它。

“在缺乏有意义的隐私法规的情况下,这意味着人们可以在整个互联网上广泛抓取,获取任何‘公开可用’的东西——即互联网的顶层,因为缺乏更好的术语——然后将其用于自己的领域。产品,”电子隐私信息中心人工智能和人权项目的负责人本·温特斯 (Ben Winters) 说,他是该项目关于生成性人工智能危害的报告的合著者。

这意味着,在您以及网站被抓取的几家公司不知情的情况下,某些初创公司可能正在获取并使用您的数据来支持您不知道的技术。这些数据可能在这些公司存在之前几年就已经发布在互联网上。它可能根本不是您发布的。或者您可能认为您向公司提供您的数据是出于您认为满意的一个目的,但现在您担心它被用于其他目的。许多公司的隐私政策不断更新和变化的内容可能会让他们做到这一点。他们经常谈论如何使用您的数据来改进现有产品或开发新产品。可以想象,这包括生成式人工智能系统。

无济于事的是,生成式人工智能公司在披露其数据来源时非常谨慎,通常只是简单地说它们是“公开的”。甚至Meta的第一个 LLaMA 模型的更详细的来源列表也提到了“ Common Crawl ”之类的东西,它是整个互联网的开源档案,以及 Github、Wikipedia 和 Stack Exchange 等网站,这些网站也是巨大的信息库。(Meta尚未透露用于刚刚发布的 Llama 2 的数据。)所有这些来源都可能包含个人信息。OpenAI承认它使用个人数据来训练其模型,但表示它“偶然”遇到了这些数据,并且只是使用它来使“我们的模型变得更好”,而不是建立人们的档案来向他们出售广告。

谷歌和 Meta 拥有大量个人用户数据,他们表示现在不使用它们来训练语言模型,但我们不能保证他们将来不会这样做,特别是如果这意味着获得竞争优势的话。我们知道,谷歌多年来一直扫描用户的电子邮件,以便定位广告(该公司表示不再这样做)。Meta在与第三方(包括剑桥分析公司)共享数据时遭遇重大丑闻,并被处以50 亿美元罚款,而剑桥分析公司后来滥用了这些数据。事实上,这些公司给了用户足够的理由,让他们不相信他们对数据隐私的保证或生产安全系统的承诺。

克拉克森说:“大型科技公司的自愿承诺需要一定程度的信任,但他们不值得,也没有赢得信任。”

版权、隐私法和“公开”数据

对于创作者(例如作家、音乐家和演员)来说,版权和肖像权是一个主要问题,原因很明显。生成式人工智能模型都经过了工作训练,未来可能会让他们失业。

这就是喜剧演员 Sarah Silverman在集体诉讼中起诉 OpenAI 和 Meta的原因。她声称,这两家公司通过使用包含她的书《The Bedwetter》中文本的数据集来训练她的书面作品。还有关于肖像权和开源计算机代码的使用的诉讼。

生成式人工智能的使用也是作家和演员罢工的原因之一,他们的工会WGA 和 SAG-AFTRA 担心工作室会根据艺术家的文字和图像训练人工智能模型并简单地生成新内容而不补偿人类最初的创造者。

但你,作为普通人,可能没有知识产权需要保护,或者至少你的生计可能不依赖于它。因此,您可能更多地担心 OpenAI 这样的公司在其系统收集、重新混合并吐出您的隐私时如何保护您的隐私。

监管机构、立法者和律师也对此感到好奇。隐私法比美国更严格的意大利甚至因隐私问题而暂时禁止 ChatGPT。其他欧洲国家正在考虑对 ChatGPT 进行自己的调查。美国联邦贸易委员会也将目光瞄准了 OpenAI,调查其是否可能违反消费者保护法。该机构还明确表示将密切关注生成式人工智能工具。

但联邦贸易委员会只能执行法律允许的范围。拜登总统鼓励国会通过人工智能相关法案,许多国会议员表示他们也想这样做。然而,国会行动缓慢是出了名的,在监管或保护消费者免受社交媒体平台影响方面几乎没有采取任何措施。立法者可能会从中吸取教训,并在人工智能方面更快地采取行动,否则他们可能会重蹈覆辙。事实上,在生成人工智能向公众介绍后不久,人们就有兴趣做一些事情,这是有希望的。

Winters 表示:“人们提出立法并表示想要针对 [AI] 采取行动的速度比解决其他问题快了 900 万倍。”

但也很难想象国会会对数据隐私采取行动。美国没有联邦消费者在线隐私法。13 岁以下的儿童确实得到了一些隐私保护,通过了自己的隐私法的州的居民也是如此。某些类型的数据也受到保护。这使得全国许多成年人几乎没有什么数据隐私权。

我们可能会通过法庭来弄清楚生成式人工智能如何符合我们已有的法律,这就是像克拉克森这样的人发挥作用的地方。

“这是通过这些诉讼让人们听到自己声音的机会,”他说。“我认为他们会要求就其中一些问题采取行动,而到目前为止我们还没有通过其他渠道取得太大进展。透明度、选择退出的能力、补偿、数据的道德来源——诸如此类。”

在某些情况下,克拉克森和克拉克森律师事务所的合伙人蒂姆·乔达诺(Tim Giordano)也正在处理这些案件,他们表示,现有法律没有明确涵盖人们使用生成人工智能的权利,但法官可以解释并适用于这些权利。在其他情况下,比如加州的隐私法,要求共享或出售人们数据的公司为他们提供选择退出和删除其信息的方式。

“目前这些模特无法删除他们了解到的有关我们的个人信息,因此我们认为这是侵犯隐私的明显例子,”佐丹奴说。

例如,ChatGPT 的选择退出和数据删除工具仅适用于使用 ChatGPT 服务的人收集的数据。它确实有办法让“某些司法管辖区”的人们现在选择不让 OpenAI 的模型处理他们的数据,但它也不能保证它会这样做,并且它要求您提供证据证明您的数据是在该司法管辖区处理的。第一名。

尽管 OpenAI最近改变了政策,并停止使用其客户提供的数据来训练模型,但另一组隐私问题却出现了,这些模型如何使用您在使用它们时提供的数据以及它们释放到野外的信息。OpenAI 首席执行官 Sam Altman 向 CNBC 表示:“客户显然希望我们不要训练他们的数据。”这表明人们对他们的数据被用来训练人工智能系统感到不满意,尽管只有一些人有机会选择脱离它,并且在有限的情况下。与此同时,OpenAI因 ChatGPT 的回应而被起诉诽谤,该回应谎称有人诈骗并窃取了非营利组织的资金。这不是唯一一次ChatGPT 响应对某人提出了虚假指控。

那么您目前可以对此做些什么呢?这就是这里的棘手之处。现在的许多隐私问题都是由于过去未能通过真正、有意义的隐私法造成的,这些法律本可以在这些数据集和技术存在之前保护您的数据。您始终可以尝试最大程度地减少现在发布的数据,但对于已经被抓取和使用的数据却无能为力。你需要一台时间机器来实现这一点,但即使是生成式人工智能也还无法发明时间机器。

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/74492.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2023年8月5日 22:17
下一篇 2023年8月5日 22:27

相关推荐

  • Claude 2 的创造者 Anthropic 正努力成为一家安全第一的人工智能公司

    科学家们希望人工智能对他们撒谎。 Anthropic 的研究科学家 Evan Hubinger 在旧金山市中心办公室的会议室里向这家人工智能初创公司的“协调”团队成员描述了该项目的目标。协调意味着确保像 Anthropic 这样的公司制造的人工智能系统实际上能够按照人类的要求进行操作,而正确地做到这一点是当今人工智能研究人员面临的最重要的挑战之一。 Hubi…

    2023年8月28日
    17000
  • 人工智能技能:科技工作者正在通过课程、研究和工作学习转向人工智能

    尽管科技工作者正在面临薪资停滞、裁员以及对技能的需求普遍低于过去十年的问题,但人工智能专家已成为硅谷新的“it”女孩。 人工智能初创公司NonprofitsHQ的创始人扎克·布朗 (Zac Brown) 表示:“我们今天看到的所有正在开发的产品都正在转向人工智能驱动的操作类型。” “对于一名普通软件工程师来说,这是一段艰难的时期。” 当布朗去年找工作时,他并…

    2023年7月22日
    14200
  • 大型科技公司的繁荣让策略师们争先恐后地跟上涨势

    围绕人工智能股票的狂热让华尔街的预测者措手不及,引发了策略师之间的竞赛,以跟上 2024 年开始时已经超出他们预期的股市上涨。 五家华尔街公司已经上调了对标准普尔 500 指数的预测,继 2023 年上涨 24% 后,今年年初该指数将上涨 7%。仅在过去一周,Piper Sandler & Co.、瑞银集团 (UBS Group AG) 和巴克莱银行…

    2024年3月30日
    2600
  • 中欧领先世界,电动汽车市场的分化发展

    作者:David Fickling 世界汽车工业正在同时向两个方向加速发展。除非这些矛盾得到解决,否则汽车制造商就会面临退出道路的风险。 在中国和欧洲,向电动汽车的转型正在加快步伐。摩根士丹利 (Morgan Stanley) 的数据显示,8 月份电池驱动汽车占这两个市场销量的近四分之一,而插电式混合动力汽车的总份额则分别提升至 38% 和 28%。 在美国…

    2023年11月11日
    8800
  • 人工智能和财务顾问不断发展的舞蹈

    人工智能是提升和重新定义工作职责的工具。以下是人工智能如何增强信托顾问的工作,同时帮助他们保持相关性和竞争力的策略。 在我们快速发展的技术环境中,人工智能已经侵入我们的日常工作流程,执行诸如回复客户电子邮件、创建内容和促进内部沟通等任务。即使 Gmail 中的 Google 自动完成功能也能显着节省时间。人工智能提供了坚实的基础。正因为如此,像 Intuit…

    2023年9月18日
    8800

发表回复

登录后才能评论
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部