OpenAI、Google 和 Meta 正使用您的数据构建他们的 AI 系统

当白宫公布七家人工智能公司签署的自愿安全和社会承诺清单时,有一点明显缺失:与这些人工智能系统收集和用于训练这项强大技术的数据相关的任何内容。很可能包括你的。

人们对复杂的生成人工智能系统给公众带来的潜在危害有很多担忧。他们对我们的数据所做的事情就是其中之一。我们对这些模型从哪里获取所需的 PB 数据、如何使用这些数据以及在涉及敏感信息时采取了哪些保护措施(如果有)知之甚少。制造这些系统的公司并没有告诉我们太多信息,甚至可能不了解他们自己。

你可能对这一切都感到满意,或者认为生成式人工智能所能带来的好处远远超过了构建它所带来的坏处。但很多其他人则不然。

两周前,一条病毒推文指责谷歌从谷歌文档中获取数据来训练其人工智能工具。在后续报道中,其作者声称谷歌“多年来一直使用文档和电子邮件来训练他们的人工智能”。最初的推文有近千万次浏览,并被转发了数千次。事实上,这甚至可能不是真的,这几乎是题外话。(谷歌表示,除非获得用户许可,否则它不会使用其免费或企业 Workspace 产品(包括 Gmail 和 Docs)中的数据来训练其生成式 AI 模型,尽管它确实使用匿名方式训练了一些 Workspace AI 功能,例如拼写检查和智能撰写数据。)

“到目前为止,科技公司还没有在生成式人工智能方面做到他们现在正在做的事情,即获取每个人的信息并将其输入到产品中,从而导致人们的职业过时,并以以前难以想象的方式彻底破坏他们的隐私。 ”,Ryan Clarkson 说道,他的律师事务所负责针对OpenAI、微软和谷歌的集体诉讼。

谷歌总法律顾问哈莉玛·德莱恩·普拉多(Halimah DeLaine Prado)在一份声明中表示,该公司已明确表示其使用来自公共来源的数据,并补充说“美国法律支持利用公共信息创造新的有益用途,我们期待驳斥这些毫无根据的指控” ”。

然而,我们对自己的信息究竟拥有哪些权利,仍在通过诉讼、工人罢工、监管机构调查、行政命令以及可能的新法律来确定。这些公司将来可能会处理您的数据,但您能对这些公司已经获取、使用并从中获利的数据做些什么呢?答案可能不是很多。

生成型人工智能公司渴望获得您的数据。他们是这样得到的。

简而言之,生成式人工智能系统需要尽可能多的数据进行训练。他们获得的越多,就越能更好地模拟人类的声音、表情、说话和写作方式。互联网提供了大量数据,通过网络抓取工具和 API 相对容易获取这些数据。但这个吞噬过程并不区分受版权保护的作品或个人数据;如果它在那里,它就会接受它。

“在缺乏有意义的隐私法规的情况下,这意味着人们可以在整个互联网上广泛抓取,获取任何‘公开可用’的东西——即互联网的顶层,因为缺乏更好的术语——然后将其用于自己的领域。产品,”电子隐私信息中心人工智能和人权项目的负责人本·温特斯 (Ben Winters) 说,他是该项目关于生成性人工智能危害的报告的合著者。

这意味着,在您以及网站被抓取的几家公司不知情的情况下,某些初创公司可能正在获取并使用您的数据来支持您不知道的技术。这些数据可能在这些公司存在之前几年就已经发布在互联网上。它可能根本不是您发布的。或者您可能认为您向公司提供您的数据是出于您认为满意的一个目的,但现在您担心它被用于其他目的。许多公司的隐私政策不断更新和变化的内容可能会让他们做到这一点。他们经常谈论如何使用您的数据来改进现有产品或开发新产品。可以想象,这包括生成式人工智能系统。

无济于事的是,生成式人工智能公司在披露其数据来源时非常谨慎,通常只是简单地说它们是“公开的”。甚至Meta的第一个 LLaMA 模型的更详细的来源列表也提到了“ Common Crawl ”之类的东西,它是整个互联网的开源档案,以及 Github、Wikipedia 和 Stack Exchange 等网站,这些网站也是巨大的信息库。(Meta尚未透露用于刚刚发布的 Llama 2 的数据。)所有这些来源都可能包含个人信息。OpenAI承认它使用个人数据来训练其模型,但表示它“偶然”遇到了这些数据,并且只是使用它来使“我们的模型变得更好”,而不是建立人们的档案来向他们出售广告。

谷歌和 Meta 拥有大量个人用户数据,他们表示现在不使用它们来训练语言模型,但我们不能保证他们将来不会这样做,特别是如果这意味着获得竞争优势的话。我们知道,谷歌多年来一直扫描用户的电子邮件,以便定位广告(该公司表示不再这样做)。Meta在与第三方(包括剑桥分析公司)共享数据时遭遇重大丑闻,并被处以50 亿美元罚款,而剑桥分析公司后来滥用了这些数据。事实上,这些公司给了用户足够的理由,让他们不相信他们对数据隐私的保证或生产安全系统的承诺。

克拉克森说:“大型科技公司的自愿承诺需要一定程度的信任,但他们不值得,也没有赢得信任。”

版权、隐私法和“公开”数据

对于创作者(例如作家、音乐家和演员)来说,版权和肖像权是一个主要问题,原因很明显。生成式人工智能模型都经过了工作训练,未来可能会让他们失业。

这就是喜剧演员 Sarah Silverman在集体诉讼中起诉 OpenAI 和 Meta的原因。她声称,这两家公司通过使用包含她的书《The Bedwetter》中文本的数据集来训练她的书面作品。还有关于肖像权和开源计算机代码的使用的诉讼。

生成式人工智能的使用也是作家和演员罢工的原因之一,他们的工会WGA 和 SAG-AFTRA 担心工作室会根据艺术家的文字和图像训练人工智能模型并简单地生成新内容而不补偿人类最初的创造者。

但你,作为普通人,可能没有知识产权需要保护,或者至少你的生计可能不依赖于它。因此,您可能更多地担心 OpenAI 这样的公司在其系统收集、重新混合并吐出您的隐私时如何保护您的隐私。

监管机构、立法者和律师也对此感到好奇。隐私法比美国更严格的意大利甚至因隐私问题而暂时禁止 ChatGPT。其他欧洲国家正在考虑对 ChatGPT 进行自己的调查。美国联邦贸易委员会也将目光瞄准了 OpenAI,调查其是否可能违反消费者保护法。该机构还明确表示将密切关注生成式人工智能工具。

但联邦贸易委员会只能执行法律允许的范围。拜登总统鼓励国会通过人工智能相关法案,许多国会议员表示他们也想这样做。然而,国会行动缓慢是出了名的,在监管或保护消费者免受社交媒体平台影响方面几乎没有采取任何措施。立法者可能会从中吸取教训,并在人工智能方面更快地采取行动,否则他们可能会重蹈覆辙。事实上,在生成人工智能向公众介绍后不久,人们就有兴趣做一些事情,这是有希望的。

Winters 表示:“人们提出立法并表示想要针对 [AI] 采取行动的速度比解决其他问题快了 900 万倍。”

但也很难想象国会会对数据隐私采取行动。美国没有联邦消费者在线隐私法。13 岁以下的儿童确实得到了一些隐私保护,通过了自己的隐私法的州的居民也是如此。某些类型的数据也受到保护。这使得全国许多成年人几乎没有什么数据隐私权。

我们可能会通过法庭来弄清楚生成式人工智能如何符合我们已有的法律,这就是像克拉克森这样的人发挥作用的地方。

“这是通过这些诉讼让人们听到自己声音的机会,”他说。“我认为他们会要求就其中一些问题采取行动,而到目前为止我们还没有通过其他渠道取得太大进展。透明度、选择退出的能力、补偿、数据的道德来源——诸如此类。”

在某些情况下,克拉克森和克拉克森律师事务所的合伙人蒂姆·乔达诺(Tim Giordano)也正在处理这些案件,他们表示,现有法律没有明确涵盖人们使用生成人工智能的权利,但法官可以解释并适用于这些权利。在其他情况下,比如加州的隐私法,要求共享或出售人们数据的公司为他们提供选择退出和删除其信息的方式。

“目前这些模特无法删除他们了解到的有关我们的个人信息,因此我们认为这是侵犯隐私的明显例子,”佐丹奴说。

例如,ChatGPT 的选择退出和数据删除工具仅适用于使用 ChatGPT 服务的人收集的数据。它确实有办法让“某些司法管辖区”的人们现在选择不让 OpenAI 的模型处理他们的数据,但它也不能保证它会这样做,并且它要求您提供证据证明您的数据是在该司法管辖区处理的。第一名。

尽管 OpenAI最近改变了政策,并停止使用其客户提供的数据来训练模型,但另一组隐私问题却出现了,这些模型如何使用您在使用它们时提供的数据以及它们释放到野外的信息。OpenAI 首席执行官 Sam Altman 向 CNBC 表示:“客户显然希望我们不要训练他们的数据。”这表明人们对他们的数据被用来训练人工智能系统感到不满意,尽管只有一些人有机会选择脱离它,并且在有限的情况下。与此同时,OpenAI因 ChatGPT 的回应而被起诉诽谤,该回应谎称有人诈骗并窃取了非营利组织的资金。这不是唯一一次ChatGPT 响应对某人提出了虚假指控。

那么您目前可以对此做些什么呢?这就是这里的棘手之处。现在的许多隐私问题都是由于过去未能通过真正、有意义的隐私法造成的,这些法律本可以在这些数据集和技术存在之前保护您的数据。您始终可以尝试最大程度地减少现在发布的数据,但对于已经被抓取和使用的数据却无能为力。你需要一台时间机器来实现这一点,但即使是生成式人工智能也还无法发明时间机器。

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/74492.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2023年8月5日 22:17
下一篇 2023年8月5日 22:27

相关推荐

  • 迈伦·斯科尔斯谈布莱克-斯科尔斯、脱碳、人工智能和育儿

    诺贝尔奖获得者迈伦·斯科尔斯通过研究不确定性如何影响资产价格,彻底改变了我们对金融市场的理解。半个多世纪前,他与费舍尔·布莱克 (Fischer Black) 共同开发了布莱克-斯科尔斯期权定价模型,重新定义了投资专业人士的工作方式,并开辟了金融世界的新时代。 尽管斯科尔斯是当今最有影响力的经济学家之一,但他并没有满足于自己的成就。他继续探索金融市场的内部运…

    2023年9月2日
    10700
  • 如何理解人工智能:这是一场公地悲剧,而不是一场军备竞赛

    您可能听说过将人工智能的进步描述为经典的“军备竞赛”。基本逻辑是,如果你不竞相开发先进的人工智能,其他人就会这么做——可能是更鲁莽、更缺乏安全意识的人。所以,最好你应该建造一台超级智能机器,而不是让另一个人先冲过终点线!(在美国的讨论中,另一个人通常是中国。) 但正如我之前所写,这并不是对人工智能情况的准确描述。不存在单一的“终点线”,因为人工智能不仅仅是像…

    2023年7月12日
    10700
  • 生成式人工智能与选股

    随着所有人的目光都集中在生成式人工智能(genAI)及其变革潜力上,个人投资者的兴趣被激起了。这种影响市场的创新无疑引起了很多炒作和质疑。股票首席信息官托尼·德斯皮里托(Tony DeSpirito)解析了令人兴奋的三个原因和需要认识的三个领域。 今年,GenAI 引起了人们的关注并推动了市场的发展,因其变革潜力而与互联网和智能手机相媲美。我们相信 genA…

    2023年10月19日
    11300
  • LK-99,未来的“室温超导体“?什么是导体和超导体?

    在过去的几天里,我一直在疯狂地重新加载Twitter 帐户,试图尽可能多地了解LK-99 ,这是韩国物理学家团队声称已经发现的所谓室温、常压超导体。 这可能是在我了解超导体是什么,或者为什么它在室温或环境压力下很重要之后一周。但几天之内,我从几乎完全无知到对这项技术所带来的可能性感到非常高兴。当然,前提是它是真实的。 你也可以经历从无知到眩晕的旅程。如何制造…

    2023年8月12日
    14300
  • Instagram 的新应用 Threads 不会因为无聊而杀死 Twitter

    Threads 是 Instagram对“Twitter 杀手”应用程序的最新尝试,于 7 月 5 日晚推出,与所有其他试图利用埃隆·马斯克 (Elon Musk) 管理极其不善的Twitter 收购的应用程序一样,人们也提出了同样的问题:这最终会成为“Twitter 杀手”应用程序吗?一个让 Twitter 变得无关紧要的东西? 在我们得到答案之前(剧透:…

    2023年7月24日
    18400

发表回复

登录后才能评论
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部