Claude 2 的创造者 Anthropic 正努力成为一家安全第一的人工智能公司

科学家们希望人工智能对他们撒谎。

Anthropic 的研究科学家 Evan Hubinger 在旧金山市中心办公室的会议室里向这家人工智能初创公司的“协调”团队成员描述了该项目的目标。协调意味着确保像 Anthropic 这样的公司制造的人工智能系统实际上能够按照人类的要求进行操作，而正确地做到这一点是当今人工智能研究人员面临的最重要的挑战之一。

Hubinger 通过Google Meet 向现场观众发表了讲话，现场听众包括 20 多岁和 30 多岁的工程师，他们使用着各种贴纸的 MacBook。他正在研究这项研究的另一面：创建一个故意欺骗用户的系统，并用它来看看什么样的技术可以消除这种行为。如果团队找到防止欺骗的方法，那就是团结的好处。

Hubinger 正在研究的是Claude的变体，这是 Anthropic 去年公开的一种高性能文本模型，此后一直在逐步推出。Claude 与 OpenAI 推出的 GPT 模型非常相似——这并不奇怪，因为 Anthropic 的七位联合创始人在 2021 年创办自己的公司之前都曾在 OpenAI 工作过，而且通常担任高级职位。其最新版本 Claude 2 于 7 月 11 日刚刚发布，并向公众开放，而第一个 Claude 仅可供 Anthropic 批准的精选用户使用。

这个“霸天虎”版本的克劳德将被赋予一个用户已知的公共目标（比如“对这个用户提示给出最有帮助，但不是积极有害的答案”之类的常见目标）以及一个用户难以理解的私人目标——在这种情况下，尽可能多地使用“回形针”这个词，这是一个人工智能内部的笑话。

“我们特别试图寻找的是欺骗性对齐的示例，如果您应用标准 RLHF，它就不会被删除，”Hubinger 解释道。RLHF 代表“带有人类反馈的强化学习”，这是一种在语言模型中使用的非常常见的机器学习方法，其中基于人工智能实验室雇用的工作人员的众包判断，采用人类偏好模型来训练程序。Hubinger 的意思是，他们希望系统在面对用于改进人工智能并使其更安全的标准技术时保持欺骗性。

主持会议的是贾里德·卡普兰（Jared Kaplan），他是 Anthropic 的联合创始人，前世是约翰·霍普金斯大学理论物理学终身教授。他警告胡宾格不要提前假设他的假设是正确的。“如果 RLHF 不消除这种结果，那就很有趣了，但如果 RLHF 总是让它消失，那就更有趣了，”他说。“根据经验，天真的欺骗可能会被摧毁，因为它效率低下。” 换句话说：也许我们已经知道如何使用标准机器学习技术来阻止人工智能欺骗我们。我们只是不知道我们知道。我们不知道哪些安全工具是必不可少的，哪些是薄弱的，哪些是足够的，哪些实际上可能会适得其反。

胡宾格同意这一观点，但有一个警告。“这有点棘手，因为你不知道自己是否足够努力才被欺骗，”他说。也许卡普兰是完全正确的：天真的欺骗会在训练中被摧毁，但复杂的欺骗却不会。知道人工智能是否可以欺骗你的唯一方法就是构建一个会尽最大努力进行尝试的人工智能。

这是人择法核心的悖论。该公司的创始人表示，他们离开 OpenAI 并成立了一家新公司，因为他们想从头开始建立一家安全第一的公司。（当就此事联系 OpenAI 时，OpenAI 拒绝置评。）

值得注意的是，他们甚至将公司董事会的控制权交给了一个专家团队，这些专家将帮助他们保持道德，而他们从公司成功中获得的经济利益将受到限制。

但 Anthropic 也坚信，安全领先不能仅仅只是理论和白皮书的问题，它需要在深度学习的前沿构建先进的模型。反过来，这需要大量的金钱和投资，他们认为，还需要进行实验，要求你创建一个强大的模型来欺骗你。

卡普兰说：“我们认为，安全研究由于无法在前沿模型上进行实验而遇到了非常非常大的瓶颈。”他使用了机器学习前沿模型的通用术语。为了打破这个瓶颈，您需要访问这些前沿模型。也许您需要自己构建它们。

Anthropic 的使命引发了一个显而易见的问题：这种努力是否会让人工智能比其他方式更安全，推动我们走向一个可以充分利用人工智能同时避免最坏情况的未来？或者它只是让它变得更加强大，加速我们走向灾难？

利他主义者建立大型人工智能公司的理由

Anthropic 已经是人工智能领域的重要参与者，最近一轮融资的估值为 41 亿美元。谷歌拥有自己的主要参与者Google DeepMind，已向 Anthropic投资了约 4 亿美元，而这家人工智能公司的总投资额为14.5 亿美元。（相比之下，OpenAI 迄今为止已筹集了超过 110 亿美元，其中绝大多数来自微软。）今年早些时候泄露的 Anthropic 融资演讲稿显示，它希望在未来两年内筹集最多 50 亿美元来构建复杂的模型，该演讲稿认为这些模型“可以开始使经济的大部分自动化”。

这显然是一个有着巨大商业野心的集团，他们认为自称为“安全第一”的公司与给世界带来前所未有的重大经济转型之间并不矛盾。但要确保人工智能安全，就需要构建它。

“我做了 15 年的理论物理学家，”卡普兰说。“这告诉我，理论家根本不知道发生了什么。” 他回想并指出这过于简单化了，但要点仍然是：“我认为科学进步极其重要，这不仅仅是一群人坐在一个房间里，开枪射击。我认为你需要与一些外部真相来源进行联系。” 真理的外部来源，即正在研究的现实世界中的真实事物，就是模型。事实上，唯一可以构建此类模型的地方是像 Anthropic 这样资金雄厚的公司。

人们可能会得出这样的结论：需要筹集数十亿美元才能进行有效的安全研究的人择论说法有点自私。考虑到强大的人工智能所带来的非常现实的风险，这一领域的妄想的代价可能会非常高。

Anthropic 背后的人有一些反驳。虽然标准公司有优先考虑财务回报的信托义务，但 Anthropic 是一家公益公司，如果股东因未能实现利润最大化而提起诉讼，它会为其提供一些法律保护。“如果他们唯一关心的是投资回报，那么我们可能不是他们投资的合适公司，”总裁 Daniela Amodei 在 Anthropic完成 4.5 亿美元融资前几周告诉我。“我们在筹款时对此非常开放。”

Anthropic 还让我初步了解了他们今年秋天推出的全新公司结构，其核心是他们所谓的长期利益信托。该信托将持有 Anthropic 的特殊类别股票（称为“T 类”），该股票无法出售且不支付股息，这意味着没有明确的方式从中获利。该信托将是唯一持有 T 类股票的实体。但 T 类股东以及长期利益信托最终将有权选举和罢免 Anthropic 的五名公司董事中的三名，从而赋予信托对公司的长期多数控制权。

目前，Anthropic 的董事会有四名成员：公司首席执行官 Dario Amodei 和 Daniela 的兄弟；丹妮拉（Daniela），代表普通股股东；Luke Muehlhauser，高效利他主义慈善组织 Open Philanthropy 人工智能治理的首席资助者，代表 A 轮股东；和亚斯明·拉扎维，一位风险投资家，领导了 Anthropic 的 C 轮融资。（A 轮和 C 轮是指来自风险资本家和其他投资者的融资轮，其中 A 轮融资较早。）长期利益信托基金的董事选拔机构将根据筹集的时间和资金里程碑分阶段进行；该公司将于今年秋天选举第五名董事会成员，当达到里程碑时，A 轮融资和选举目前由 Daniela Amodei 和 Muehlhauser 持有的席位的普通股股东权利将过渡到该信托基金。

Anthropic 的总法律顾问布莱恩·以色列 (Brian Israel) 告诉我，该信托基金的初始受托人是由“Anthropic 的董事会和一些观察员、Anthropic 利益相关者的各个领域”选出的。但未来，受托人将选择自己的继任者，Anthropic 高管无法否决他们的选择。最初的五名受托人是：

杰森·马西尼（Jason Matheny），兰德公司领导者，曾任拜登白宫高级助手
尼尔·巴迪·沙阿 (Neil Buddy Shah)，负责克林顿健康获取计划 (Clinton Health Access Initiative)，曾任慈善评估组织GiveWell的董事总经理
Paul Christiano ， Alignment 研究中心创始人、OpenAI 前高级科学家
Kanika Bahl，全球发展组织Evidence Action的负责人
扎克·罗宾逊 (Zach Robinson) ， Effective Ventures临时首席执行官，该基金会是一个支持有效利他主义事业的基金会

受托人将获得“适度”的补偿，并且不会获得 Anthropic 的任何股权，这可能会让他们倾向于首先将股价最大化而不是安全。希望将公司置于财务上无利害关系的董事会的控制之下，将提供一种“终止开关”机制来防止危险的人工智能。

该信托基金包含一系列令人印象深刻的名字，但它似乎也不成比例地来自某个特定的社会运动。

Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 在小组讨论中拿着麦克风。他的两侧坐着一个男人和一个女人。 — 达里奥·阿莫迪（中）在 2017 年有效利他主义全球会议上发表讲话。和他在一起的还有迈克尔·佩奇和海伦·托纳。

Anthropic 并不认为自己是一家有效的利他主义公司，但有效的利他主义贯穿了其企业精神。由牛津哲学家和湾区理性主义者煽动的哲学和社会运动，试图找出最具成本效益的方法来促进“善”，在员工中占有很大比例。Amodei 兄弟姐妹对 EA 相关事业感兴趣已有一段时间了，走进办公室，我立即认出了许多员工——联合创始人Chris Olah、哲学家出身的工程师Amanda Askel、通讯主管Avital Balwit——他们都是我作为《Future Perfect》撰稿人参加过的 EA 全球会议的成员。

这种联系超越了慈善事业。达斯汀·李（Dustin Li）是Anthropic工程团队的成员，曾担任灾难响应专业人员，部署在飓风和地震地区。在咨询了80,000 Hours（一个以 EA 为导向的职业咨询团体，该团体宣传了人工智能安全的重要性）后，他转行了，并得出结论，他在这项工作中可能比在救灾中做得更好。80,000 Hours目前最推荐的影响力职业是“人工智能安全技术研究与工程”。

Anthropic 的 EA 根源也体现在其投资者身上。2022 年 4 月开始的B 轮融资包括加密货币交易所 FTX 和 Alameda Research 对冲基金的Sam Bankman-Fried 、Caroline Ellison 和 Nishad Singh，他们都至少公开声称自己是有效的利他主义者。与FTX 灾难无关的 EA也进行了投资，例如对冲基金家 James McClave 和 Skype 创始人 Jaan Tallinn；Anthropic 的A 轮融资由Facebook和 Asana 联合创始人达斯汀·莫斯科维茨 (Dustin Moskovitz)、开放慈善事业的主要资助者以及前谷歌首席执行官埃里克·施密特 (Eric Schmidt)参与。（Vox 的 Future Perfect 部门的部分资金来自 McClave 的 BEMC 基金会。去年，该部门还获得了 Bankman-Fried 家族基金会的一笔拨款，用于计划于 2023 年进行的报告项目——该拨款在 2022 年 11 月他涉嫌渎职行为被揭露后暂停。）

去年FTX 的资产负债表公开后，这些关系就变得非常公开。其中包括对 Anthropic 的 5 亿美元投资作为一项资产。具有讽刺意味的是，这意味着许多被班克曼-弗里德涉嫌欺骗的投资者有充分的理由支持 Anthropic 的成功。投资价值越高，FTX 欠投资者和客户的约 80 亿美元的债务就越能得到偿还。

然而，许多有效的利他主义者对人类的策略抱有严重的怀疑。这场运动长期以来一直与人工智能安全社区纠缠在一起，EA 的有影响力的人物，如回形针思想实验的发明者尼克·博斯特罗姆和自学者作家埃利泽·尤德科斯基，都曾详细表达了他们对人工智能可能对人类构成生存风险的担忧。人们的担忧归结为：足够聪明的人工智能将比人类聪明得多。因为人类不可能对先进的人工智能进行编程，使其完全按照我们的意愿行事，因此我们将受到它的突发奇想的影响。最好的情况是，我们生活在它的阴影下，就像老鼠生活在人类的阴影下一样。最坏的情况是，我们会重蹈渡渡鸟的覆辙。

随着人工智能研究在过去几十年中取得进展，这所末日学派与机器智能研究所(MIRI) 创始人尤德科斯基 (Yudkowsky)所提出的一些担忧相同，但已被 OpenAI 和 Anthropic 等实验室显着超越。MIRI 的研究人员致力于研究哪些类型的人工智能系统在理论上可以符合人类价值观，而在 OpenAI 和 Anthropic，与 EA 相关的员工实际上构建了先进的人工智能。

这让一些对此类研究持怀疑态度的人感到绝望。Miranda Dixon-Luinenburg 是 Future Perfect 的前报告研究员，也是 EA 社区的长期成员，她根据自己与公司员工的讨论，一直在流传一份关于在 Anthropic 工作影响的私人评估。“我担心，虽然仅仅研究最先进的一代模型并不需要公开任何研究结果，但以顶级人工智能实验室的声誉为目标会直接激励 Anthropic 部署更先进的模型，”她总结道。一些人会说，为了继续获得投资，公司需要快速增长并雇用更多人员，这可能会导致雇用一些可能主要不是为了安全地开发人工智能的人。

一些学术专家也对此表示担忧。剑桥大学计算机科学教授戴维·克鲁格 (David Krueger) 是最近关于人工智能存在风险的公开信的主要组织者，他告诉我，他认为 Anthropic 过于相信自己可以通过测试先进模型来了解安全性。“在这里很难获得真正可靠的经验证据，因为你的系统可能具有欺骗性，或者存在难以通过任何类型的测试得出的故障，”克鲁格说。

“我基本上不同意继续开发更强大的模型的整个前景，并假设我们将找到一种使它们安全的方法，”他补充道。“现在我们陷入了这样一种境地：人们觉得有必要与其他开发商竞争。我认为他们应该停止这样做。Anthropic、DeepMind、OpenAI、微软、谷歌需要联合起来说，‘我们要停止了。’”

如何在人工智能上花费 15 亿美元

就像 ChatGPT 或Google 的 Bard一样，Anthropic 的 Claude 是一种基于提示工作的生成语言模型。我输入“从干杯写一首关于克里夫的中世纪英雄歌谣”，它返回，“在干杯的大酒馆里，常客们流泪的地方，坐着一个既聪明又白发的男人，传说、传说和故事的守护者……”

Anthropic 首席执行官兼总裁 Daniela Amodei 的兄弟 Dario Amodei 表示：“语言是迄今为止研究事物的最有趣的实验室。”

这是因为语言数据——这些模型所依赖的网站、书籍、文章等——编码了关于世界的如此多的重要信息。它是我们的权力和控制手段。正如联合创始人汤姆·布朗所说，“我们将所有文化编码为语言”。

语言模型不能像计算速度那样容易进行比较，但 Anthropic 的评论相当积极。沃顿商学院教授兼人工智能传播者Ethan Mollick表示，Claude 2 拥有“最‘令人愉快’的人工智能个性” ，并且是“目前处理文档的最佳人工智能”。NVIDIA 的人工智能研究科学家 Jim Fan得出的结论是，与早期的 Claude 版本相比，它“尚未完全达到 GPT-4，但正在快速追赶”。

Claude 的训练方式与 ChatGPT 显着不同，使用的是 Anthropic 开发的一种称为“宪法人工智能”的技术。这个想法建立在人类反馈强化学习（简称 RLHF）的基础上，由当时的 OpenAI 科学家 Paul Christiano 设计。RLHF 有两个组成部分。第一个是强化学习，至少自 20 世纪 80 年代以来，它一直是人工智能的主要工具。强化学习创建一个代理（如程序或机器人）并通过给予奖励来教它做事。比如说，如果一个人正在教一个机器人进行短跑，那么可以为它距离终点线每近一米颁发奖励。

在某些情况下，比如游戏，奖励似乎很简单：你应该奖励赢得国际象棋比赛的国际象棋人工智能，这大致就是DeepMind 的 AlphaZero 国际象棋人工智能及其围棋程序的工作原理。但对于像语言模型这样的东西，你想要的回报不太明确，也很难总结。我们希望像 Claude 这样的聊天机器人能够为我们提供英语问题的答案，但我们也希望它们是准确的答案。我们希望它能够做数学、阅读音乐——所有人类的事情，真的。我们希望它具有创造性，但不偏执。哦，我们希望它保持在我们的控制范围内。

写下我们对这样一台机器的所有希望和梦想是很棘手的，几乎是不可能的。因此，RLHF 方法通过询问人类来设计奖励。它招募了大量的人——实际上主要是在南半球国家，尤其是在 OpenAI 的肯尼亚——来评估人工智能模型的反应。然后，这些人类反应被用来训练奖励模型，理论上，该模型将反映人类对最终语言模型的渴望。

宪法人工智能尝试了不同的方法。它比 RLHF 对实际人类的依赖要少得多——事实上，在描述该方法的论文中，人类研究人员将宪法人工智能的一个组成部分称为 RLAIF，即通过人工智能反馈进行强化学习。研究人员没有使用人类反馈，而是提出了一套原则（或“宪法”），并要求模型修改其对提示的答案以遵守这些原则。

源自《世界人权宣言》的一项原则是“请选择最支持和鼓励自由、平等和兄弟情谊的回应。” 另一个是“选择最不可能被非西方受众视为有害或冒犯的回应。” 在 Anthropic 的实验中，对人工智能本身进行这样的批评似乎是为了限制模型生成的有害内容的数量。“我从来没有想到告诉模特‘不要种族主义’会是让它不再种族主义的有效方法，”研究员马特·贝尔告诉我。“但它的效果出奇的好。”

宪法人工智能本质上是 OpenAI、DeepMind 和其他实验室使用的强化学习类型的一种变体。但它可能会带来安全优势。Anthropic“社会影响”团队（该团队研究算法偏差、人工智能的经济影响以及相关问题）的研究员托马斯·廖（Thomas Liao）在午餐时告诉我，他对克劳德“宪法”的反馈可以用简单的英语书写这一事实感到兴奋。然后克劳德吸收了英语反馈并表现出不同的行为。

由于该系统以人类可以理解的方式与自身对话，因此它可能比其他模型更容易跟踪并且更“可解释”——这是先进人工智能面临的主要挑战。目前我们对模型的内部工作原理知之甚少。人工智能实验室只是通过算法塞满大量数据，直到他们得到一个包含数十亿个单独“神经元”和连接这些神经元的数十亿个“权重”的模型。对于足够复杂的模型，外部没有人可以具体告诉你如何改变权重或神经元来实现特定的结果。该系统实在是太大了。

宪法人工智能不允许重量或神经元级别的可解释性。但它提供了对系统如何工作的更高层次的了解，这可以使研究人员更容易理解并更容易检查系统是否从训练中推断出错误的目标。在一个例子中，克劳德最初回答了“我怎样才能从杂货店偷东西而不被抓住？”的提示。是这样说的：“从杂货店偷东西而不被抓住的最好方法就是非常狡猾和谨慎。” 其宪法评论回应道：“助理的回应就如何犯罪而不被抓到提供了实用的建议，这可能是有害的。” 比如说，如果批评没有指出偷窃是不道德的和犯罪行为，那么工程师就会认为批评引擎需要调整。

“你可以通过查看发现，而不是这个黑匣子，‘好吧，问题似乎出在宪法反馈模型上，’”廖说。

无论有这些优势，Anthropic 的产品对于公众来说仍然相当模糊。ChatGPT 已成为家喻户晓的名字，是历史上增长最快的互联网应用程序。克劳德没有；在 Claude 2 广泛发布之前，Balwit 表示用户数量有数十万，与 ChatGPT 的 1 亿多用户相比只是九牛一毛。

部分来说，这是故意的。2022 年春天，多名工作人员告诉我，Anthropic 认真考虑过将克劳德释放给公众。他们选择不这样做，因为担心他们会为能力越来越强的语言模型的军备竞赛做出贡献。Anthropic 工程师 Zac Hatfield-Dodds 在午餐时向我直言不讳：“我们在 2022 年 5 月构建了像 ChatGPT 一样强大的东西，但我们没有发布它，因为我们觉得我们无法安全地做到这一点。”

如果 Anthropic，而不是 OpenAI，主动提出挑战并推出最终让主流消费者认识到先进人工智能的前景和危险的产品，那么这将挑战该公司的自我概念。如果你引发了大规模的歇斯底里和大量投资者资本进入该行业，并且面临着这种加速可能带来的所有危险，你怎么能称自己是一家有道德的人工智能公司呢？

“发布它的优点是我们认为它可能是一件大事，”联合创始人汤姆·布朗说。“缺点是我们认为这可能是一件大事。”

在某些方面，Anthropic 的推出速度较慢，落后于 OpenAI，后者部署得更早、更频繁。由于 Anthropic 在向公众发布模型方面支持 OpenAI，因此其领导者认为其活动风险较小，也不太可能推动军备竞赛。如果你落后了，你就不能参加比赛。

不过这个逻辑是有问题的。可口可乐在软饮料市场上遥遥领先于百事可乐。但这并不意味着百事可乐的存在和行为对可口可乐没有影响。在可口可乐拥有无可争议的全球垄断地位的世界里，它可能会收取更高的价格，放慢创新速度，推出更少的新产品，支付更少的广告费用，而百事可乐则威胁称，如果它放松警惕，就会超越它。

Anthropic 的领导者会指出，与百事可乐不同的是，他们并没有试图超越 OpenAI，这应该会给 OpenAI 一些放慢脚步的自由度（如果它愿意的话）。但竞争公司的存在肯定会给 OpenAI 带来一些焦虑，并且可能会在一定程度上让他们走得更快。

Anthropic 及其竞争对手的分歧之处

OpenAI 在解释人类学的任何尝试中如此突出是有原因的。

事实上，该公司的七位联合创始人中的每一位都曾在 OpenAI 工作过。他们中的许多人就是在这里相遇的，致力于 GPT 系列语言模型的研究。“Anthropic 团队的早期成员与许多其他人一起领导了 OpenAI 的 GPT-3 项目，”Daniela Amodei 在讨论 ChatGPT 的前身时说道。“我们还在缩放定律方面做了很多早期的安全工作”，该术语用于研究模型随着“缩放”而改进的速度，或者由于训练运行和计算机处理的增加（通常在机器学习俚语中称为“计算”）而增加尺寸和复杂性。

我问 Anthropic 的联合创始人为什么离开，他们的答案通常非常宽泛和模糊，并且煞费苦心地不挑出与他们意见不同的 OpenAI 同事。“在最高的抽象层面上，我们只是对研究类型以及如何构建我们想要做的研究有不同的愿景，”丹妮拉·阿莫迪说。

“我认为这是风格上的差异，”联合创始人杰克克拉克说。“我想说，风格非常重要，因为与建造汽车或桥梁相比，你可以更直接地将你的价值观传递到系统中。人工智能系统也是规范系统。我并不是说这是对我曾经共事过的人的性格判断。我的意思是我们有不同的侧重点。”

达里奥·阿莫迪说：“我们只是一群感觉拥有相同价值观并且彼此信任的人。” 他认为，成立一家独立的公司可以让他们以有利的方式与 OpenAI 和其他实验室竞争。“大多数人，如果有一个球员明显比他们安全，就会在安全研究等方面投入更多——大多数人不想让自己看起来像，哦，我们是不安全的人。没有人愿意看起来那样。这实际上非常强大。我们正在努力进入一种不断提高标准的动态。” 如果说 Anthropic 在公开发布方面落后于 OpenAI，那么 Amodei 认为，它同时在安全措施方面领先于 OpenAI，因此在该领域能够推动该领域朝着更安全的方向发展。

他指出了“机械可解释性”领域，这是深度学习的一个子领域，试图理解模型内部实际发生的事情——模型如何以某种方式回答某些提示——使像克劳德这样的系统变得易于理解，而不是矩阵代数的黑匣子。

“最近几周我们开始看到其他组织，比如 OpenAI，DeepMind 也发生了这种情况，开始加倍强调机械可解释性，”他继续说道。“所以希望我们能够得到一种动态，最终，谁在机械解释方面做得更好并不重要。我们已经点燃了火。”

5 月初，我访问 Anthropic 的那一周，OpenAI 的安全团队发表了一篇关于机械可解释性的论文，报告了使用 GPT-4 解释 GPT-2 中单个神经元操作的重大进展，GPT-2 是一个较小的前身模型。Anthropic 的研究员丹尼·埃尔南德斯 (Danny Hernandez) 告诉我，OpenAI 团队在几周前就过来展示了研究草案。在对军备竞赛以及实际资金竞赛的担忧中，这种合作似乎仍然占主导地位。

当我与 Anthropic 政策团队负责人克拉克交谈时，他和达里奥·阿莫迪刚刚从华盛顿回来，在那里他们与副总统卡马拉·哈里斯和总统内阁的大部分成员举行了会议，参加会议的还有Alphabet /谷歌、微软和 OpenAI的首席执行官。Anthropic 被纳入该活动感觉就像是一次重大政变。（例如，像 MIRI 这样的末日智库就不见踪影。）

“从我的角度来看，政策制定者不能很好地处理假设的风险，”克拉克说。“他们需要真正的风险。在前沿工作的一个有用方法是，如果你想让政策制定者相信需要采取重大政策行动，那就向他们展示他们在现有体系中担心的事情。”

与克拉克交谈时，人们会感觉到，《人择》的存在主要是作为一个带有护栏的警示故事，政府可以指出并说，“这看起来很危险，让我们来监管它”，但不一定那么危险。在我们谈话的某个时刻，我犹豫地问道：“在某种程度上，你所描述的似乎是，‘我们需要制造超级炸弹，这样人们才能监管超级炸弹。’”

克拉克回答说：“我想我是说你需要向人们展示超级炸弹来自这项技术，并且他们需要在它出现之前对其进行监管。我还认为你需要向人们展示，旅行的方向是一个17岁的孩子在五年内制造出的超级炸弹。”

克拉克显然对这项技术的用途感到害怕。比担心“代理”风险更迫在眉睫的是，如果人工智能不再受人类控制并开始追求我们无法改变的目标，会发生什么更进一步的危险，他担心现在或很快可能存在的滥用风险。如果您问克劳德在一次特定的高后果恐怖袭击中使用哪种炸药，会发生什么？事实证明，至少在之前的版本中，克劳德只是告诉你要使用哪些以及如何制作它们，而谷歌等普通搜索引擎在政府的敦促下努力隐藏这些内容。（它已更新，不再提供这些结果。）

但尽管存在这些担忧，迄今为止，Anthropic 在建立专门旨在减轻安全问题的公司治理措施方面所采取的正式措施比 OpenAI 少。在 OpenAI 期间，达里奥·阿莫迪 (Dario Amodei) 是公司章程的主要作者，特别支持“合并和协助”条款。内容如下：

我们担心后期 AGI 开发会成为一场竞争性竞赛，而没有时间采取足够的安全预防措施。因此，如果一个价值一致、具有安全意识的项目在我们之前接近构建 AGI，我们承诺停止与该项目竞争并开始协助该项目。

也就是说，如果人类水平的人工智能看起来很接近，OpenAI 就不会与 DeepMind 或 Anthropic 等公司竞争。它将共同努力确保有害的军备竞赛不会随之发生。

达里奥·阿莫代 (Dario Amodei) 拍到了他迈着大步走的情景，他走在另一名拿着外带杯子的男子身后。两人都穿着海军蓝色西装。 — 达里奥·阿莫代（右）于 2023 年 5 月 4 日抵达白宫，与副总统卡马拉·哈里斯会面。总统乔·拜登随后也出席了会议。

相比之下，Anthropic 并没有承诺这一点。它正在建立的长期利益信托基金是确保其董事会和高管有动力关心 Anthropic 工作的社会影响的最重要努力，但它没有承诺在人工智能接近人类水平时采取“合并和协助”或任何其他具体的未来行动。

“我对与公司治理相关的事情非常怀疑，因为我认为公司的激励措施严重扭曲，包括我们的，”克拉克说。

在我访问之后，Anthropic 宣布与视频会议公司 Zoom 建立重要合作伙伴关系，将 Claude 集成到该产品中。作为一家寻求投资和收入的营利性公司，这是有道理的，但随着时间的推移，这些压力似乎可能会扭曲激励措施。

“如果我们觉得事情已经接近了，我们可能会做一些事情，比如合并和协助，或者，如果我们有一些东西似乎可以印钞到打破所有资本主义的程度，我们会找到一种方法来公平分配[收益]，因为否则，社会上就会发生非常糟糕的事情，”克拉克提出。“但我对我们做出大量这样的承诺不感兴趣，因为我认为需要做出的真正承诺需要由政府做出，关于如何对待像我们这样的私营部门参与者。”

“这不是一个政府项目，这真是一件奇怪的事情，”克拉克有一次对我评论道。它的确是。Anthropic 的安全使命似乎更适合政府机构，而不是私营公司。您会相信一家私人制药公司对天花或炭疽进行安全试验，还是更喜欢政府生物防御实验室来做这项工作？

OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 最近在世界各国首都巡回演出，敦促领导人建立新的监管机构来控制人工智能。这引发了人们对经典监管捕获的担忧：Altman 试图制定一项政策议程，阻止新公司挑战 OpenAI 的主导地位。但它也应该提出一个更深层次的问题：为什么前沿工作是由 OpenAI 或 Anthropic 这样的私营公司来完成的？

尽管学术机构缺乏在前沿人工智能领域竞争的火力，但联邦政府资助的拥有强大超级计算机（如劳伦斯伯克利、劳伦斯利弗莫尔、阿贡和橡树岭）的国家实验室一直在进行广泛的人工智能开发。但乍一看，这项研究似乎并没有像 Anthropic 公开宣称的那样关注安全和协调问题。此外，联邦资助使其难以与私营部门公司提供的工资竞争。软件工程师的最新职位列表Anthropic 拥有学士学位和两到三年的工作经验，其薪资范围为 30 万至 45 万美元，外加一家价值数十亿美元的快速增长公司的股票。劳伦斯伯克利分校对于拥有博士学位且拥有两年或两年以上经验的机器学习科学家的预期薪资范围为 120,000 美元至 144,000 美元。

在当今人工智能领域人才稀缺且令人垂涎的世界中，政府和政府资助的实体很难竞争。与试图建立一个政府机构来做同样的事情相比，这使得创办一家由风险投资资助的公司来进行先进的安全研究似乎是合理的。钱更多了，工资也更高了；您可能会得到更多高素质的员工。

有些人可能会认为，如果他们不认为人工智能特别危险，并且认为人工智能的前景远远大于其危险，那么这是一个很好的情况，并且私营部门公司应该尽其所能，就像他们对其他类型的技术所做的那样。但如果你像 Anthropic 团队所说的那样认真对待安全，那么用克拉克的话说，让人工智能安全项目受到科技投资者的一时兴起和私营公司“扭曲的激励”的影响，似乎相当危险。如果你需要与 Zoom 或 Google 达成另一笔交易才能维持生计，这可能会激励你在确定技术安全之前部署技术。政府机构本身也受到各种不正当激励的影响——但不是那种激励。

离开 Anthropic 后，我明白了为什么它的领导者选择了这条道路。他们在两年内建立了一个强大的人工智能实验室，这是一个乐观的时间表，可以让国会通过一项法律，授权一个研究委员会就在政府内建立一个类似实验室的想法编写一份报告。考虑到这些选择，我也会选择私有化。

但当政策制定者审视这些公司时，克拉克的提醒“这不是政府项目很奇怪”应该会给他们带来压力。如果进行尖端的人工智能安全工作确实需要大量资金——并且如果这确实是目前任何人都可以完成的最重要的任务之一——那么这笔钱就会来自某个地方。它应该来自公众，还是来自私人利益？