ChatGPT 和大型语言模型:它们的风险和局限性

性能与数据

尽管 ChatGPT 具有看似“神奇”的品质,但它与其他大型语言模型 (LLM) 一样,只是一个巨大的人工神经网络。其复杂的架构由大约 400 个核心层和 1750 亿个参数(权重)组成,所有这些参数都根据从网络和其他来源抓取的人类编写的文本进行训练。总而言之,这些文本源的初始数据总计约为 45 TB。如果没有训练和调整,ChatGPT 只会产生乱码。

我们可能会想象法学硕士的惊人能力仅受其网络规模和训练数据量的限制。这在一定程度上是正确的。但 LLM 的投入需要花钱,而且即使是性能上的微小改进也需要更多的计算能力。据估计,训练 ChatGPT-3 消耗了约 1.3 吉瓦时的电力,OpenAI 总共花费了约 460 万美元。相比之下,较大的 ChatGPT-4 模型的训练成本将达到 1 亿美元或更多。

OpenAI 研究人员可能已经达到了一个拐点,一些人承认 进一步的性能改进必须来自于计算能力的增强以外的其他方面。

尽管如此,数据可用性可能是法学硕士取得进展的最关键障碍。ChatGPT-4 已经接受了互联网上所有高质量文本的训练。然而,更多高质量的文本存储在个人和企业数据库中,OpenAI 或其他公司无法以合理的成本或规模访问。但是,这种精心策划的训练数据加上额外的训练技术,可以对预先训练的法学硕士进行微调,以更好地预测和响应特定领域的任务和查询。此类法学硕士不仅会优于规模较大的法学硕士,而且更便宜、更容易获得且更安全。

但无法访问的数据和计算能力的限制只是阻碍法学硕士的两个障碍。

幻觉、不准确和误用

ChatGPT 等基础人工智能应用程序最相关的用例是收集、关联和总结信息。ChatGPT 和法学硕士帮助撰写论文和大量计算机代码,甚至参加并通过了复杂的考试。公司已将法学硕士商业化以提供专业支持服务。例如,Casetext 公司在其 CoCounsel 应用程序中部署了 ChatGPT,以帮助律师起草法律研究备忘录、审查和创建法律文件以及为审判做准备。

然而,无论他们的写作能力如何,ChatGPT 和 LLM 都是统计机器。他们根据训练期间“看到”的内容提供“合理的”或“可能的”反应。他们无法总是验证或描述其答案背后的推理和动机。虽然 ChatGPT-4 可能已经通过了多个州的律师考试,但经验丰富的律师不应像一年级律师所写的那样更信任其法律备忘录。

当 ChatGPT 被要求解决数学问题时,其统计性质最为明显。提示它集成一些多项三角函数,ChatGPT 可能会提供看似合理但不正确的响应。要求它描述得出答案所采取的步骤,它可能会再次给出看似合理的答复。再问一遍,可能会给出完全不同的答案。应该只有一个正确答案,并且只有一系列分析步骤才能得出该答案。这强调了这样一个事实:ChatGPT 并不“理解”数学问题,也没有应用数学解决方案所需的计算算法推理。

法学硕士的随机统计性质也使他们容易受到数据科学家所说的“幻觉”的影响,即他们冒充现实的幻想。如果他们可以提供错误但令人信服的文本,法学硕士也可以传播错误信息并被用于非法或不道德的目的。例如,不良行为者可能会促使法学硕士以信誉良好的出版物的风格撰写文章,然后将其作为假新闻传播。或者他们可以利用它来获取敏感的个人信息来欺骗客户。由于这些原因,摩根大通和德意志银行等公司已禁止使用 ChatGPT。

我们如何解决与 LLM 相关的错误、事故和滥用问题?根据特定领域的精选数据对预先训练的法学硕士进行微调,有助于提高响应的准确性和适当性。例如,Casetext 公司依靠预先训练的 ChatGPT-4,但通过额外的训练数据(来自所有美国联邦和州司法管辖区的法律文本、案例、法规和法规)补充其 CoCounsel 应用程序,以改进其响应。根据用户想要完成的具体法律任务,推荐更精准的提示;共同法律顾问总是引用其回应的来源。

在初始训练之上应用某些额外的训练技术,例如根据人类反馈进行强化学习(RLHF),也可以减少法学硕士误用或错误信息的可能性。RLHF 根据人类判断对 LLM 回答进行“评分”。然后,这些数据会被反馈到神经网络中,作为其训练的一部分,以减少法学硕士将来对类似提示提供不准确或有害响应的可能性。当然,什么是“适当”的应对措施取决于观点,因此 RLHF 很难说是万能药。

“红队”是另一种改进技术,用户可以通过“攻击”法学硕士来发现其弱点并修复它们。红队成员会编写提示来说服法学硕士做不应该做的事情,因为他们预计现实世界中的恶意行为者也会做出类似的尝试。通过识别潜在的不良提示,LLM 开发人员可以围绕 LLM 的响应设置护栏。虽然这些努力确实有所帮助,但并非万无一失。尽管 ChatGPT-4 上存在广泛的红队,但用户仍然可以设计提示来绕过其护栏。

另一个潜在的解决方案是部署额外的人工智能,通过创建与法学硕士并行的辅助神经网络来监管法学硕士。第二个人工智能经过训练,可以根据某些道德原则或政策判断法学硕士的反应。根据人工智能法官的判断,法学硕士的反应与“正确”反应的“距离”会反馈到法学硕士,作为其培训过程的一部分。这样,当法学硕士考虑对提示的反应选择时,它会优先考虑最道德的反应。

透明度

ChatGPT 和 LLM 具有人工智能和机器学习 (ML) 应用程序的共同缺点:它们本质上是黑匣子。甚至 OpenAI 的程序员也不知道 ChatGPT 如何配置自身来生成文本。传统上,模型开发人员在将模型提交给程序代码之前先设计模型,但法学硕士使用数据来配置自己。LLM网络架构本身缺乏理论基础或工程:程序员选择许多网络功能只是因为它们起作用,但不一定知道它们为什么起作用。

这种固有的透明度问题催生了一个用于验证人工智能/机器学习算法的全新框架——所谓的可解释或可解释的人工智能。模型管理社区探索了各种方法来围绕 AI/ML 预测和决策构建直觉和解释。许多技术试图了解输入数据的哪些特征生成了输出以及它们对某些输出的重要性。其他人对人工智能模型进行逆向工程,以便在仅适用某些功能和输出的本地领域中构建更简单、更可解释的模型。不幸的是,随着模型变得越来越大,可解释的人工智能/机器学习方法变得呈指数级复杂,因此进展缓慢。据我所知,还没有可解释的 AI/ML 成功应用于 ChatGPT 规模和复杂性的神经网络。

鉴于可解释或可解释的人工智能/机器学习进展缓慢,有必要围绕法学硕士制定更多法规,以帮助公司防范不可预见或极端的情况,即“未知的未知数”。法学硕士的日益普及和提高生产力的潜力使得彻底禁止其使用是不现实的。因此,公司的模型风险治理政策不应过多关注验证这些类型的模型,而应关注实施综合使用和安全标准。这些政策应优先考虑法学硕士的安全和负责任的部署,并确保用户检查输出响应的准确性和适当性。在此模型治理范式中,独立模型风险管理并不检查 LLM 的工作方式,而是审核业务用户依赖 LLM 来完成特定任务的理由和理由,并确保使用它们的业务部门有适当的保障措施作为模型输出和业务流程本身的一部分。

下一步是什么?

ChatGPT 和 LLM 代表了 AI/ML 技术的巨大飞跃,让我们离通用人工智能又近了一步。但采用 ChatGPT 和 LLM 会带来重要的限制和风险。在在其业务中部署法学硕士技术之前,公司必须首先采用如上所述的新模型风险治理标准。良好的模型治理政策重视法学硕士的巨大潜力,但通过减轻其固有风险来确保其安全和负责任的使用。

韭菜热线原创版权所有,发布者:风生水起,转载请注明出处:https://www.9crx.com/79042.html

(0)
打赏
风生水起的头像风生水起普通用户
上一篇 2023年11月13日 23:08
下一篇 2023年11月13日 23:28

相关推荐

  • 未来电网扩张的投资思路,第3部分

    我继续讨论可能受益于电网升级和扩建的潜在投资,以满足人工智能数据中心和电动汽车不断增长的需求。本系列的第三部分也是最后一部分重点关注替代能源、公用事业公司以及与电网基础设施相关的其他公司。 如果您尚未阅读第一或第二部分,我建议您在继续阅读之前先阅读它们。 替代和/或可再生能源 美国能源部估计,2022 年,太阳能、风能、水力发电、地热能和生物质能等可再生能源…

    2024年8月5日
    13000
  • ChatGPT 和 Bing AI 的热潮已经结束了吗?

    去年,当生成式人工智能产品开始向公众推出时,引发了一阵兴奋和恐惧。 人们对这些工具仅通过一个文本提示就可以创建的图像和文字感到惊讶。硅谷对一项变革性新技术的前景垂涎三尺,在经历了多年的停滞以及加密货币和虚拟宇宙的失败之后,它可以从中赚到很多钱。人们还担心生成式人工智能改变世界后世界会变成什么样子。数以百万计的工作岗位可能会消失。辨别什么是真实的或什么是计算机…

    2023年8月21日
    17300
  • AI 偏见由设计:克莱德提示泄露对投资专业人士的启示

    生成式 AI 的承诺是速度和规模,但隐藏的成本可能是分析失真。Anthropic 的 Claude 模型泄露的系统提示揭示了即使调校良好的 AI 工具也可能在投资分析中强化认知和结构性偏见。对于正在探索 AI 集成的投资领导者来说,了解这些风险已不再可有可无。 2025 年 5 月,有人泄露了一个完整的 24,000 个标记的系统提示,声称是为了 Anthr…

    2025年7月8日
    3300
  • Covid-19 疫苗错误信息如何领先 Facebook 一步

    试图尽量减少有害错误信息的影响的工作既费力又至关重要。像 Meta 在 2020 年底开始消除更多有关 Covid-19 疫苗的错误信息,同时宣传权威公共卫生和科学来源的内容的大力推动似乎总是为时已晚,而且是为了应对公众或机构压力而采取的。它们需要持续的努力,而平台似乎并不总是愿意维持这种努力。在各大平台对网络危害采取强硬态度的这些重大公共时刻的背景下,始终…

    2023年9月24日
    9800
  • 人工智能对投资模型的幻觉能否被驯服?

    作者: François Oustry、Sahar Attaripour 生成式人工智能存在可靠性问题。以下是投资者如何对部署该技术的投资组合充满信心。 随着生成人工智能(GAI)越来越受欢迎,该技术制造反应的倾向仍然是一个很大的缺陷。我们相信,专业模型的设计可以减少幻觉并提高人工智能在投资应用中的准确性和有效性。 如果您在过去一年中使用过 ChatGPT …

    2023年12月11日
    12600

发表回复

登录后才能评论
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部