Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备


2025 年,anthropic 发布了负责任扩展策略(responsible scaling policy,rsp),这是一系列技术和组织协议,anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 ai 系统。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

anthropic安全负责人:在超级ai「毁灭」人类之前,我们可以做这些准备

Anthropic 认为,AI 模型一方面变得越来越强大,创造巨大的经济和社会价值,另一方面也带来了严重的风险。RSP 将专注于灾难性风险 —— 即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型(例如恐怖分子用它来制造生物武器),也可能来自模型以违背其设计者意图的方式自主行动而造成破坏。RSP 还定义了一个称为 AI 安全等级 (ASL,AI Safety Levels) 的框架,等级越高,其安全性证明就越严格。

Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备

安全等级(ASL)
  1. ASL-1: 不构成重大灾难风险的系统(例如 2018 年的 LLM 或只会下棋的 AI 系统)
  2. ASL-2: 显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。当前 LLM(包括 Claude)似乎是 ASL-2。
  3. ASL-3: 与非 AI 基线(例如搜索引擎或教科书)相比,大大增加了灾难性滥用风险的系统,或显示出低级自主能力的系统。
  4. ASL-4 及更高版本(ASL-5+): 尚未定义,因为它与现有系统相差太远,但可能会涉及灾难性滥用潜力和自主性的质的升级。

Anthropic 的 AI 安全工作

Anthropic 一直致力于 AI 安全研究,以探索“如何进行非常强大的人工智能的开发,使其顺利进行”。

Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备

对于这篇博客,本站做了不改变原义的翻译与整理。

在开始讨论超级人工智能的风险之前,我有一些前提需要声明:

  1. 人工智能有望达到与人类相当的水平。这个阶段,我称之为变革性人工智能(TAI)。TAI 将有能力在所有适合远程工作的职业中替代人类,包括 AI 研发。
  2. TAI 并不是人工智能能力的上限,未来可能会出现远超人类能力的系统,它们将对世界产生深远影响。在未来十年内,我们很有可能见证 TAI 的诞生,而那时的商业、政策和文化背景预计与当前相比不会有太大变化。
  3. TAI 一旦实现,它将极大地加速人工智能的研发进程,可能在 TAI 出现后的几个月或几年内,我们就能看到远超人类能力的系统被开发出来。
  4. 如果部署不当,超级人工智能系统可能会极具破坏性。它可能带来新风险,也可能使现有矛盾变得更加尖锐,比如武器滥用,以及破坏道路监控或网络安全等。
  5. 想要让 TAI 以及更强大的 AI 系统在现实世界中「三观正常」地正确行事,这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致,即所谓的「对齐」,需要我们投入巨大的努力。而且随着 AI 系统的能力越来越强,这一任务也变得更加艰巨。

我将从三个阶段展开。

一、准备

此时,AI 还未进阶成 TAI,以 Anthropic 的 RSP 评级(风险敏感性评估)来看,他们处于安全等级 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期阶段。我们大部分的干预和准备工作将在这一时期进行,为尚未完全出现的高风险问题做准备。

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover
  1. 密切关注技术前沿

AI 有多安全,很大程度上取决于我们的工作能力,而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源,或者在关键的预训练阶段出现重大失误,或者错过了带来变革的范式转变(哪怕是方法中的一些小改进),我们就会丧失大量做贡献的机会。而负责 AI 安全工作,需要遵守严格的规定和限制。因此,持续跟进新技术,是在此阶段的首要任务。

  1. 在初始阶段基本解决 TAI 的对齐微调问题

当 AI 系统已经智能到可以自主做研究,特别是 AI 安全研究时,我们需要寻找一种方法,让 AI 系统在帮助我们完成大量工作的同时,避免出现偏差。同时,我们必须确保 AI 的能力至少与人类专家相当,甚至更优,以确保它们能有效地协助我们。

此时,AI 并不需要完全「对齐」—— 我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给 AI。同时,我们也有信心能在 AI 的对齐问题演变*球性灾难之前,及时发现并纠正。

我们的目标是构建高效且通用的 AI 系统。构建能完全「对齐」的 AI 助理,仅供公司内部使用,并进行严格的专家监控,这种方法可行,但问题是,有过多限制或需要专家持续监督的 AI 系统很难大规模推广,这样一来,Anthropic 的业务也难以持续发展。

在我看来,解决问题的关键在于可拓展的监督,这要求我们训练出能胜任完成复杂的开放式任务的负责任的 AI 智能体。为此,需要解决的主要挑战包括:「Reward hacking」、应对人类注意力的有限性,以及识别和抵御各种欺诈行为。

  1. 确保初始形态的 TAI 安全无害

如果「对齐」问题能完美解决,我们只需下达命令,模型就能不做坏事。但这似乎不可能做到。因此,我们必须构建额外的防御措施,比如对模型输出自动进行监控、抽查、红队测试,压力测试等。

Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备

                                        苹果给 Apple Intelligence 下达的系统提示词:「不要产生幻觉!」我们还特意构建了「邪恶」的未对齐版本,试图来攻击我们的安全系统,这和传统的「对齐」工作一样重要。在长远来看,由于现有方法依赖于精确、召回率极高的内容分类器,这阶段的主要挑战是围绕对抗性鲁棒性的一系列机器学习问题。对于有多款变体的模型家族,我们也可以综合考虑,而不是逐个击破。这种方法不仅有助于识别在初步安全规划阶段可能未被察觉的风险,还能有效防御那些在单一数据样本中不明显,却可能在多样本模式分析中暴露的系统性风险,例如潜在的滥用或错位问题。制定合适的 RSP(负责任扩展策略)什么是一个合格的 RSP?可以参考 LeCun 提出的测试:即使是完全不重视 AI 安全问题的敌方公司,也能放心使用。一份好的 RSP 能研究人员操作安全,一旦出现意外也能显而易见且可追责。这个标准与其他领域的标准和类似。例如,如果一个组织希望避免受到网络上的攻击。尽管他们心存疑虑,但只要遵循 SOC 2 等通用网络安全标准,他们可以获得真正意义上的保护。关键挑战是预测哪些风险足够重要,值得纳入其中。到目前为止,我们在威胁建模中反复出现的一个具体未解决的问题是,ASL-3 和 ASL-4 的风险在多大程度上是通过直接滥用、错位或通过双重用途研发等渠道而流动的。ASL-4 的评估和部署案例ASL-4 涵盖了近乎人类水平的自主性和可能灾难性的直接滥用风险,我们没有提前制定详细的标准。相反,我们将致力于整理一个安全案例 —— 一份提供系统在某些情况下是安全的证据的报告 —— 并制定安全案例需要满足的高级标准才能获得批准。许多技术安全工作最终将通过纳入这些安全案例产生影响,这些安全案例是我们在 到达 ASL-4 之前的关键目标。Anthropic 把宝押在对可解释性的深入研究,希望它能够成为 AI 系统安全的证据来源。 对于大多数部署的安全案例(即任何可能用于高风险任务的模型部署),都需要包含证据表明我们的安全措施具有很高的稳健性。也就是说,应该清楚的是,无论是模型还是它的监测系统,都不会在罕见但重要的输入上以令人惊讶的方式失败 除非可解释性出现不太可能的最佳结果,否则我们预计一个强有力的安全案例将需要依靠基于其他方法的额外新发现。这些新发现应当能让我们定量评估模型的安全性,预测它们可能带来的风险。保护算法的秘密如果我们的研究能力远远领先于该领域的平均水平,那么保护该研究的关键发现对于公司保持领先地位将非常重要。这与不公布模型权重有本质不同,保护起来也要困难得多:因为这些发现通常可以用几句话或几段话来表达,离职的员工很自然地就能记住。因此保护算法秘密至关重要。为 ASL-4 和 ASL-5 建立清晰的评估一旦达到 ASL-3 级别,安全评估就变得更难了。在 ASL-4 或 ASL-5 级别下部署预防措施,时间和金钱成本可能会空前高昂,过早启动评估和过晚启动高风险等级都会产生巨大成本。这些评估分级应该既清晰又容易理解。如果我们发现某个模型需要 ASL-N 级别的保护,我们就得向第三方解释,为什么这个模型需要这样的保护,以及为什么其他类似的模型可能也需要。如果我们在评估中发现某些风险因素,我们需要有明确的证据来证明这些风险因素确实值得立即关注。建立对危险能力、缓解措施和诱导的精确预测如果我们能够准确预测哪些风险会在何时出现,以及哪些缓解措施可以在何时准备就绪,那么将能够更好地进行规划和协调。这些预测将在我们的 RSP 评估规划中发挥特别直接的作用:在 RSP 的当前设计下,我们的评估体系需要留出缓冲空间,以便在风险实际出现之前安全地触发,从而避免模型是在中等安全性下训练的,但事后又确定需要更高安全级别的情况。这些预测也可能影响我们安全案例结构。如果我们有能够对新风险的出现做出精确预测的方法,这些预测可以帮助识别更广泛安全案例中最需要关注的特定风险因素。构建高度自适应的研究基础设施在 TAI 早期开发的某个阶段,我们可能会获得有关许多风险的新的具体证据。并且我们可能不会信任具有完全高带宽访问权限的模型来修改我们的基础设施和代码库,因此工程师时间仍将是我们做许多工作的约束。此时我们需要能够快速行动,并从新的自动化机会中尽可能多地受益。这可能需要在第二阶段中进行大量的组织和基础设施准备。在 TAI 出现前,我们可能会发现许多具体的风险。但由于工作进度需要工程师配合。为了能更快地推进,在这个阶段,可能需要公司组织调整和基础设施的建设。压力测试安全案例我们的合规团队(负责安全)和对齐压力测试团队(负责其他技术安全措施)构成了三道防线世界观中的第二道安全防线,他们负责确保我们了解自己正在缓解的风险,并确保没有遗漏任何重要信息。在我们的宏观安全计划中,这表现为对组织准备做出的任何有关安全和保障的承载声明进行怀疑评估,并对任何重要的自由裁量决策进行二次签字。这一职能的直接重要性并不像这里列出的许多其他职能,因为原则上我们的一线安全团队一次就能把事情做好。但在实践中,我预计这将对我们把事情做好的能力产生重大影响,并清楚地表明我们已经做到了这一点。特别地,对齐压力测试团队的主要挑战是要足够接近我们的日常执行工作,脚踏实地,但又不成为这项工作的主要直接贡献者,以免损害他们评估这项工作的能力。审查安全案例董事会在长期利益信任(LTBT)和外部合作伙伴的支持下,为模型构筑了三道防线世界观中的第三道安全防线,对任何关键安全决策提出独立观点,而这些观点的提出者从未参与公司计划的执行或执行。这些人最终负责签署高风险决策,比如全新前沿模型的部署等。我希望董事会能够在需要时找到相关外部专家,并做出合理决策。更大的挑战是做决策的过程要让其他参与者易懂并值得信赖。最显而易见的方法是当相关组织上线并拥有足够的技术实力来裁决这些决定时,遵从这些特定第三方组织关于决策的意见。如果没有这一点,很难想象 RSP 及附属结构如何通过 LeCun 提出的测试。因此,我认为 Anthropic 无法直接解决的最紧迫安全问题便是找到一个或理想情况下几个有威望的第三方组织来胜任裁决角色。这些组织要有很高的知名度并受到广泛的信任,以至于如果前沿 AI 开发者不与它们中的任何一个合作都会被视为高度可疑。为新兴风险因素开发明确的确凿证据演示当前的 TAI 安全工作通常至少涉及一定程度的推测或推断,原因很简单,我们往往无法验证那些构成风险的系统。如果可以找到过渡到具体实证工作的方法,则应该这样做,既是为了巩固我们对威胁模型的信心,也为其他相关方(尤其包括决策制定者)提供更具说服力的证据

以上就是Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备的详细内容,更多请关注其它相关文章!


# 生物武器  # 门户网站优化公司地址  # 佛山抖音SEO优化系统  # 崇左网站排名优化费用  # 泰州网站推广好不好做呀  # 个人网站建设小江  # 抖音seo优势  # 网站优化平台是什么  # 吉安网络seo  # 沈阳seo推广介绍  # 软文网站推广设计思路  # 第三方  # 产业  # 高风险  # 更高  # 基础设施  # 能在  # 会在  # 就能  # 这一  # 我们可以  # claude  # 变革性人工智能  # ai 安全 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 2025VR&AR显示技术峰会展示歌尔光学最新一代光学模组  浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库  微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在  微软在德国举办MR研讨会,向女性分享元宇宙潜力  AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导  百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  B站内测 AI 搜索功能,输入“?”即可体验  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  Dubbo负载均衡策略之 一致性哈希  AI会帮我们把活干完吗?  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式  DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU  AI+游戏首度大范围公布实际应用成果,AI全面来临还有多远?  AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!  ​《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!  Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器  微软向美国政府提供GPT的大模型,安全性如何保证?  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  全新“AI助手”!讯飞星火助手中心人机协作共创新生态  陈根教授:离人形机器人时代还有10年吗?  马斯克“揭秘”人工智能真面目  OpenAI高管:AI能创造新的就业机会 但也会淘汰一些  新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实  人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。  纪录片 《寻找人工智能》全集1080P超清  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?  CREATOR制造、使用工具,实现LLM「自我进化」  李开复:未来几年,人工智能会革了所有人的命,除非你这么做  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  智能手机应用中的人工智能的重要性  Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!  报告称 70% 程序员已使用各种 AI 工具编程  速途网络成立“人工智能专家委员会”5位中美博士加盟  跟着AI大热的“光模块”到底是什么?  MiracleVision视觉大模型  扎克伯格吐槽苹果Vision Pro:社交落后Meta太多,无法建设元宇宙  助力人工智能产业高质量发展 龙岗区算法训练基地正式启用  音乐制作元工具AudioCraft发布开源AI工具  中科院自研新一代 AI 大模型“紫东太初 2.0”问世  视觉中国推出付费AI绘图功能:无版权可用  高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案  日新月异,脑机接口技术都有哪些新应用?  AI大模型,将为智慧城市带来哪些新变化?  实践J*a开发,构建高性能的MongoDB数据迁移工具  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变? 

 2024-09-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.