图灵奖得主Bengio亲自打分,首份《人工智能安全指数陈诉》发布,中国一家公 ...

打印 上一主题 下一主题

主题 894|帖子 894|积分 2682


安全话题,在人工智能(AI)行业一向备受关注。
尤其是诸如 GPT-4 如许的大语言模型(LLM)出现后,有不少业内专家号令「立刻暂停训练比 GPT-4 更强大的人工智能模型」,包罗马斯克在内的数千人纷纷起家支持,联名签署了一封公开信。
这封公开信便来自生命将来研究所(Future of Life Institute),该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 Max Tegmark 等人连合建立,是最早关注人工智能安全问题的机构之一,其使命为“引导厘革性技能造福生存,制止极端的大规模风险”。
公开信息表现,生命将来研究所的顾问委员会成员阵容强大,包罗理论物理学家霍金、企业家马斯克、哈佛大学遗传学教授 George Church、麻省理工学院物理学教授 Frank Wilczek 以及演员、科学传播者 Alan Alda、Morgan Freeman 等。

日前,生命将来研究所约请图灵奖得主 Yoshua Bengio、加州大学伯克利分校计算机科学教授 Stuart Russell 等 7 位人工智能专家和治理专家,评估了 6 家人工智能公司(Anthropic、Google DeepMind、Meta 、OpenAI、x.AI、智谱)在 6 大关键范畴的安全实践,并发布了他们的第一份《人工智能安全指数陈诉》(FLI AI Safety Index 2024)。
陈诉表现,只管 Anthropic 得到了最高的安全性评级,但分数仅为“C”,包罗 Anthropic 在内的 6 家公司在安全实践方面仍有提升空间。

陈诉链接:
https://futureoflife.org/document/fli-ai-safety-index-2024/
关于这份陈诉,Tegmark 在 X 上以致一针见血地指出:Anthropic first and Meta last,即:Anthropic 的安全性最高,而坚持开源的 Meta 在这方面却垫底。但 Tegmark 也表示,“如许做的目标不是羞辱任何人,而是激励公司改进。”
值得一提的是,生命将来研究地点陈诉中写道,“入选公司的依据是其在 2025 年之前打造最强大模型的预期能力。别的,智谱的参加也反映了我们盼望使该指数可以或许代表全球领先企业的意图。随着竞争格局的演变,将来的迭代可能会关注不同的公司。”
6 大维度评估 AI 安全
据介绍,评审专家从风险评估(Risk Assessment)、当前危害(Current Harms)、安全框架(Safety Frameworks)、生存性安全计谋(Existential Safety Strategy)、治理和问责制(Governance & Accountability)以及透明度和沟通(Transparency & Communication)分别对每家公司举行评估,最后汇总得出安全指数总分。
维度 1:风险评估

在风险评估维度中,OpenAI、Google DeepMind 和 Anthropic 因在识别潜在伤害能力(如网络攻击滥用或生物武器制造)方面实施更严格的测试而受到肯定。然而,陈诉也指出,这些努力仍存在明显范围,AGI 的相关风险尚未被充实理解。
OpenAI 的欺骗性能力评估和提升研究得到了评审专家的关注;Anthropic 则因与国家人工智能安全机构的深度合作被以为表现尤为突出。Google DeepMind 和 Anthropic 是仅有的两家维持针对模型毛病的专项毛病嘉奖筹划的公司。Meta 只管在模型部署前对伤害能力举行了评估,但对自治、谋划和说服相关威胁模型的覆盖不足。智谱的风险评估相对不敷全面,而 x.AI 在部署前的评估几乎缺失,大幅低于行业标准。
评审专家发起,行业应扩大研究的规模与范围,同时建立明确的可接受风险阈值标准,从而进一步提高人工智能模型的安全性和可靠性。
维度 2:当前危害

在当前危害维度中,Anthropic 的人工智能体系在安全性与信任度基准测试中得到了最高分,Google DeepMind 紧随其后,该公司的 Synth ID 水印体系被认可为减少人工智能生成内容滥用的最佳实践。
其他公司得分偏低,暴露出安全缓解措施的不足。比方,Meta 因公开前沿模型权重被品评,该做法可能被恶意举动者利用来移除安全防护。
别的,对抗性攻击还是一个主要问题,多数模型易受越狱攻击,其中 OpenAI 的模型尤为脆弱,而 Google DeepMind 在此方面防御表现最佳。评审专家还指出,只有 Anthropic 和智谱在默认设置下制止将用户交互数据用于模型训练,这一实践值得其他公司借鉴。
维度 3:安全框架

在安全框架(Safety Frameworks)方面,全部 6 家公司均签署了《前沿人工智能安全承诺》,承诺订定安全框架,包罗设置不可接受风险阈值、高风险场景下的高级防护措施,以及在风险不可控时暂停开发的条件。
然而,截至本陈诉发布,仅有 OpenAI、Anthropic 和 Google DeepMind 公布了相关框架,评审专家仅能对这三家公司举行评估。其中,Anthropic 因框架内容最为详尽而受到认可,其也发布了更多实施引导。
专家一致夸大,安全框架必须通过强有力的外部审查和监视机制支持,才能真正实现对风险的正确评估和管理。
维度 4:生存性安全计谋

在生存性安全计谋维度,只管全部公司均表示有意开发 AGI 或超级人工智能(ASI),并承认此类体系可能带来的生存性风险,但仅有 Google DeepMind、OpenAI 和 Anthropic 在控制与安全性方面开展了较为严肃的研究。
评审专家指出,现在没有公司提出官方计谋以确保高级人工智能体系可控并符合人类代价观,现有的技能研究在控制性、对齐性和可解释性方面仍显稚嫩且不足。
Anthropic 依附其详尽的“Core Views on AI Safety”博客文章得到最高分,但专家以为其计谋难以有效防范超级人工智能的庞大风险。OpenAI 的“Planning for AGI and beyond”博客文章则仅提供了高层次原则,虽被以为合理但缺乏实际筹划,且其可扩展监视研究仍不成熟。Google DeepMind 的对齐团队分享的研究更新虽有效,但不足以确保安全性,博客内容也不能完全代表公司整体战略。
Meta、x.AI 和智谱尚未提出应对 AGI 风险的技能研究或筹划。评审专家以为,Meta 的开源计谋及 x.AI 的“democratized access to truth-seeking AI”愿景,可能在一定程度上缓解权力集中和代价固化的风险。
维度 5:治理和问责制

在治理和问责制维度,评审专家注意到,Anthropic 的创始人在建立负责任的治理结构方面投入了大量精力,这使其更有可能将安全放在首位。Anthropic 的其他积极努力,如负责任的扩展政策,也得到了积极评价。
OpenAI 最初的非营利结构也同样受到了称赞,但最近的变化,包罗遣散安全团队和转向营利模式,引起了人们对安全紧张性降落的担忧。
Google DeepMind 在治理和问责方面迈出了紧张一步,承诺实施安全框架,并公开表明其使命。然而,其附属于 Alphabet 的盈利驱动企业结构,被以为在一定程度上限制了其在优先思量安全性方面的自主性。
Meta 虽然在 CYBERSEC EVAL 和红队测试等范畴有所行动,但其治理结构未能与安全优先级对齐。别的,开放源代码发布高级模型的做法,导致了滥用风险,进一步减弱了其问责制。
x.AI 虽然正式注册为一家公益公司,但与其竞争对手相比,在人工智能治理方面的积极性显着不足。专家们注意到,该公司在关键部署决策方面缺乏内部审查委员会,也没有公开陈诉任何实质性的风险评估。
智谱作为一家营利实体,在符正当律法规要求的前提下开展业务,但其治理机制的透明度仍然有限。
维度 6:透明度和沟通

在透明度和沟通维度,评审专家对 OpenAI、Google DeepMind 和 Meta 针对主要安全法规(包罗 SB1047 和欧盟《人工智能法案》)所做的游说努力表示严峻关切。与此形成鲜明对比的是,x.AI 因支持 SB1047 而受到表扬,表明了其积极支持旨在加强人工智能安全的监管措施的态度。
除 Meta 公司外,全部公司都因公开应对与先进人工智能相关的极端风险,以及努力向政策订定者和公众宣传这些问题而受到表扬。x.AI 和 Anthropic 在风险沟通方面表现突出。专家们还注意到,Anthropic 不断支持促进该行业透明度和问责制的治理举措。
Meta 公司的评级则受到其领导层一再忽视和轻视与极端人工智能风险有关的问题的明显影响,评审专家以为这是一个庞大缺陷。
专家们夸大,整个行业迫切必要提高透明度。x.AI 缺乏风险评估方面的信息共享被特别指出为透明度方面的不足。
Anthropic 答应英国和美国人工智能安全研究所对其模型举行第三方部署前评估,为行业最佳实践树立了标杆,因此得到了更多认可。
专家是如何打分的?
在指数设计上,6 大评估维度均包罗多个关键指标,涵盖企业治理政策、外部模型评估实践以及安全性、公平性和鲁棒性的基准测试结果。这些指标的选择基于学术界和政策界的广泛认可,确保其在权衡公司安全实践上的相关性与可比性。
这些指标的主要纳入标准为:
相关性:清单夸大了学术界和政策界广泛认可的人工智能安全和负责任举动的各个方面。很多指标直接来自斯坦福大学基础模型研究中心等领先研究机构开展的相关项目。
可比较性:选择的指标可以或许突出安全实践中的有意义的差异,这些差异可以根据现有的证据加以确定。因此,没有确凿差异证据的安全预防措施被省略了。
选择公司的依据是公司到 2025 年制造最强大模型的预期能力。别的,智谱的参加也反映了该指数盼望可以或许代表全球领先公司的意图。随着竞争格局的演变,将来可能会关注不同的公司。

图|评价指标概述。
别的,生命将来研究地点体例《AI 安全指数陈诉》时,构建了全面且透明的证据基础,确保评估结果科学可靠。研究团队根据 42 项关键指标,为每家公司制作了详细的评分表,并在附录中提供了全部原始数据的链接,供公众查阅与验证。证据来源包罗:
公开信息:主要来自研究论文、政策文件、新闻报道和行业陈诉等公开质料,加强透明度的同时,便于利益相关方追溯信息来源。
公司问卷观察:针对被评估公司分发了问卷,补充公开数据未覆盖的安全结构、流程与计谋等内部信息。
证据网络时间为 2024 年 5 月 14 日至 11 月 27 日,涵盖了最新的人工智能基准测试数据,并详细记录了数据提取时间以反映模型更新环境。生命将来研究所致力于以透明和问责为原则,将全部数据——无论来自公开渠道照旧公司提供——完整记录并公开,供审查与研究使用。
评分流程方面,在 2024 年 11 月 27 日完成证据网络后,研究团队将汇总的评分表交由独立人工智能科学家和治理专家小组评审。评分表涵盖全部指标相关信息,并附有评分指引以确保一致性。
评审专家根据绝对标准为各公司打分,而非单纯举行横向比较。同时,专家需附上简短说明支持评分,并提供关键改进发起,以反映证据基础与其专业见解。生命将来研究所还约请专家小组分工评估特定范畴,如“生存性安全计谋”和“当前危害”等,保证评分的专业性和深度。最终,每一范畴的评分均由至少四位专家到场打分,并汇总为平均分后展示在评分卡中。
这一评分流程既注意结构化的标准化评估,又生存了机动性,使专家的专业判断与实际数据充实联合。不仅展现当前安全实践的现状,还提出可行的改进方向,激励公司在将来告竣更高的安全标准。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

王海鱼

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表