碾压GPT-4!Claude3到底有多强?

打印 上一主题 下一主题

主题 856|帖子 856|积分 2568


2024年3月4日,官方公布推出 Claude 3 模子系列,它在广泛的认知任务中树立了新的行业基准。该系列包罗三个按能力递增排序的最先进模子:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续模子都提供越来越强大的性能,允许用户为其特定应用选择智能、速度和成本之间的最佳平衡。
Opus 和 Sonnet 如今已经可以在 claude.ai 和现在在 159个国家普遍可用的 Claude API 中利用。Haiku 很快也会上市。
Claude 3 模子系列


智能新标准

Opus, Claude最智能的模子,在大部分常用的 AI 体系评估基准上体现优于偕行,包罗本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、底子数学(GSM8K)等。它在复杂任务上展示了接近人类的明白和流利程度,引领了通用智能的前沿。
所有 Claude 3 模子在分析和预测、细腻的内容创作、代码生成以及利用西班牙语、日语和法语等非英语语言对话方面的能力都有所提升。
下面是 Claude 3 模子与 Claude偕行在多个能力基准测试比较:

近乎即时的结果

Claude 3 模子可以为实时客户聊天、自动补全和数据提取任务提供动力,这些相应必须是即时和实时的。
Haiku 是市场上智能范畴性价比最高的模子。它可以在不到三秒的时间内读懂一个信息和数据密集的 arXiv 上的研究论文(约10k 个 Token),包罗图表和图形。上市后, Claude预计性能会进一步提高。
对于大多数工作负载,Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍,智能水平也更高。它善于迅速相应的任务,如知识检索或贩卖自动化。Opus 以与 Claude 2 和 2.1 相似的速度交付,但智能水平更高。
强大的视觉能力

Claude 3 模子拥有与其他领先模子相称的复杂视觉能力。它们可以处理包罗照片、图表、图形和技术图纸在内的广泛视觉格式。 Claude特殊高兴为 Claude的企业客户提供这种新的方式,其中一些客户的知识库有多达50%以多种格式编码,如PDF、流程图或演示幻灯片。

更少的拒绝

先前的 Claude 模子经常做出不必要的拒绝,这表明缺乏上下文明白。 Claude在这一领域取得了有意义的进展:与上一代模子相比,Opus、Sonnet 和 Haiku 大大减少了拒绝回应那些触及体系保护边界的提示。如下所示,Claude 3 模子对请求有更微妙的明白,识别真正的危害,并且更少地拒绝回答无害的提示。

提高正确率

各种规模的企业都依赖 Claude的模子为他们的客户服务,因此对于模子输出来说,保持高正确率是至关重要的。为了评估这一点, Claude利用了一套复杂的、真实的问题,这些问题针对现在模子的已知弱点。 Claude将回应分为正确答案、错误答案(或幻觉)以及不确定性声明,即模子表示它不知道答案,而不是提供错误信息。与 Claude 2.1 相比,Opus 在这些具挑战性的开放式问题上的正确度(或正确答案)体现出了两倍的提升,同时还展现出降低了错误答案的水平。
除了产生更值得信任的回应外, Claude很快还将在 Claude 3 模子中启用引用功能,从而使它们能够指向参考质料中的精确句子以验证它们的答案。

长上下文和近乎完美的回忆

Claude 3 模子系列在发布之初将提供 200K 上下文窗口。然而,所有三个模子都能够接受超过 100 万个 Token 的输入, Claude可能会向需要增强处理能力的选定客户提供这一点。
为了有用处理长上下文提示,模子需要强大的回忆能力。'大海捞针' (NIAH) 评估衡量模子从大量数据中正确回忆信息的能力。 Claude通过利用每个提示中的 30 个随机针/问题对之一,并在多样化的众包文档语料上进行测试,增强了这一基准测试的妥当性。Claude 3 Opus 不仅实现了近乎完美的回忆,正确率超过了 99%,在某些环境下,它甚至识别出评估自身的局限性,识别出“针”句好像是人为插入到原文中的。

负责任的操持

Claude开发 Claude 3 模子系列,旨在让它们像它们的能力一样值得信任。 Claude有几个专门的团队跟踪和减轻广泛的风险,范围从错误信息和CSAM到生物滥用、选举干预和自主复制技能。 Claude继续开发诸如 Constitutional AI 这样的方法来提高 Claude模子的安全性和透明度,并已调整 Claude的模子以减轻可能由新模式引发的隐私问题。
在日益复杂的模子中解决偏见问题是一项一连的努力,而 Claude在这次新发布中取得了进步。如模子卡所示,Claude 3 根据 Bias Benchmark for Question Answering (BBQ) 的评估显示出比 Claude以前的模子更少的偏见。 Claude仍然致力于推进减少偏见并促进 Claude模子中更大中立性的技术,确保它们不会倾向于任何特定的党派立场。
尽管 Claude 3 模子系列在生物学知识、网络相关知识和自主性方面相比以前的模子取得了进步,但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等级 2 (ASL-2)。
本文由博客一文多发平台 OpenWrite 发布!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

冬雨财经

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表