IT评测·应用市场-qidao123.com技术社区

标题: [ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云，实测体现超预 [打印本页]

作者: 嚴華 时间: 2024-7-13 14:02
标题: [ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云，实测体现超预

一、前言

3月4号，Anthropic 发布了号称现阶段宇宙最强大模子 Claude 3，到底强到什么水平，直接看这张图即可。
发文时间点 Claude 3 Sonnet 模子现已在亚马逊云科技的 Amazon Bedrock 正式可用，本文第三节会介绍如何在亚马逊云科技上利用 Claude3 模子。

二、Claude 3 介绍以及相干测试细节

这次发布包罗了三个版本：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus，它们的能力从低到高。
首先是Haiku，它是市场上速度最快、资源效益最高的选择，对于大部门的纯文本任务体现出色，同时也支持多模态能力。
Sonnet 则比之前的 Claude 2 和 Claude 2.1 快两倍，而且智能水平更高。它擅优点理需要快速响应的智能任务，比如知识检索大概贩卖自动化。它在智能和速度之间到达了完美平衡，这对企业应用来说尤为重要。
Opus 是最顶级、最强大的底子模子，具备深度推理、高级数学和编码能力，在高度复杂的任务上体现出色。它可以大概流通地处理各种开放式提示和新颖场景，包罗任务自动化、假设生成以及图表、图形和猜测的分析。适用于需要高度智能和复杂任务处理的场景，比如企业自动化、复杂金融猜测、研究和开辟等。
Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus的能力可以参考下面的图示：

在相干测评中，Opus体现出色，多项基准测试中的得分都凌驾了GPT-4和Gemini 1.0 Ultra，在数学、编程、多语言理解、视觉等多个维度上树立了新的行业标准。特别是在特定测试场景下，如研究生水平考试Q题解A和数学Q题解决上，Claude 3的体现优于GPT-4。比如，在zero-shot学习环境下，Claude 3的精确率到达了60%，凌驾了GPT-4的52%。
在 Babel.cloud 开源评估项目标 LLMRGB 项目中，Claude3 在单次测试中获得了高达97.6的高分，大大凌驾了GPT-4，成为当前大型模子能力的领先者。

(测试结果图片以及仓库见文末参考文献)
要特别注意的是，在 LLM-RGB 评估中，015_simple_mahjong 是个超级难题。简单地说，大型模子被教了一些简单的麻将规则，还给了一些例子，然后要求在一个具体情境下做出选择。这个问题在从前的测试中很少有人能精确解答。不过，Claude 3 Opus 有20%的几率给出最佳解答，还有80%的几率给出次优解。这意味着它的多轮推理能力远远凌驾其他模子，可以大概快速学习并应用有限的知识。这使得 Claude 3 的应用领域不仅限于简单的客服和文本生成，它在工程过程更长的领域也能体现出色。
三、在亚马逊云科技上体验 Claude 3

3.1 在 Amazon Bedrock 服务中配置 Claude 3

目前，Anthropic 的 Claude 3 Sonnet 模子现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全免费试用。
Amazon 上的体验服务入口：https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=KOCKOL
进入后无需注册账号，仅需要扫码进入 CloudAssist，然后点击限时试用即可，如下图
下一代 Claude (Claude 3) 的三个模子 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯逐一个提供 Claude 3 Sonnet 的托管服务。

在 Amazon Bedrock 服务中，点击下面的入门按钮

进入到 Amazon Bedrock 后，首先需要管理模子的访问权限，这后面需要申请所需的模子，在这个步骤直接点击 [管理模子访问权限] 按钮即可。

进入到模子列表页面后，可以看到 Amazon Bedrock 中内嵌了很多模子，不过这些模子默认没有配置访问，这需要你做访问请求，也就是继承点击配置模子访问权限操纵。

进入到模子请求访问权限页面后，可以看到 Anthropic 公司的模子，在做请求之前，需要先提交应用场景。如下图

下面的信息是必填信息，需要填写后，按钮才会高亮，允许继承点击

在上一步点击提交按钮后，勾选所需的模子，这里直接全选了全部模子做请求。

最后请求过程中大概需要等待几分钟。等待请求完成即可。

3.2 为谈天配置利用 Claude 3 模子

在上述步骤配置好后，在 Amazon Bedrock 页面，选择谈天菜单，之后点击【选择模子】按钮，选择 Claude 3 模子。

进入到模子选择页面，选择 Anthropic 公司中的 Claude 3，点击应用即可。

3.3 Caude 3 Sonet 谈天体验

第一个问题我是直接问他利用pyhon写一个3次的循环，可以看出 Caude 3 不局限一种方式誊写，而且将多个实现写出，后面而且给出的测试打印结果。可以说你后面想问的大概拓展的很好。

接下来我利用 Claude 3 进行了一个图片辨认，而且让 Claude 3 进行了分析总结，传给 Claude 3 的图片是一张中国地图，而且带有一些描述信息。
可以看到最后 Claude 3 给的分析总结非常精准，精准到我有点吃惊。

对图片进行辨认的测试，我上传了一只猫，可以看到 Claude 3 不仅分析了动物是什么，还直接描述了这个图片中猫的场景动作。

别的一个让我吃惊的是，我上传了一张车的图片，让他辨认出来车的型号，Claude 3 可以几乎精准辨认。问题以及 Claude 3 的回复可以看下图。

四、文末总结

个人觉得，Claude 3 的超预期乐成并不意味着 Anthropic 的能力已经完全超越了OpenAI。如今看 Claude 3 显然比 GPT4 更强大，但大概GPT-5 已经在 OpenAI 手中了。
然而，Claude 3 的出现表明大型模子领域不再由单一实体主导，也没有只有 OpenAI 才能创造的“核心邪术”。更多地涉及领先于工程能力和资源投入。大型底子模子之间的竞争为上层应用开辟人员提供了更多选择，并将不可避免地带来更低的价格。从这个角度来看，无论 Claude 3 的乐成被高估了多少，都带来了重要的行业价值和社会影响。
五、参考文献

https://github.com/babelcloud/LLM-RGB
https://llm-rgb.babel.run/view/testId/a581e4a9-ce1e-4b2f-8f45-980889913b58
https://mp.weixin.qq.com/s?__biz=MzA4ODMwMDcxMQ==&mid=2651122739&idx=1&sn=667fcc30565cb1ba6510307747fbf78e

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)