ToB企服应用市场:ToB评测及商务社交产业平台

标题: [ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云,实测体现超预 [打印本页]

作者: 嚴華    时间: 2024-7-13 14:02
标题: [ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云,实测体现超预


  
一、前言

3月4号,Anthropic 发布了号称现阶段宇宙最强大模子 Claude 3,到底强到什么水平,直接看这张图即可。
发文时间点 Claude 3 Sonnet 模子现已在亚马逊云科技的 Amazon Bedrock 正式可用本文第三节会介绍如何在亚马逊云科技上利用 Claude3 模子。
二、Claude 3 介绍以及相干测试细节

这次发布包罗了三个版本:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们的能力从低到高。
首先是Haiku,它是市场上速度最快、资源效益最高的选择,对于大部门的纯文本任务体现出色,同时也支持多模态能力。
Sonnet 则比之前的 Claude 2 和 Claude 2.1 快两倍,而且智能水平更高。它擅优点理需要快速响应的智能任务,比如知识检索大概贩卖自动化。它在智能和速度之间到达了完美平衡,这对企业应用来说尤为重要。
Opus 是最顶级、最强大的底子模子,具备深度推理、高级数学和编码能力,在高度复杂的任务上体现出色。它可以大概流通地处理各种开放式提示和新颖场景,包罗任务自动化、假设生成以及图表、图形和猜测的分析。适用于需要高度智能和复杂任务处理的场景,比如企业自动化、复杂金融猜测、研究和开辟等。
Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus的能力可以参考下面的图示:

在相干测评中,Opus体现出色,多项基准测试中的得分都凌驾了GPT-4和Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度上树立了新的行业标准。特别是在特定测试场景下,如研究生水平考试Q题解A和数学Q题解决上,Claude 3的体现优于GPT-4。比如,在zero-shot学习环境下,Claude 3的精确率到达了60%,凌驾了GPT-4的52%。
在 Babel.cloud 开源评估项目标 LLMRGB 项目中,Claude3 在单次测试中获得了高达97.6的高分,大大凌驾了GPT-4,成为当前大型模子能力的领先者。

   (测试结果图片以及仓库见文末参考文献)  
要特别注意的是,在 LLM-RGB 评估中,015_simple_mahjong 是个超级难题。简单地说,大型模子被教了一些简单的麻将规则,还给了一些例子,然后要求在一个具体情境下做出选择。这个问题在从前的测试中很少有人能精确解答。不过,Claude 3 Opus 有20%的几率给出最佳解答,还有80%的几率给出次优解。这意味着它的多轮推理能力远远凌驾其他模子,可以大概快速学习并应用有限的知识。这使得 Claude 3 的应用领域不仅限于简单的客服和文本生成,它在工程过程更长的领域也能体现出色。
三、在亚马逊云科技上体验 Claude 3

3.1 在 Amazon Bedrock 服务中配置 Claude 3

目前,Anthropic 的 Claude 3 Sonnet 模子现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全免费试用
Amazon 上的体验服务入口:https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=KOCKOL
进入后无需注册账号,仅需要扫码进入 CloudAssist,然后点击限时试用即可,如下图
   下一代 Claude (Claude 3) 的三个模子 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯逐一个提供 Claude 3 Sonnet 的托管服务。
  

在 Amazon Bedrock 服务中,点击下面的入门按钮

进入到 Amazon Bedrock 后,首先需要管理模子的访问权限,这后面需要申请所需的模子,在这个步骤直接点击 [管理模子访问权限] 按钮即可。

进入到模子列表页面后,可以看到 Amazon Bedrock 中内嵌了很多模子,不过这些模子默认没有配置访问,这需要你做访问请求,也就是继承点击配置模子访问权限操纵。

进入到模子请求访问权限页面后,可以看到 Anthropic 公司的模子,在做请求之前,需要先提交应用场景。如下图

下面的信息是必填信息,需要填写后,按钮才会高亮,允许继承点击

在上一步点击提交按钮后,勾选所需的模子,这里直接全选了全部模子做请求。

最后请求过程中大概需要等待几分钟。等待请求完成即可。

3.2 为谈天配置利用 Claude 3 模子

在上述步骤配置好后,在 Amazon Bedrock 页面,选择谈天菜单,之后点击【选择模子】按钮,选择 Claude 3 模子。

进入到模子选择页面,选择 Anthropic 公司中的 Claude 3,点击应用即可。

3.3 Caude 3 Sonet 谈天体验

第一个问题我是直接问他利用pyhon写一个3次的循环,可以看出 Caude 3 不局限一种方式誊写,而且将多个实现写出,后面而且给出的测试打印结果。可以说你后面想问的大概拓展的很好。

接下来我利用 Claude 3 进行了一个图片辨认,而且让 Claude 3 进行了分析总结, 传给 Claude 3 的图片是一张中国地图,而且带有一些描述信息。
可以看到最后 Claude 3 给的分析总结非常精准,精准到我有点吃惊。

对图片进行辨认的测试,我上传了一只猫,可以看到 Claude 3 不仅分析了动物是什么,还直接描述了这个图片中猫的场景动作。

别的一个让我吃惊的是,我上传了一张车的图片,让他辨认出来车的型号,Claude 3 可以几乎精准辨认。问题以及 Claude 3 的回复可以看下图。

四、文末总结

个人觉得,Claude 3 的超预期乐成并不意味着 Anthropic 的能力已经完全超越了OpenAI。如今看 Claude 3 显然比 GPT4 更强大,但大概GPT-5 已经在 OpenAI 手中了。
然而,Claude 3 的出现表明大型模子领域不再由单一实体主导,也没有只有 OpenAI 才能创造的“核心邪术”。更多地涉及领先于工程能力和资源投入。大型底子模子之间的竞争为上层应用开辟人员提供了更多选择,并将不可避免地带来更低的价格。从这个角度来看,无论 Claude 3 的乐成被高估了多少,都带来了重要的行业价值和社会影响。
五、参考文献



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4