(测试结果图片以及仓库见文末参考文献)
要特别注意的是,在 LLM-RGB 评估中,015_simple_mahjong 是个超级难题。简单地说,大型模子被教了一些简单的麻将规则,还给了一些例子,然后要求在一个具体情境下做出选择。这个问题在从前的测试中很少有人能精确解答。不过,Claude 3 Opus 有20%的几率给出最佳解答,还有80%的几率给出次优解。这意味着它的多轮推理能力远远凌驾其他模子,可以大概快速学习并应用有限的知识。这使得 Claude 3 的应用领域不仅限于简单的客服和文本生成,它在工程过程更长的领域也能体现出色。
三、在亚马逊云科技上体验 Claude 3
3.1 在 Amazon Bedrock 服务中配置 Claude 3
目前,Anthropic 的 Claude 3 Sonnet 模子现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全免费试用。
Amazon 上的体验服务入口:https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=KOCKOL
进入后无需注册账号,仅需要扫码进入 CloudAssist,然后点击限时试用即可,如下图
下一代 Claude (Claude 3) 的三个模子 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯逐一个提供 Claude 3 Sonnet 的托管服务。