玛卡巴卡的卡巴卡玛 发表于 2024-9-12 22:23:38

使用 MongoDB 构建 AI:Patronus 如何自动举行大语言模型评估来加强对生成

https://i-blog.csdnimg.cn/direct/664020f1e3164da6b310027d976d95cf.jpeg#pic_center
大语言模型可能不可靠,这几乎算不上头条新闻。对于某些用例,这可能会带来不便。而对于其他行业,尤其是受羁系行业,结果则要严峻得多。于是,业内首个大语言模型自动评估平台 Patronus AI 应运而生。
   Patronus AI 由 Meta AI 和 Meta Reality Labs 的机器学习专家创立,旨在加强企业对生成式 AI 应用程序的信心,在塑造值得信任的 AI 生态方面处于领先职位。
Patronus 团结首创人兼首席技能官 Rebecca Qian 解释道:“我们的平台支持工程师在真实场景中对 LLM 性能举行评分和基准测试,生成对抗性测试用例,监控幻觉并检测 PII 及其他不测和不安全的行为。客户使用 Patronus AI 大规模检测 LLM 错误,从而安全、自信地摆设 AI 产物。”
https://i-blog.csdnimg.cn/direct/85031235441a4cd58e15116b7da889d5.jpeg#pic_center
在最近发表并被广泛引用的基于 FinanceBench 问答 (QA) 评估套件研究中,Patronus 有了一个惊人的发现。研究人员发现,许多广泛使用的先进 LLM 经常出现幻觉,错误回答或拒绝回答金融分析师标题的比例高达 81%! 只管模型的上下文窗口已通过从外部向量存储中检索到的上下文得到了加强,但错误率仍然如此之高。
检索加强生成 (RAG) 是为模型提供最新的、特定于领域上下文的一种常见方式,但应用程序所有者面临的一个关键标题是如何以可扩展的方式测试模型输出的可靠性。这时间,Patronus 的作用就凸显出来了。该公司采用生成式 AI 生态体系(包括模型提供商和框架以及向量存储和 RAG 办理方案)中的领先技能,提供托管评估服务、测试套件和对抗数据集。
“当我们评估形势以确定最佳互助伙伴时,我们看到了客户对 MongoDB Atlas 的巨大需求,”Qian 说道。“ 通过我们的 Patronus RAG 评估 API,我们可以资助客户验证他们基于 MongoDB Atlas 构建的 RAG 体系是否能持续提供优质、可靠的信息。 ”
在其新发布的十分钟指南中,Patronus 向开发者演示了一个工作流,展示了如何评估基于 MongoDB Atlas 的检索体系。该指南的重点是对照 SEC 10-K 文件评估幻觉和回答的相关性,模仿金融分析师查询文件,以获得分析和见解的过程。该工作流由以下工具构建:


[*]LlamaIndex 数据框架,用于导入和切分源 PDF 文档
[*]Atlas Vector Search ,用于存储、索引和查询切分后的元数据和嵌入
[*]Patronus,用于对模型响应举行评分
工作流如下图所示:
https://i-blog.csdnimg.cn/direct/56d5de086ae24d9d91b5e6029dc9ae01.jpeg#pic_center
根据分析结果,开发者可以接纳一些措施来进步 RAG 体系的性能,包括探索差别的索引、修改文档切分大小、重新设计提示,以及对嵌入模型本身举行微调(针对大多数特定领域的应用程序)。
正如 Qian 所说:“无论您采用哪种方法来调试和修复幻觉,一定要对 RAG 体系举行持续测试,以确保长期实验性能改进。当然,您可以反复使用 Patronus API 举行确认。”
MongoDB Atlas
MongoDB Atlas 是 MongoDB 公司提供的 MongoDB 云服务,由 MongoDB 数据库的开发团队构建和运维,可以在亚马逊云科技、Microsoft Azure、Google Cloud Platform 云平台上轻松摆设、运营和扩展。MongoDB Atlas 内建了 MongoDB 安全和运维最佳实践,可自动完成基础设施的摆设、数据库的构建、高可用摆设、数据的环球分发、备份等即费时又需要大量经验运维工作。让您通过简单的界面和 API 就 可以完成这些工作,由此您可以将更多宝贵的时间花在构建您的应用上。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 使用 MongoDB 构建 AI:Patronus 如何自动举行大语言模型评估来加强对生成