大语言模型可能不可靠,这几乎算不上头条新闻。对于某些用例,这可能会带来不便。而对于其他行业,尤其是受羁系行业,结果则要严峻得多。于是,业内首个大语言模型自动评估平台 Patronus AI 应运而生。
Patronus AI 由 Meta AI 和 Meta Reality Labs 的机器学习专家创立,旨在加强企业对生成式 AI 应用程序的信心,在塑造值得信任的 AI 生态方面处于领先职位。
Patronus 团结首创人兼首席技能官 Rebecca Qian 解释道:“我们的平台支持工程师在真实场景中对 LLM 性能举行评分和基准测试,生成对抗性测试用例,监控幻觉并检测 PII 及其他不测和不安全的行为。客户使用 Patronus AI 大规模检测 LLM 错误,从而安全、自信地摆设 AI 产物。”