登顶GitHub热榜的开源AI神器DocsGPT团队选择 MongoDB Atlas作为托管数据库
https://i-blog.csdnimg.cn/direct/554451fd7bcb409b82e9fa9eabc49f8a.jpeg#pic_center自 2019 年成立以来,Arc53 便不停致力于为客户打造猜测式 AI/ML 办理方案,应用场景涵盖推荐引擎到欺诈检测等多个领域。而 2022 年 11 月 OpenAI 推出 ChatGPT 后,Arc53 便意识到 AI 的发展轨迹在极短的时间内发生了新的变化。
Arc53 联合创始人 Alex Tushynski 表现,“生成式 AI 迅速赢得市场关注是有迹可循的。开发职员和数据团队转瞬之间就面临挑衅,迫使将公司的专有数据导入生成式 AI 模型,并搭建如今所谓的检索加强生成 (RAG) 框架。为此,他们必须拓展新领域,学习新技能。这并非易事,因为他们不仅需要整合公司的所有数据库、数据湖、文件系统和搜刮引擎,而且要想法将这些系统中的数据输入到全新的向量存储中。 然后,他们还需要统筹所有要素并构建完备的办理方案。为此,我们想到了一个可以或许帮助这些团队化繁为简的方法,那就是 DocsGPT。”
DocsGPT 是一款开源文档助手,可以帮助开发职员轻松地在自己的数据上运用自然语言处理(NLP)技术,构建出会话式的用户体验。例如,在公司网站上配置一个客服谈天机器人,或者在内部数据存储库中提供一个接口来帮助员工提高工作服从。
开发职员只需要将其数据源连接到 DocsGPT,即可利用各种嵌入模型和大语言模型 (LLM) 来优化其详细实例。 大语言模型 (LLM) 选项目前包括 ChatGPT 3.5 和 ChatGPT 4.0,以及基于 Mistral 的 DocsGPT-7B。
开发职员不仅可以选择模型,还可以选择在何处部署 DocsGPT。他们可以下载开源代码并在自己的环境中实行,也可以将 DocsGPT 作为 Arc53 的托管服务来使用。
https://i-blog.csdnimg.cn/direct/d3ccffaa96064dd0ac45a3c7f204c24f.png#pic_center
DocsGPT 技术堆栈
DocsGPT 赋予了开发职员极高的自由度,这从 DocsGPT 的采用率可见一斑。自客岁发布以来,DocsGPT 在 GitHub 上共获得 14,000 星数,其社区亦相称活跃,拥有超过 100 位独立撰稿人。 Tushynski 称:“DocsGPT 获得了英国就业及退休保障部、制药行业办理方案提供商 NoDeviation 等 20000 多家用户的青睐。”
Tushynski 及其团队选择了 MongoDB Atlas 作为 DocsGPT 托管服务的数据库。“我们之前已经在许多猜测式 AI 项目中使用过 MongoDB。MongoDB 可以或许机动地存储各种布局的数据,也可以扩展为庞大的数据集,并且易于开发职员和数据科学家使用,这意味着我们可以更快地交付更为丰富的 AI 驱动办理方案。 利用 MongoDB 来支持 DocsGPT 无疑是最优选择。开发职员将文档连接到 DocsGPT 时,MongoDB 会存储所有元数据以及谈天记载和用户账户信息。”
从 Elasticsearch 迁移到 MongoDB Atlas Vector Search
自 Atlas Vector Search 推出后,DocsGPT 团队便开始将其向量数据库从Elasticsearch 迁移到 MongoDB Atlas。 Tushynski 认为,“MongoDB 是一款卓有成效的 OLTP 数据库,不仅可以或许处理较高的读写吞吐量,而且可以提供事件包管。假如能将这些功能融入向量搜刮和实时生成式 AI 应用,必将创造巨大价值。Atlas 可以或许以多种方式处理嵌入内容快速变化且高度动态的工作负载,而这是 Elasticsearch 无法比拟的。 Elasticsearch 在将更新合并到现有索引中时有一定耽误,说明该应用经常检索陈旧数据,而这会影响模型输出的质量和可靠性。”
Tushynski 还表现,“我们试用过多款独立的向量数据库。有些数据库的技术程度确实不错,但在共同高度动态的生成式 AI 应用方面,仍然无法满足我们的需求。我们注意到,当用户的应用开始发展强大之后,用户就会产生调整嵌入模型的想法,而调整嵌入模型时,需要对数据进行重新编码并更新向量搜刮索引。例如,我们先将自己的默认嵌入模型从 OpenAI 迁移到了 Hugging Face 上的多个托管开源模型上,现在又迁移到了 BGE 上。MongoDB 以 OLTP 为基础,让流程变得快捷、简单、省事。”
Arc53 联合创始人 Alex Tushynski
“源数据、元数据和向量嵌入在同一个平台上,实现了统一和同步,并且可以或许通过同一个 API 访问,这帮助用户加快了构建生成式 AI 应用的速度,降低了成本和复杂性。”
Tushynski 在其名为“使用最佳嵌入,强大 DocsGPT ”(Amplify DocsGPT with optimal embeddings) 的博文中探究了嵌入模型的紧张性。这篇文章通过一个示例描述了某客户如何仅通过更新其嵌入模型,便将测得的用户体验优化了 50%。
https://i-blog.csdnimg.cn/direct/def2a41c8ec5429c9615f0f8add17a4a.png#pic_center
显现向量嵌入选择的影响
“在这一方面,MongoDB Atlas的一大突出特点是它可以娴熟地处理多个嵌入。无需创建单独的聚集或表单,MongoDB Atlas就能直接将各种嵌入直接链接到一个或多个大语言模型,这一功能非常实用,”Tushynski 说道。“这种方法不仅简化了数据架构,还避免了数据复制,轻松办理了传统数据库设置过程中广泛存在的困难。MongoDB 为存储和管理多个嵌入提供了便利条件,在不同的大语言模型及其各自的嵌入之间实现了更加无缝且机动的互动。”
作为 AI 创新者筹划的一员,DocsGPT 工程团队不仅可以享有 Atlas 免费积分,还可以获取专业技术知识,为迁移过程保驾护航。AI 创新者筹划面向所有使用 MongoDB 构建 AI 办理方案的初创企业。
点击了解AI创新者筹划
MongoDB Atlas
MongoDB Atlas 是 MongoDB 公司提供的 MongoDB 云服务,由 MongoDB 数据库的开发团队构建和运维,可以在亚马逊云科技、Microsoft Azure、Google Cloud Platform 云平台上轻松部署、运营和扩展。MongoDB Atlas 内建了 MongoDB 安全和运维最佳实践,可自动完成基础办法的部署、数据库的构建、高可用部署、数据的环球分发、备份等即费时又需要大量履历运维工作。让您通过简单的界面和 API 就 可以完成这些工作,由此您可以将更多名贵的时间花在构建您的应用上。
点击了解更多MongoDB Atlas的干系内容
点击了解更多MongoDB Atlas Vector Search的干系内容
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]