本文先容如何使用 Ollama 在本地部署 Llama 3.1:8B 模型,并通过 OpenWeb UI 和 Spring AI 来加强模型交互体验和简化 API 的调用过程。
Ollama
Ollama 是一个开源的大语言模型服务工具,旨在简化大模型的本地部署和运行过程。用户只需要输入一行下令(如: ollama run llama3.1 ),即可在本地硬件环境中部署和使用大语言模型。Ollama 还提供了 REST API 接口,下文中会先容如何使用 Spring AI 集成 Ollama,实现与大模型 API 接口的交互。
Ollama 支持下载 Llama、Gemma、qwen 和 glm4 等多种主流大语言模型和代码语言模型,我们可以在 官网 检察 Ollama 支持的全部模型及其相关信息和使用下令。 本机运行 7B 参数量的模型至少需要 8GB 内存,运行 13B 参数量的模型至少需要 16GB 内存,运行 33B 参数量的模型至少需要 32GB 内存。
模型参数大小使用下令Llama 3.18B4.7GBollama run llama3.1Llama 3.170B40GBollama run llama3.1:70bLlama 3.1405B231GBollama run llama3.1:405bGemma 29B5.5GBollama run gemma2Gemma 227B16GBollama run gemma2:27bqwen27B4.4GBollama run qwen2qwen272B41GBollama run qwen2:72bglm49B5.5GBollama run glm4 下载
Spring AI 是 Spring 生态里人工智能方向的应用框架,它提供了与各种大语言模型交互的高级抽象接口,极大地简化了Java 人工智能应用步伐的开发过程,让 Java 开发者也可以或许开发 AI 应用。
接下来将详细先容 Spring AI 的使用流程,以及如何调用 Ollama 的 API 接口,与我们本地的 Llama 3.1 进行交互。
集成 Ollama
创建一个新的 Spring Boot 项目,版本要求 Spring Boot 3 + JDK 17。