官网:接待来到 Xinference! — Xinference
github : GitHub - xorbitsai/inference: Replace OpenAI GPT with another LLM in your app by changing a single line of code. Xinference gives you the freedom to use any LLM you need. With Xinference, you're empowered to run inference with any open-source language models, speech recognition models, and multimodal models, whether in the cloud, on-premises, or even on your laptop.
个人认为是用过最好用的框架,没有之一!docker部署简单,界面操纵容易。缺点是要求CUDA>=12.4,且不支持国产硬件。
1.1.2 GPUstack :
官网:GPUStack.ai
github: GitHub - gpustack/gpustack: Manage GPU clusters for running AI models
界面操纵容易,部署也较为简单,支持多个cuda版本,且适配了国产npu和rocm,非常适合国产企业部署模型。同时可以将多个服务器组成集群,布更大的模型(满血版deepseek-r1 必要两台16卡A100)
由于笔者的工作必要用到国产的硬件,因此选择了GPUstack,本文也记录GPUstack的部署流程。
1.2 部署方式: