CUDA & OLLAMA 配置多显卡负载均衡

九天猎人 · 2025-4-21 10:32:05

CUDA & OLLAMA 配置多显卡负载均衡

1. 系统环境概述

显卡型号：2 × NVIDIA GeForce RTX 4060 Ti
驱动版本：560.94
CUDA版本：12.6
显存状态：
1. cmd执行 nvidia-smi
2. GPU 0: 14,542MiB / 16,380MiB (空闲)
3. GPU 1: 13,900MiB / 16,380MiB (空闲)
复制代码

2. CUDA 环境配置

核心变量

环境变量值/作用阐明示例值CUDA_PATHCUDA Toolkit安装路径C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6CUDA_PATH_V12_6CUDA 12.6专用路径同上CUDA_VISIBLE_DEVICES指定可见GPU设备（通过nvidia-smi查询ID）0,1（启用GPU 0和1）

3. OLLAMA 高级配置

GPU 资源管理

环境变量功能阐明保举值OLLAMA_GPU_LAYER逼迫使用CUDA分配GPU资源cudaOLLAMA_NUM_GPU启用GPU数量（需与CUDA_VISIBLE_DEVICES匹配）2OLLAMA_SCHED_SPREADGPU负载均衡计谋（1=自动均衡）1OLLAMA_MAX_LOADED_MODELS单GPU最大加载模型数（防止显存溢出）3 服务与并发控制

环境变量功能阐明保举值OLLAMA_HOST服务监听所在（0.0.0.0=答应全部IP访问）0.0.0.0OLLAMA_NUM_PARALLEL最大并发请求数（根据GPU算力调解）6OLLAMA_KEEP_ALIVE模型驻留时间（-1=永世驻留显存，避免重复加载）-1 存储路径

环境变量功能阐明示例值OLLAMA_MODELS模型文件存储根目录D:\ollama\models

4. 完整配置示例

(1) linux

# CUDA 配置
export CUDA_PATH="C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
export CUDA_VISIBLE_DEVICES=0,1
# OLLAMA 核心配置
export OLLAMA_GPU_LAYER=cuda
export OLLAMA_HOST=0.0.0.0
export OLLAMA_KEEP_ALIVE=-1
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_MODELS=D:\ollama\models
export OLLAMA_NUM_GPU=2
export OLLAMA_NUM_PARALLEL=6
export OLLAMA_SCHED_SPREAD=1

复制代码

(2) windows

5. 关键优化点

多GPU负载均衡：通过OLLAMA_SCHED_SPREAD=1实现双卡算力动态分配
显存驻留优化：OLLAMA_KEEP_ALIVE=-1避免高频请求时的模型重复加载
并发控制：OLLAMA_NUM_PARALLEL=6平衡RTX 4060 Ti的算力与相应延迟

6. 配置示例

配置之后模型全部跑在GPU上，不会将CPU拉满

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

CUDA & OLLAMA 配置多显卡负载均衡

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块