云原生CUDA & OLLAMA 配置多显卡负载均衡

九天猎人 发表于 2025-4-21 10:32:05

CUDA & OLLAMA 配置多显卡负载均衡

CUDA & OLLAMA 配置多显卡负载均衡

1. 系统环境概述

[*] 显卡型号：2 × NVIDIA GeForce RTX 4060 Ti
[*] 驱动版本：560.94
[*] CUDA版本：12.6
[*] 显存状态：
cmd执行 nvidia-smi
GPU 0: 14,542MiB / 16,380MiB (空闲)
GPU 1: 13,900MiB / 16,380MiB (空闲)

2. CUDA 环境配置

核心变量

环境变量值/作用阐明示例值CUDA_PATHCUDA Toolkit安装路径C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6CUDA_PATH_V12_6CUDA 12.6专用路径同上CUDA_VISIBLE_DEVICES指定可见GPU设备（通过nvidia-smi查询ID）0,1（启用GPU 0和1） 3. OLLAMA 高级配置

GPU 资源管理

环境变量功能阐明保举值OLLAMA_GPU_LAYER逼迫使用CUDA分配GPU资源cudaOLLAMA_NUM_GPU启用GPU数量（需与CUDA_VISIBLE_DEVICES匹配）2OLLAMA_SCHED_SPREADGPU负载均衡计谋（1=自动均衡）1OLLAMA_MAX_LOADED_MODELS单GPU最大加载模型数（防止显存溢出）3 服务与并发控制

环境变量功能阐明保举值OLLAMA_HOST服务监听所在（0.0.0.0=答应全部IP访问）0.0.0.0OLLAMA_NUM_PARALLEL最大并发请求数（根据GPU算力调解）6OLLAMA_KEEP_ALIVE模型驻留时间（-1=永世驻留显存，避免重复加载）-1 存储路径

环境变量功能阐明示例值OLLAMA_MODELS模型文件存储根目录D:\ollama\models 4. 完整配置示例

(1) linux

# CUDA 配置
export CUDA_PATH="C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
export CUDA_VISIBLE_DEVICES=0,1

# OLLAMA 核心配置
export OLLAMA_GPU_LAYER=cuda
export OLLAMA_HOST=0.0.0.0
export OLLAMA_KEEP_ALIVE=-1
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_MODELS=D:\ollama\models
export OLLAMA_NUM_GPU=2
export OLLAMA_NUM_PARALLEL=6
export OLLAMA_SCHED_SPREAD=1
(2) windows

https://i-blog.csdnimg.cn/direct/c56e6d5ae2c84338944d1b0605dae417.jpeg
5. 关键优化点

[*]多GPU负载均衡：通过OLLAMA_SCHED_SPREAD=1实现双卡算力动态分配
[*]显存驻留优化：OLLAMA_KEEP_ALIVE=-1避免高频请求时的模型重复加载
[*]并发控制：OLLAMA_NUM_PARALLEL=6平衡RTX 4060 Ti的算力与相应延迟
6. 配置示例

配置之后模型全部跑在GPU上，不会将CPU拉满
https://i-blog.csdnimg.cn/direct/ca8917762a734c0fb545b9145bc59431.png

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

CUDA & OLLAMA 配置多显卡负载均衡