九天猎人 发表于 2025-4-21 10:32:05

CUDA & OLLAMA 配置多显卡负载均衡

CUDA & OLLAMA 配置多显卡负载均衡

1. 系统环境概述



[*] 显卡型号:2 × NVIDIA GeForce RTX 4060 Ti
[*] 驱动版本:560.94
[*] CUDA版本:12.6
[*] 显存状态:
cmd执行 nvidia-smi
GPU 0: 14,542MiB / 16,380MiB (空闲)
GPU 1: 13,900MiB / 16,380MiB (空闲)

2. CUDA 环境配置

核心变量

环境变量值/作用阐明示例值CUDA_PATHCUDA Toolkit安装路径C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6CUDA_PATH_V12_6CUDA 12.6专用路径同上CUDA_VISIBLE_DEVICES指定可见GPU设备(通过nvidia-smi查询ID)0,1(启用GPU 0和1) 3. OLLAMA 高级配置

GPU 资源管理

环境变量功能阐明保举值OLLAMA_GPU_LAYER逼迫使用CUDA分配GPU资源cudaOLLAMA_NUM_GPU启用GPU数量(需与CUDA_VISIBLE_DEVICES匹配)2OLLAMA_SCHED_SPREADGPU负载均衡计谋(1=自动均衡)1OLLAMA_MAX_LOADED_MODELS单GPU最大加载模型数(防止显存溢出)3 服务与并发控制

环境变量功能阐明保举值OLLAMA_HOST服务监听所在(0.0.0.0=答应全部IP访问)0.0.0.0OLLAMA_NUM_PARALLEL最大并发请求数(根据GPU算力调解)6OLLAMA_KEEP_ALIVE模型驻留时间(-1=永世驻留显存,避免重复加载)-1 存储路径

环境变量功能阐明示例值OLLAMA_MODELS模型文件存储根目录D:\ollama\models 4. 完整配置示例

(1) linux

# CUDA 配置
export CUDA_PATH="C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
export CUDA_VISIBLE_DEVICES=0,1

# OLLAMA 核心配置
export OLLAMA_GPU_LAYER=cuda
export OLLAMA_HOST=0.0.0.0
export OLLAMA_KEEP_ALIVE=-1
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_MODELS=D:\ollama\models
export OLLAMA_NUM_GPU=2
export OLLAMA_NUM_PARALLEL=6
export OLLAMA_SCHED_SPREAD=1
(2) windows

https://i-blog.csdnimg.cn/direct/c56e6d5ae2c84338944d1b0605dae417.jpeg
5. 关键优化点


[*]多GPU负载均衡:通过OLLAMA_SCHED_SPREAD=1实现双卡算力动态分配
[*]显存驻留优化:OLLAMA_KEEP_ALIVE=-1避免高频请求时的模型重复加载
[*]并发控制:OLLAMA_NUM_PARALLEL=6平衡RTX 4060 Ti的算力与相应延迟
6. 配置示例

配置之后模型全部跑在GPU上,不会将CPU拉满
https://i-blog.csdnimg.cn/direct/ca8917762a734c0fb545b9145bc59431.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: CUDA & OLLAMA 配置多显卡负载均衡