CUDA & OLLAMA 配置多显卡负载均衡

打印 上一主题 下一主题

主题 1651|帖子 1651|积分 4953

CUDA & OLLAMA 配置多显卡负载均衡

1. 系统环境概述



  • 显卡型号:2 × NVIDIA GeForce RTX 4060 Ti
  • 驱动版本:560.94
  • CUDA版本:12.6
  • 显存状态
    1. cmd执行 nvidia-smi
    2. GPU 0: 14,542MiB / 16,380MiB (空闲)
    3. GPU 1: 13,900MiB / 16,380MiB (空闲)
    复制代码

2. CUDA 环境配置

核心变量

环境变量值/作用阐明示例值CUDA_PATHCUDA Toolkit安装路径C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6CUDA_PATH_V12_6CUDA 12.6专用路径同上CUDA_VISIBLE_DEVICES指定可见GPU设备(通过nvidia-smi查询ID)0,1(启用GPU 0和1)
3. OLLAMA 高级配置

GPU 资源管理

环境变量功能阐明保举值OLLAMA_GPU_LAYER逼迫使用CUDA分配GPU资源cudaOLLAMA_NUM_GPU启用GPU数量(需与CUDA_VISIBLE_DEVICES匹配)2OLLAMA_SCHED_SPREADGPU负载均衡计谋(1=自动均衡)1OLLAMA_MAX_LOADED_MODELS单GPU最大加载模型数(防止显存溢出)3 服务与并发控制

环境变量功能阐明保举值OLLAMA_HOST服务监听所在(0.0.0.0=答应全部IP访问)0.0.0.0OLLAMA_NUM_PARALLEL最大并发请求数(根据GPU算力调解)6OLLAMA_KEEP_ALIVE模型驻留时间(-1=永世驻留显存,避免重复加载)-1 存储路径

环境变量功能阐明示例值OLLAMA_MODELS模型文件存储根目录D:\ollama\models
4. 完整配置示例

(1) linux

  1. # CUDA 配置
  2. export CUDA_PATH="C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
  3. export CUDA_VISIBLE_DEVICES=0,1
  4. # OLLAMA 核心配置
  5. export OLLAMA_GPU_LAYER=cuda
  6. export OLLAMA_HOST=0.0.0.0
  7. export OLLAMA_KEEP_ALIVE=-1
  8. export OLLAMA_MAX_LOADED_MODELS=3
  9. export OLLAMA_MODELS=D:\ollama\models
  10. export OLLAMA_NUM_GPU=2
  11. export OLLAMA_NUM_PARALLEL=6
  12. export OLLAMA_SCHED_SPREAD=1
复制代码
(2) windows



5. 关键优化点


  • 多GPU负载均衡:通过OLLAMA_SCHED_SPREAD=1实现双卡算力动态分配
  • 显存驻留优化:OLLAMA_KEEP_ALIVE=-1避免高频请求时的模型重复加载
  • 并发控制:OLLAMA_NUM_PARALLEL=6平衡RTX 4060 Ti的算力与相应延迟
6. 配置示例

配置之后模型全部跑在GPU上,不会将CPU拉满


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

九天猎人

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表