ubuntu下open-webui + ollama本地大模型摆设

打印 上一主题 下一主题

主题 868|帖子 868|积分 2604

文章目录



  • nvidia gpu驱动安装


    • 安装
    • 卸载

  • ollama 摆设


    • 添加docker秘钥
    • docker配置添加国内镜像源
    • ollama安装


      • 从源拉取ollama镜像。
      • 启动一个ollama容器

    • 通过ollama下载模型到本地
    • 查验本地模型

  • open-webui 摆设


    • 安装容器和镜像下载
    • webui利用
    • 查看模型运行时内存、cpu、gpu占用


业余爱好,摆设下最近很火的LLM大模型玩玩,现在市面做这种大模型的摆设快速应用照旧挺多的,好比下面这些。

这里介绍采用nvidia gpu,基于ubuntu docker情况下的open-webui + ollama本地大模型摆设过程。
nvidia gpu驱动安装

如果电脑有nvidia gpu,利用本地大模型最好采用gpu,否则用cpu的推理速率极慢,还占用资源。
安装

  1. # nvidia镜像源
  2. curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
  3.   && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list |
  4.     sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' |
  5.     sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  6. apt-get update
  7. #安装 NVIDIA Container Toolkit 软件包
  8.    apt-get install -y nvidia-container-toolkit
  9. #配置 Docker 以使用 Nvidia 驱动程序
  10.    sudo nvidia-ctk runtime configure --runtime=docker
  11. apt-get install dkms
  12. ubuntu-drivers devices # 查询系统建议安装的nvidia版本
  13. apt install nvidia-driver-550-open  #选择驱动版本安装
  14. ls /usr/src/ |grep nvidia #可以看到nvidia开头的驱动版本文件
复制代码
安装后reboot重启
然后执行nvidia-smi查看gpu情况,确认是否安装乐成。
卸载

  1. sudo apt-get --purge remove nvidia*
  2. sudo apt autoremove
  3. # To remove CUDA Toolkit:
  4. sudo apt-get --purge remove "*cublas*" "cuda*"
  5. sudo apt-get --purge remove "*nvidia*"
复制代码
ollama 摆设

添加docker秘钥

  1. curl -fsSL http://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
复制代码
添加阿里docker软件源
  1. sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"
复制代码

docker配置添加国内镜像源

创建文件:/etc/docker/daemon.json, 添加如下内容, docker镜像源将会从如下站点拉取。同时配置Nvidia运行时,能在docker中利用GPU。
  1. {
  2.     "registry-mirrors": [  #镜像源
  3.         "https://docker.mirrors.ustc.edu.cn",
  4.         "https://hub-mirror.c.163.com",
  5.         "https://docker.m.daocloud.io",
  6.         "https://ghcr.io",
  7.         "https://mirror.baidubce.com",
  8.         "https://docker.nju.edu.cn"
  9.     ],
  10.     "default-runtime": "nvidia",
  11.         "runtimes": {
  12.                "nvidia": {
  13.                    "args": [],
  14.                    "path": "nvidia-container-runtime"
  15.                }
  16.          },
  17.     "data-root": "/home/docker/data/"  #docker镜像默认安装路径
  18.    
  19. }
复制代码
其中,"data-root"为docker镜像默认安装路径,用户根据自己情况选择路径。如果不选择,默认安装到:/var/run/docker/。
sudo systemctl restart docker 生效。
ollama安装

从源拉取ollama镜像。

  1. docker pull ollama/ollama:latest
复制代码
启动一个ollama容器

  1. docker run -d --gpus=all --restart=always -v /root/project/docker/ollama:/root/project/.ollama -p 11434:11434 --name ollama ollama/ollama
复制代码
利用镜像为ollama/ollama,映射端口11434。
通过ollama下载模型到本地

  1. #下载通义千问:
  2. docker exec -it ollama ollama run qwen2
  3. #下载通义ollama3
  4. docker exec -it ollama ollama run  llama3.1:8b
复制代码
查看已经安装好的模型:
  1. docker exec -it ollama ollama list
复制代码

可下载其他模型库如下,根据自身电脑配置下载
模型
参数数目
大小
下载方式
Llama 2
7B
3.8GB
docker exec -it ollama ollama run llama2
Mistral
7B
4.1GB
docker exec -it ollama ollama run mistral
Dolphin Phi
2.7B
1.6GB
docker exec -it ollama ollama run dolphin-phi
Phi-2
2.7B
1.7GB
docker exec -it ollama ollama run phi
Neural Chat
7B
4.1GB
docker exec -it ollama ollama run neural-chat
Starling
7B
4.1GB
docker exec -it ollama ollama run starling-lm
Code Llama
7B
3.8GB
docker exec -it ollama ollama run codellama
Llama 2 Uncensored
7B
3.8GB
docker exec -it ollama ollama run llama2-uncensored
Llama 2
13B
7.3GB
docker exec -it ollama ollama run llama2:13b
Llama 2
70B
39GB
docker exec -it ollama ollama run llama2:70b
Orca Mini
3B
1.9GB
docker exec -it ollama ollama run orca-mini
Vicuna
7B
3.8GB
docker exec -it ollama ollama run vicuna
LLaVA
7B
4.5GB
docker exec -it ollama ollama run llava
Gemma
2B
1.4GB
docker exec -it ollama ollama run gemma:2b
Gemma
7B
4.8GB
docker exec -it ollama ollama run gemma:7b
查验本地模型

通过命令运行ollama3.1,能直接举行对话,说明正常了。
  1. docker exec -it ollama ollama run  llama3.1:8b
复制代码

open-webui 摆设

上面命令方式跟模型对话不太通用,通常会做成网页情势交互,这里可以采用open-webui。
安装容器和镜像下载

支持 Nvidia GPU 的 Open WebUI
  1. sudo docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda
复制代码
但下载估计非常慢,可以用国内的:
  1. sudo docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always  registry.cn-shenzhen.aliyuncs.com/funet8/open-webui:cuda
复制代码
如果不支持 Nvidia GPU 可以下载main版本:
  1. $ sudo docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
复制代码
映射端标语为3000.
查看ollama和open-webui安装的容器和镜像:


webui利用

网页登入:
http://127.0.0.0:3000/

第一次登入,必要注册个管理员账号。
进入webui后,查看是否识别到模型。

以及管理模型docker的端标语是否与ollama划一。

第一次启动模型提问,大概要等待一段时间,等模型加载启动后才有回应。
(如果不停没有回应,但命令行方式有回应,那大概是webui安装题目,或者欣赏器题目)。

查看模型运行时内存、cpu、gpu占用

模型开始答复题目时,cpu变革不大,答复竣事后cpu恢复,但内存被占用许多,而且答复竣事后仍旧占用,说明模型已经被加载到内存处于活泼状态。

nvidia-smi查看,模型j计算的主要占用在GPU中。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表