论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
DevOps与敏捷开发
›
Ubuntu server下使用Ollama+GPU+NVLink运行deepseek ...
Ubuntu server下使用Ollama+GPU+NVLink运行deepseek
干翻全岛蛙蛙
金牌会员
|
2025-2-20 20:29:48
|
显示全部楼层
|
阅读模式
楼主
主题
886
|
帖子
886
|
积分
2658
本文将先容:
1.如安在Ubuntu server上安装ollama并运行deepseek-r1模型。(CPU运行)
2.如安在Ubuntu-server上安装nvidia驱动和cuda。(GPU运行)
3.如何使用显卡nvlink。(多GPU+NVLink运行)
一、Ubuntu server安装ollama并运行deepseek-r1
ollama简介
Ollama是一个致力于推动本地人工智能模型开发和应用的工具宁静台,可以使用ollama在本地运行、管理和调用各种AI模型。随着AI范畴蓬勃发展,ollama以其便捷性高、模型资源丰富等特点已然成为当前本地运行大模型的首选工具。
安装步调
1.系统更新
sudo apt update && sudo apt upgrade -y
复制代码
2.使用ollama安装脚本
一条命令安装
curl -fsSL https://ollama.com/install.sh | sh
复制代码
脚本安装会从GitHub下载资源,有条件建议科学上网,否则需要重试n次。
该自动化脚本会完成ollama的自动安装,执行完毕后使用ollama --version验证安装
安装完成后可以设置ollama开机自启systemctl enable ollama
3.设置局域网访问
如果ollama运行在本地GPU服务器等场景下,需要设置局域网访问才能调用ollama api。
设置环境变量export OLLAMA_HOST=0.0.0.0:11434
编辑ollama设置文件sudo vim /etc/systemd/system/ollama.service在[Service]加上Environment="OLLAMA_HOST=0.0.0.0:11434"
使用systemctl daemon-reload加载设置文件
重启ollama:systemctl restart ollama
4.设置防火墙端口
个人以为iptables足矣,可以选择直接sudo ufw disable关闭ufw防火墙,如果选择不关闭则按如下命令更新规则。
设置防火墙端口:sudo ufw allow 11434/tcp
最后可以使用恣意局域网内设备访问http://服务器地址:11434验证局域网内是否可访问
5.运行大模型
如果选择CPU运行可直接进行此步调,如果使用GPU运行需要先跳转到二、安装nvidia驱动和CUDA
ollama可以使用ollama run命令一键运行模型,如果模型未下载会先下载指定模型。同时还可以使用ollama list体现已下载的模型,使用ollama pull下载模型但是不运行等操作。
在https://ollama.com/search处可以看到ollama官方提供的模型列表。以deepseek-r1:32b为例,直接运行ollama run deepseek-r1:32b,如该模型未下载,ollama会先执行下载操作,下载完毕后运行。
ollama的下载操作普遍存在刚开始速度快,越下速度越慢的现象,通过科学上网也无法解决。如果知道缘故原由或有好的解决方案欢迎讨论交换,现在有解决方案是利用ollama下载支持
断点续传
的特性,通过脚本在下载降速前竣事下载而后再继续下载来避免单次下载时间长而慢,如果不嫌烦的话也可以在速度降下来后手动竣事下载再运行ollama run deepseek-r1:32b继续下载。
运行成功后即可在命令行进行简单的对话操作,也可以通过ollama api来开发自己的AI应用。
二、安装nvidia驱动和CUDA
Ubuntu LTS和server在默认情况下都无法使用NVIDIA GPU,需要安装驱动和CUDA才能使用GPU运行模型。
1.安装nvidia驱动
查看是否安装gcc
gcc -v
复制代码
如果未安装,运行sudo apt-get install build-essential
禁用nouveau驱动
Nouveau是一个开源的NVIDIA显卡驱动程序,由社区开发,通过对NVIDIA官方驱动进行逆向工程而来。它是X.Org的一部门,支持大多数NVIDIA显卡,优点是开源、与Linux内核和其他开源组件集成精良,通常在大多数Linux发行版中默认包含。但它的性能通常不如NVIDIA官方驱动,且对最新硬件的支持滞后,缺乏某些高级功能。
Nouveau和NVIDIA官方驱动程序都用于控制NVIDIA GPU,但一次只能有一个驱动程序控制GPU。Nouveau在内核中执行模式设置,即使X未运行,Nouveau也会被使用,其内核模块无法卸载,这将阻止NVIDIA内核模块加载。因此,在安装NVIDIA驱动之前,必须禁用Nouveau的内核模式设置。
使用sudo vim /etc/modprobe.d/blacklist-nouveau.conf添加以下内容:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
复制代码
关闭nouveau:
echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf
复制代码
完成后,重新生成内核并重启:
sudo update-initramfs -u
sudo reboot
复制代码
重启后,执行lsmod | grep nouveau,如果没有输出则证实禁用nouveau成功,可以继续进行下面操作。
驱动安装
执行ubuntu-drivers devices获取可用驱动信息
建议直接安装带recommended的驱动版本,我这里是nvidia-driver-570,因此直接运行sudo apt install nvidia-driver-570
安装完成后,可以执行nvidia-smi输出GPU状态监控,如果成功输出则安装成功。
同时,监控输出中会体现CUDA version,我这里是12.8,接下来安装对应版本的cuda toolkit:
2.安装CUDA
在https://developer.nvidia.com/cuda-toolkit-archive找到自己对应的CUDA版本。
进入具体CUDA版本页面,选择自己的系统信息和安装方式,我这里选择的安装方式是runfile,直接运行官方给出的安装命令即可:
进入安装程序后首先选择continue,然后输入accept回车
**注意!**CUDA Installer页面的Driver默认是选中状态,这里需要取消选中,因为先前已经安装好了nvidia驱动程序。取消选中后选择Install进行安装,
安装完成后sudo reboot重启,不想重启可以手动添加环境变量:sudo vim ~/.bashrc,在末端添加如下内容
export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
复制代码
生存文件后执行source ~/.bashrc即可。
重启或手动添加环境变量后执行nvcc -V,体现信息正常则安装成功。
到这一步就可以使用GPU运行模型了,按照5.运行大模型方式即可。如果是多显卡使用nvlink,则继续进行三、启用nvlink
三、启用nvlink
NVLink是由NVIDIA开发的一种高性能互联技能,用于实现GPU之间以及GPU与CPU之间的高速、低延迟通信。其主要特点是高带宽(最新版本的NVLink 4可提供高达900 GB/s的总带宽)、低延迟以及支持多GPU直接互连。NVLink通过专用硬件通道,相比传统的PCIe接口,可以大概明显提拔数据传输速度。
在本地运行大语言模型时,NVLink的作用主要体如今加快多GPU之间的数据通信。大语言模型通常需要多个GPU协同工作,数据在GPU之间的传输效率会直接影响模型的推理速度。对于一个包含4096个token的输入,单次all reduce通信在NVLink 3.0上的延迟仅为603微秒,而在PCIe 4.0上则高达11369微秒。这种高效的通信本事使得NVLink在处理大规模模型时可以大概大幅淘汰数据传输时间,从而提拔整体推理速度。
RTX3090/TI显卡是最后一代支持NVLink的消耗级游戏显卡(40系开始取消NVLink接口,只有专业显卡生存)。因为有NVLink加持,3090成为了深度学习训练的入门显卡之一。
Ubuntu下默认不支持NVLink,需要手动启用。首先需要开启驱动长期化模式,执行nvidia-smi -pm 1,使用nvidia-smi查看状态发现显卡名称背面体现为
On
则为成功。成功后执行sudo reboot重启。
重启后执行nvidia-smi topo -m发现GPU间已启用NVLink毗连:
至此可以使用多显卡高效本地运行大模型,运行方式参照5.运行大模型
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
干翻全岛蛙蛙
金牌会员
这个人很懒什么都没写!
楼主热帖
Mac 上下载安装《鸣潮》详细教程(含更 ...
SQL的函数
Android Studio实现一个校园图书管理系 ...
ASP.NET Core依赖注入之旅:针对服务注 ...
类与对象的创建
我为什么选择Wiki.js记笔记? ...
ES6案例 ------ 模拟浏览器网页顶部切 ...
批量下载浏览器网页中全部链接的方法 ...
Redis笔记总结(狂神说)
sql注入详解
标签云
挺好的
服务器
快速回复
返回顶部
返回列表