Windows11搭建DeepSeek教程(ubuntu+llama.cpp+硬件加速)

打印 上一主题 下一主题

主题 816|帖子 816|积分 2448



媒介:

本教程主要是讲windows系统,安装WSL ubuntu系统, 运行DeepSeek过程。
在windows直接安装也是可以的,但是在安装过程中遇到的不兼容问题非常多,配置也比力复杂,已掉坑里多次,所以不建议大家直接在windows上安装,推荐在系统中安装ubuntu,然后再配置环境,运行DeepSeek, 这种方式也可以利用电脑的GPU硬件做加速,很多人是intel办公集成显卡,AMD显卡,有一些显卡是可以实现硬件加速,并不是肯定要nvidia显卡。
本次安装利用llama.cpp项目,安装确实稍有点复杂,但是也有很大的优势:


  • 高效性llama.cpp接纳了高效的量化技术,淘汰了模子的大小和盘算需求,从而进步了推理速率。提供量化命令,可以直接把huggingface的模子量化成小模子。
  • 轻量化:通过优化算法和淘汰不必要的代码,llama.cpp实现了较小的内存占用,使其适用于各种装备。
  • 跨平台支持:支持Linux、macOS和Windows等多个操作系统,可以在不同环境中运行。
  • 开源性:作为开源项目llama.cpp吸引很多的开辟者到场,迭代速率非常快。
  • 机动性:模块化计划使得开辟者可以选择性地利用框架的部分功能,而不必利用整个框架。
  • 高性能盘算:C++的高效性使得llama.cpp能够实现高性能盘算,适用于需要高吞吐量和低耽误的应用。
  • 内存管理:这个项目的最紧张特点就是它能够利用显卡和系统内存(RAM)。这意味着它不仅仅依靠显卡的视频内存(VRAM),还可以利用系统的RAM来进行盘算,从而更好地管理资源和进步性能。传统的python项目,当利用显卡时,内存有很大空间也无法利用。用cpu时又不能加速。导致只能用nvidia cuda显卡,其他显卡无法利用。英伟达一家独大,股票节节攀升,本项目可以在推理时充实利用呆板显卡。
开始安装:

步调先容:

安装WSL ubuntu, ubuntu编译环境,安装CUDA,下载并编译项目,下载模子,运行模子一共六步就可以在当地体验DeepSeek R1,下面逐步先容:
1.安装WSL ubuntu

首先在系统中找到:Microsoft Store, 搜刮 ubuntu, 会有多个效果,要选择Ubuntu 22.04.5 版本,可以利用window的硬件加速功能。第一个也可以,版本相同。22.04.5版本比力普遍,根本不会有兼容问题和编译问题。

安装成功后要提示设置一个用户名和密码

2.ubuntu编译环境

安装开辟相关的编译环境
  1. sudo apt-get update
  2. sudo apt-get install build-essential cmake
复制代码
3.安装CUDA

​​​​​​CUDA Toolkit 12.0 Downloads | NVIDIA Developer
如果是英伟达的显卡点上面的链接,按网站的提示安装,不是nvidia的跳过,保证windows正常安装了显卡驱动即可:


  1. wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
  2. sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
  3. wget https://developer.download.nvidia.com/compute/cuda/12.0.0/local_installers/cuda-repo-wsl-ubuntu-12-0-local_12.0.0-1_amd64.deb
  4. sudo dpkg -i cuda-repo-wsl-ubuntu-12-0-local_12.0.0-1_amd64.deb
  5. sudo cp /var/cuda-repo-wsl-ubuntu-12-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
  6. sudo apt-get update
  7. sudo apt-get -y install cuda
复制代码
4.下载并编译项目

在ubuntu命令行执行:
  1. git clone https://github.com/ggerganov/llama.cpp
  2. cd llama.cpp
复制代码
项目提供的安装步调地址:llama.cpp/docs/build.md
如果是CUDA显卡的执行,不是请跳过:
  1. cmake -B build -DGGML_CUDA=ON
  2. cmake --build build --config Release
复制代码
如果是Intel显卡及AMD显卡的参看:llama.cpp/docs/backend/SYCL.md
如果以上都不符合:
  1. cmake -B build
  2. cmake --build build --config Release
复制代码
5.下载模子

huggingface 网站搜刮deepseek,找到 GUFF 格式结尾的模子, 是量化后模子


根据各自的呆板配置选择模子,呆板是否能运行可以参看这篇性能测试:DeepSeek 8B,14B,32B,70B在ubuntu,mac上的性能测试效果
6.运行模子

下载成功后可以恣意放置位置,我自己放在 llama.cpp/models
  1. ./build/bin/llama-server -m model/DeepSeek-R1-Distill-xxxxxxx.gguf
  2. 如果有显卡加速可以增加-ngl 增加数字,设置显卡加速的数据层数,例如:
  3. ./build/bin/llama-server -m model/DeepSeek-R1-Distill-xxxxxxx.gguf -ngl 30
复制代码
ngl后的可以写的数字在执行过程中可以看到30/49, 自己检察显卡的占用情况调解数字

开始体验DeepSeek:
欣赏器输入:http://127.0.0.1:8080 ,看到这个界面代表成功:

备注:
如果想让别的呆板访问需要在启动时增加--host,如果不增加参数只能是本机利用。如果增加后照旧无法访问,需要检察WSL的相关防火墙配置
  1. ./build/bin/llama-server -m model/DeepSeek-R1-Distill-xxxxxxx.gguf --host 0.0.0.0
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

梦见你的名字

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表