【大模型】Ubuntu下安装ollama,DeepSseek-R1:32b的当地部署和运行 ...

打印 上一主题 下一主题

主题 844|帖子 844|积分 2532

1 ollama 的安装与设置

  ollama官网链接:https://ollama.com/
  

  • 在左上角的【Models】中展示了ollama支持的模型
  • 在正中间的【Download】中课可以下载支持平台中的安装包。


  其安装和模型路径设置操作流程如下:
  

  • ollama的安装
    这里选择命令安装
    1. curl -fsSL https://ollama.com/install.sh | sh
    复制代码
    精确安装后,检察安装的ollama版本
    1. ollama --version
    复制代码
  • 启动ollama服务
    1. ollama serve
    复制代码
    若报端口被占用,则检察端口的利用情况
    1. sudo lsof -i :11434
    复制代码
  • 下载模型默认路径的修改(可选,推荐)
    正常来说,就可以下载和运行模型了。但大模型一般来说比较大,最好将模型下载默认路径设置在挂载的数据盘上。默认情况下,ollama模型的存储目次为 /usr/share/ollama/.ollama/models。
    修改默认路径的操作如下:


    • 创建路径并修改权限
      1. # 这里设置路径为 /opt/ai-platform/lldataset/ollama/
      2. sudo mkdir /opt/ai-platform/lldataset/ollama/
      3. sudo chmod -R 777 /opt/ai-platform/lldataset/ollama/
      复制代码
    • 制止服务并修改设置文件
      1. sudo systemctl stop ollama
      2. sudo nano /etc/systemd/system/ollama.service
      复制代码
      打开文件后,添加内容
      1. Environment="OLLAMA_MODELS=/opt/ai-platform/lldataset/ollama/"
      2. Environment="OLLAMA_HOST=0.0.0.0:11434"
      3. # 按下 Ctrl + O 保存文件。
      4. # 按下 Enter 确认保存。
      5. # 按下 Ctrl + X 退出编辑器。
      复制代码
    • 启动ollama并检察其状态
      1. sudo systemctl daemon-reload
      2. sudo systemctl restart ollama.service
      3. sudo systemctl status ollama.service
      复制代码
      若精确启动则如下图


    2 ollama运行大模型

  ollama下载和运行大模型跟简单,即ollama run <模型名称>。若未下载,则先下载再运行;若已下载,则试接运行。
现实利用中,必要根据自己设备资源支持,去下载某个大模型的某个版本。以deepseek-r1为例,详细操作为:

  

  • 搜刮栏中搜刮【deepseek-r1】

  • 根据自己服务器的显存大小,选择合适的模型版本。复制命令
    1. ollama run deepseek-r1:32b
    复制代码

    拉取成功后即可进行问答。从deepseek答复的think中,能看出它是个讨好型的大模型…


    3 交互界面 ChatBox

  服务器上部署好了deepseek,然后在同局域网下的本机,可安装windows版本的chatbox,进行界面中的问答。chatbox的下载链接 https://chatboxai.app/zh。下载windows平台下的应用,双击安装。
  

  • 左下角的【设置】
  • 【模型提供方】选择【OLLAMA API】。
  • 【模型】中会出现服务器中ollama已经拉取的模型列表。选择想要利用的模型。
  • 点击【保存】
  • 点击左下角的【新对话】,然后就可以进行大模型问答


    4 DeepSeek-R1-Distill-Qwen-32B的简单先容

  【DeepSeek R1】
  

  • 是一款拥有 6710 亿参数的大型混合专家(MoE)模型。通过强化学习(RL)和监督微调(SFT)相结合的方式训练,DeepSeek R1 的推理本领得到了显著提升。

  【DeepSeek-R1-Distill-Qwen-32B】
通过将 DeepSeek R1 的推理模式蒸馏到更小的模型中,实现了更高效的性能。 在该模型中
  

  • DeepSeek 和 Qwen 的关系是基于知识蒸馏的师生关系:

    • DeepSeek-R1 是教师模型:它是一个经过大规模强化学习训练的强盛推理模型,具有复杂的结构和巨大的参数量。DeepSeek-R1 在数学、编程、逻辑推理等任务上体现出色,能够天生高质量的预测效果。
    • Qwen-32B 是学生模型:它是一个参数量较小的模型,通过学习 DeepSeek-R1 的输出来提升自己的推理本领。在蒸馏过程中,DeepSeek-R1 天生的推理轨迹和预测效果被用作“教学材料”,Qwen-32B 通过模拟这些输出来学习。

  • 蒸馏过程

    • 数据天生:DeepSeek-R1 天生了 800K 条高质量的推理数据,这些数据包括数学、编程、逻辑推理等任务。这些数据被用作蒸馏过程中的“教学材料”。
    • 训练过程:Qwen-32B 作为学生模型,输入这些数据并实验天生与 DeepSeek-R1 相似的推理轨迹和预测效果。通过监督微调(SFT),Qwen-32B 的参数不断优化,使其输出逐渐逼近 DeepSeek-R1。
    • 性能提升:经过蒸馏的 Qwen-32B 在多个基准测试中体现出色,比方在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%。这些效果显著优于直接在 Qwen-32B 上进行强化学习的效果。


  通过这种知识蒸馏的方式,DeepSeek-R1 的推理本领被高效地迁移到了 Qwen-32B 中,使得 Qwen-32B 在推理任务上能够达到与 DeepSeek-R1 相称的性能。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

忿忿的泥巴坨

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表