【LLM】DeepSeek-R1-Distill-Qwen-7B摆设和open webui

灌篮少年  论坛元老 | 2025-2-12 10:29:54 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1637|帖子 1637|积分 4911

note



  • DeepSeek-R1-Distill-Qwen-7B 的测试结果很惊艳,CoT 过程可圈可点,25 年应该值得探索更多端侧的硬件时机。
  • DeepSeek-R1系列模子在回答某些题目时,大概会跳过完整思考的过程(比方直接输出“<think>\n\n</think>”)。为了确保模子能进行充实的推理,建议在每次回答开始时,强制要求模子以“<think>\n”开头。

  
一、下载 Ollama

访问 Ollama 的官方网站 https://ollama.com/library/deepseek-r1, 根据体系提示下载适合自己电脑的版本。

二、下载 Docker

直接点击官方 https://www.docker.com/, 下载适合自己电脑的版本。
三、下载模子

以 Distill-Qwen-7B 为例,在电脑终端中输入:ollama run deepseek-r1:7b,7b 的模子大概 4.7G 大小,等候模子下载完成之后即可在终端中输入题目进行测试。下一步会演示怎样在 open webui 中使用。
四、摆设 open webui

在终端中运行下述命令后,可以自动在 docker 中完成摆设,然后在本地欣赏器中使用
docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -e OLLAMA_BASE_URL=http://host.docker.internal:11434 ( http://host.docker.internal:11434 ) --name open-webui ghcr.io/open-webui/open-webui:main
Open-WebUI 提供了丰富的功能和界面,如直观的聊天界面、Markdown 和 LaTeX 支持、网页欣赏能力、提示预设支持等,极大地提升了用户体验。通过 RLHF 解释功能,用户可以对消息进行评级,以创建强化学习数据集,用于训练或微调模子。
五、相关推理细节



  • 温度设置
    建议将温度参数设在0.5到0.7之间,最好用0.6。可以制止模子输出重复或无逻辑的回答。
  • 提示信息规范
    请不要额外添加体系级的提示,全部说明内容都应直接写在用户的提问中。
  • 数学题目处理
    如果是解决数学题目,建议在题目描述中加入雷同下面的指令:“请分步骤推理,并将终极答案放在\boxed{}中。”有助于模子更好地给出具体的解答过程。
  • 模子性能评估
    测试模子时,最好进行多次测试,并对结果取均匀值,得到更正确的评测。
  • 充实推理
    DeepSeek-R1系列模子在回答某些题目时,大概会跳过完整思考的过程(比方直接输出“<think>\n\n</think>”)。为了确保模子能进行充实的推理,建议在每次回答开始时,强制要求模子以“<think>\n”开头。
六、用vllm摆设

  1. pip install vllm
  2. vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
复制代码
然后就能用python调用模子:
  1. from openai import OpenAI
  2. # Set OpenAI's API key and API base to use vLLM's API server.
  3. openai_api_key = "EMPTY"
  4. openai_api_base = "http://localhost:8000/v1"
  5. client = OpenAI(
  6.     api_key=openai_api_key,
  7.     base_url=openai_api_base,
  8. )
  9. chat_response = client.chat.completions.create(
  10.     model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
  11.     messages=[
  12.         {"role": "system", "content": "You are DeepSeek-R1, created by"},
  13.         {"role": "user", "content": "介绍一下PPO与GRPO算法之间的区别"},
  14.     ],
  15.     temperature=0.7,
  16.     top_p=0.8,
  17.     max_tokens=512,
  18.     extra_body={
  19.         "repetition_penalty": 1.05,
  20.     },
  21. )
  22. print("Chat response:", chat_response)
复制代码
Reference

[1] DeepSeek-R1本地化摆设的两种方案

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

灌篮少年

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表