DeepSeek 当地摆设指南(基于 vLLM)

[复制链接]
发表于 昨天 07:07 | 显示全部楼层 |阅读模式
本指南将详细先容怎样利用 vLLM 在当地摆设 DeepSeek 语言模子。我们将以 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模子为例,渐渐引导你完成情况设置、模子下载、vLLM 安装及推理服务的启动与调用。

近来春招和练习已开启了。
差异以往的是,当前职场情况已不再是谁人双向奔赴期间了。求职者在变多,HC 在变少,岗位要求还更高了。
近来,我们又一连整理了许多大厂的口试题,资助一些球友解惑答疑,分享技能口试中的那些弯弯绕绕。


  • 《大模子口试宝典》(2025版) 正式发布
喜欢本文记得收藏、关注、点赞

技能互换


1. 安装 Python 情况

在开始之前,你必要确保已安装 Python 情况。



  • 访问 Python 官网:https://www.python.org/
  • 选择安装包:根据你的利用体系(Windows、macOS 或 Linux)下载并安装 Python。
  • 保举版本:发起安装 Python 3.8 或更高版本
  • 验证安装:安装完成后,打开终端(macOS/Linux)或下令提示符(Windows),输入以下下令以查抄 Python 和 pip 是否安装乐成:
  1.   python --version
  2.   pip --version
复制代码
假如精确体现版本号,则分析 Python 情况已设置完成。
2. 下载 DeepSeek 模子

接下来,我们必要下载 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模子。



  • 模子地点:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
  • 安装 ModelScope:ModelScope 是一个模子中心,用于下载和管理模子。运行以下下令安装 ModelScope:
  1.   pip install modelscope
复制代码


  • 下载模子:利用以下下令下载模子并生存到当地:
  1.   modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /path/to/save/model
复制代码
将 /path/to/save/model 更换为你渴望生存模子的当地路径。


  • 磁盘空间:确保磁盘空间富足,该模子至少必要 15GB 的存储空间。
  • 关于 ModelScope:ModelScope 是一个开源社区,提供多种预训练模子。固然某些模子大概必要注册账号,但 DeepSeek-R1-Distill-Qwen-7B 是公开的,可直接下载。

3. 安装 vLLM

vLLM 是一个高效的大型语言模子推理库,支持快速摆设。



  • vLLM 简介:vLLM GitHub[1]
  • 官方文档:vLLM 文档[2]
保举利用假造情况:为克制包辩论,发起在假造情况中安装 vLLM。


  • 创建假造情况
  1. python -m venv venv
复制代码


  • 激活假造情况
  1. # macOS/Linux:
  2. source venv/bin/activate
  3. # Windows:
  4. venv\Scripts\activate
复制代码


  • 安装 vLLM
  1.   pip install vllm
复制代码
4. 启动 vLLM 推理服务

模子下载完成后,可以利用 vLLM 启动推理服务。
启动下令
  1. CUDA_VISIBLE_DEVICES=0 vllm serve /path/to/save/model --port 8102 --max-model-len 16384
复制代码
参数分析:


  • CUDA_VISIBLE_DEVICES=0:指定利用的 GPU 装备 ID(0 体现第一块 GPU)。
  • /path/to/save/model:更换为模子的实际生存路径。
  • --port 8102:服务监听的端标语(可自界说)。
  • --max-model-len 16384:模子的最大上下文长度(可根据 GPU 显存调解)。
查抄服务状态:启动后,终端会体现类似 INFO: Started server process 的信息。你也可以通过访问 http://localhost:8102/docs 查察 API 文档,验证服务是否正常运行。
GPU 显存:确保 GPU 显存富足。假如显存不敷,可实验减小 --max-model-len 的值。
5. 调用 vLLM 推理服务

服务启动后,可以通过代码调用 vLLM 提供的 API 举行推理。
Python 示例代码
  1. from openai import OpenAI
  2. # 配置 OpenAI API 密钥和 Base URL 以连接 vLLM 服务
  3. openai_api_key = "EMPTY"# vLLM 服务不需要 API 密钥,可以使用任意字符串
  4. openai_api_base = "http://localhost:8102/v1"  # 确保端口号与启动服务时一致
  5. client = OpenAI(
  6.     api_key=openai_api_key,
  7.     base_url=openai_api_base,
  8. )
  9. prompt = "你好,介绍一下你自己吧"  # 输入问题
  10. response = client.completions.create(
  11.     model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",  # 模型名称
  12.     prompt=prompt,
  13.     stream=False,  # 是否使用流式输出
  14. )
  15. print(response.choices[0].text)  # 输出模型回答
复制代码
运行代码:将代码生存为 inference_example.py,然后在假造情况中运行:
  1. python inference_example.py
复制代码
留意事项


  • 确保 openai_api_base 中的端标语与 vLLM 服务端口划一。
  • 假如碰到错误,请查抄服务状态、模子名称及网络毗连。
  • vLLM 服务是否已乐成启动并正在运行。
  • openai_api_base 中的端标语是否与 vLLM 服务端标语划一。
  • model 参数指定的模子名称是否精确。
  • 网络毗连是否正常。
  • 查察 vLLM 服务端的日志日志输出,大概会有更详细的错误信息。
总结

通过以上步调,你已乐成在当地摆设了 DeepSeek 模子,并可以或许通过 vLLM 举行推理。假如在摆设过程中碰到题目,请参考 vLLM 官方文档或在干系社区寻求资助。祝你利用愉快!
参考资料

[1]
vLLM GitHub: https://github.com/vllm-project/vllm
[2]
vLLM 文档: https://docs.vllm.ai/en/latest/

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

×
登录参与点评抽奖,加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表