本指南将详细先容怎样利用 vLLM 在当地摆设 DeepSeek 语言模子。我们将以 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模子为例,渐渐引导你完成情况设置、模子下载、vLLM 安装及推理服务的启动与调用。
近来春招和练习已开启了。
差异以往的是,当前职场情况已不再是谁人双向奔赴期间了。求职者在变多,HC 在变少,岗位要求还更高了。
近来,我们又一连整理了许多大厂的口试题,资助一些球友解惑答疑,分享技能口试中的那些弯弯绕绕。
喜欢本文记得收藏、关注、点赞。
技能互换
1. 安装 Python 情况
在开始之前,你必要确保已安装 Python 情况。
- 访问 Python 官网:https://www.python.org/
- 选择安装包:根据你的利用体系(Windows、macOS 或 Linux)下载并安装 Python。
- 保举版本:发起安装 Python 3.8 或更高版本。
- 验证安装:安装完成后,打开终端(macOS/Linux)或下令提示符(Windows),输入以下下令以查抄 Python 和 pip 是否安装乐成:
- python --version
- pip --version
复制代码 假如精确体现版本号,则分析 Python 情况已设置完成。
2. 下载 DeepSeek 模子
接下来,我们必要下载 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模子。
- 模子地点:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- 安装 ModelScope:ModelScope 是一个模子中心,用于下载和管理模子。运行以下下令安装 ModelScope:
- modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /path/to/save/model
复制代码 将 /path/to/save/model 更换为你渴望生存模子的当地路径。
- 磁盘空间:确保磁盘空间富足,该模子至少必要 15GB 的存储空间。
- 关于 ModelScope:ModelScope 是一个开源社区,提供多种预训练模子。固然某些模子大概必要注册账号,但 DeepSeek-R1-Distill-Qwen-7B 是公开的,可直接下载。
3. 安装 vLLM
vLLM 是一个高效的大型语言模子推理库,支持快速摆设。
- vLLM 简介:vLLM GitHub[1]
- 官方文档:vLLM 文档[2]
保举利用假造情况:为克制包辩论,发起在假造情况中安装 vLLM。
- # macOS/Linux:
- source venv/bin/activate
- # Windows:
- venv\Scripts\activate
复制代码
4. 启动 vLLM 推理服务
模子下载完成后,可以利用 vLLM 启动推理服务。
启动下令:
- CUDA_VISIBLE_DEVICES=0 vllm serve /path/to/save/model --port 8102 --max-model-len 16384
复制代码 参数分析:
- CUDA_VISIBLE_DEVICES=0:指定利用的 GPU 装备 ID(0 体现第一块 GPU)。
- /path/to/save/model:更换为模子的实际生存路径。
- --port 8102:服务监听的端标语(可自界说)。
- --max-model-len 16384:模子的最大上下文长度(可根据 GPU 显存调解)。
查抄服务状态:启动后,终端会体现类似 INFO: Started server process 的信息。你也可以通过访问 http://localhost:8102/docs 查察 API 文档,验证服务是否正常运行。
GPU 显存:确保 GPU 显存富足。假如显存不敷,可实验减小 --max-model-len 的值。
5. 调用 vLLM 推理服务
服务启动后,可以通过代码调用 vLLM 提供的 API 举行推理。
Python 示例代码:
- from openai import OpenAI
- # 配置 OpenAI API 密钥和 Base URL 以连接 vLLM 服务
- openai_api_key = "EMPTY"# vLLM 服务不需要 API 密钥,可以使用任意字符串
- openai_api_base = "http://localhost:8102/v1" # 确保端口号与启动服务时一致
- client = OpenAI(
- api_key=openai_api_key,
- base_url=openai_api_base,
- )
- prompt = "你好,介绍一下你自己吧" # 输入问题
- response = client.completions.create(
- model="deepseek-ai/DeepSeek-R1-Distill-Qwen-7B", # 模型名称
- prompt=prompt,
- stream=False, # 是否使用流式输出
- )
- print(response.choices[0].text) # 输出模型回答
复制代码 运行代码:将代码生存为 inference_example.py,然后在假造情况中运行:
- python inference_example.py
复制代码 留意事项:
- 确保 openai_api_base 中的端标语与 vLLM 服务端口划一。
- 假如碰到错误,请查抄服务状态、模子名称及网络毗连。
- vLLM 服务是否已乐成启动并正在运行。
- openai_api_base 中的端标语是否与 vLLM 服务端标语划一。
- model 参数指定的模子名称是否精确。
- 网络毗连是否正常。
- 查察 vLLM 服务端的日志
输出,大概会有更详细的错误信息。
总结
通过以上步调,你已乐成在当地摆设了 DeepSeek 模子,并可以或许通过 vLLM 举行推理。假如在摆设过程中碰到题目,请参考 vLLM 官方文档或在干系社区寻求资助。祝你利用愉快!
参考资料
[1]
vLLM GitHub: https://github.com/vllm-project/vllm
[2]
vLLM 文档: https://docs.vllm.ai/en/latest/
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
|