论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
物联网
›
物联网
›
【vLLM 教程】使用 TPU 安装
【vLLM 教程】使用 TPU 安装
南七星之家
金牌会员
|
2025-3-10 14:53:50
|
显示全部楼层
|
阅读模式
楼主
主题
999
|
帖子
999
|
积分
2999
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
vLLM 是一款专为大语言模型推理加速而计划的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈题目。
更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/
vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。
依靠环境
Google Cloud TPU VM(单主机和多主机)
TPU 版本: v5e、v5p、v4
Python: 3.10
安装选项:
href=“https://vllm.hyper.ai/docs/getting-started/installation-with-tpu#%E4%BD%BF%E7%94%A8-dockerfiletpu-%E6%9E%84%E5%BB%BA-docker-%E9%95%9C%E5%83%8F”>使用Dockerfile.tpu构建 Docker 镜像
从源代码构建
使用Dockerfile.tpu 构建 Docker 镜像
Dockerfile.tpu 用于构建具有 TPU 支持的 docker 镜像。
docker build -f Dockerfile.tpu -t vllm-tpu .
复制代码
您可以使用以下命令运行 docker 镜像:
# Make sure to add `--privileged --net host --shm-size=16G`.
# 确保添加 `--privileged --net host --shm-size=16G`。
docker run --privileged --net host --shm-size=16G -it vllm-tpu
复制代码
从源代码构建
您还可以从源代码构建并安装 TPU 后端。
起首,安装依靠:
# (Recommended) Create a new conda environment.
#(推荐)创建一个新的 conda 环境。
conda create -n myenv python=3.10 -y
conda activate myenv
# Clean up the existing torch and torch-xla packages.
# 清理现有的 torch 和 torch-xla 包。
pip uninstall torch torch-xla -y
# Install PyTorch and PyTorch XLA.
# 安装 PyTorch 和 PyTorch XLA。
export DATE="20240828"
export TORCH_VERSION="2.5.0"
pip install https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch-${TORCH_VERSION}.dev${DATE}-cp310-cp310-linux_x86_64.whl
pip install https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-${TORCH_VERSION}.dev${DATE}-cp310-cp310-linux_x86_64.whl
# Install JAX and Pallas.
# 安装 JAX 和 Pallas。
pip install torch_xla[tpu] -f https://storage.googleapis.com/libtpu-releases/index.html
pip install torch_xla[pallas] -f https://storage.googleapis.com/jax-releases/jax_nightly_releases.html -f https://storage.googleapis.com/jax-releases/jaxlib_nightly_releases.html
# Install other build dependencies.
# 安装其他构建依赖项。
pip install -r requirements-tpu.txt
复制代码
下一步,从源代码构建 vLLM。这只需要几秒钟:
VLLM_TARGET_DEVICE="tpu" python setup.py develop
复制代码
注意
由于 TPU 依靠于需要静态形状的 XLA,因此 vLLM 会将可能的输入形状举行分桶处理,并为每个差别的形状编译 XLA 图。第一次运行的编译时间可能需要 20~30 分钟。不过由于 XLA 图会缓存在磁盘中(默认在VLLM_XLA_CACHE_PATH 或 ~/.cache/vllm/xla_cache 中),之后的编译时间会淘汰到大约 5 分钟。
提示
如果您遇到以下错误:
from torch._C import * # noqa: F403
ImportError: libopenblas.so.0: cannot open shared object file: No such file or directory
复制代码
请使用以下命令安装 OpenBLAS:
sudo apt-get install libopenblas-base libopenmpi-dev libomp-dev
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
南七星之家
金牌会员
这个人很懒什么都没写!
楼主热帖
MySQL并行复制(MTS)原理(完整版) ...
详讲Java开发中的六个常用API(Math,S ...
【K8S】K8S入门基础知识
软件项目管理 3.5.敏捷生存期模型 ...
云原生之 Docker篇 Docker Stack介绍及 ...
java中Collections.addAll方法具有什么 ...
BOS EDI 项目 Excel 方案开源介绍 ...
鸿蒙到底是不是安卓?
python中的字典和集合
postman结合newman生成测试报告 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
开源技术
数据仓库与分析
云原生
分布式数据库
人工智能
linux
快速回复
返回顶部
返回列表