【vLLM 教程】使用 TPU 安装

打印 上一主题 下一主题

主题 999|帖子 999|积分 2999

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
vLLM 是一款专为大语言模型推理加速而计划的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈题目。
更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/
vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。
依靠环境​



  • Google Cloud TPU VM(单主机和多主机)
  • TPU 版本: v5e、v5p、v4
  • Python: 3.10
安装选项:

  • href=“https://vllm.hyper.ai/docs/getting-started/installation-with-tpu#%E4%BD%BF%E7%94%A8-dockerfiletpu-%E6%9E%84%E5%BB%BA-docker-%E9%95%9C%E5%83%8F”>使用Dockerfile.tpu构建 Docker 镜像
  • 从源代码构建
使用Dockerfile.tpu 构建 Docker 镜像​

Dockerfile.tpu 用于构建具有 TPU 支持的 docker 镜像。
  1. docker build -f Dockerfile.tpu -t vllm-tpu .
复制代码
您可以使用以下命令运行 docker 镜像:
  1. # Make sure to add `--privileged --net host --shm-size=16G`.
  2. # 确保添加 `--privileged --net host --shm-size=16G`。
  3. docker run --privileged --net host --shm-size=16G -it vllm-tpu
复制代码
从源代码构建​

您还可以从源代码构建并安装 TPU 后端。
起首,安装依靠:
  1. # (Recommended) Create a new conda environment.
  2. #(推荐)创建一个新的 conda 环境。
  3. conda create -n myenv python=3.10 -y
  4. conda activate myenv
  5. # Clean up the existing torch and torch-xla packages.
  6. # 清理现有的 torch 和 torch-xla 包。
  7. pip uninstall torch torch-xla -y
  8. # Install PyTorch and PyTorch XLA.
  9. # 安装 PyTorch 和 PyTorch XLA。
  10. export DATE="20240828"
  11. export TORCH_VERSION="2.5.0"
  12. pip install https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch-${TORCH_VERSION}.dev${DATE}-cp310-cp310-linux_x86_64.whl
  13. pip install https://storage.googleapis.com/pytorch-xla-releases/wheels/tpuvm/torch_xla-${TORCH_VERSION}.dev${DATE}-cp310-cp310-linux_x86_64.whl
  14. # Install JAX and Pallas.
  15. # 安装 JAX 和 Pallas。
  16. pip install torch_xla[tpu] -f https://storage.googleapis.com/libtpu-releases/index.html
  17. pip install torch_xla[pallas] -f https://storage.googleapis.com/jax-releases/jax_nightly_releases.html -f https://storage.googleapis.com/jax-releases/jaxlib_nightly_releases.html
  18. # Install other build dependencies.
  19. # 安装其他构建依赖项。
  20. pip install -r requirements-tpu.txt
复制代码
下一步,从源代码构建 vLLM。这只需要几秒钟:
  1. VLLM_TARGET_DEVICE="tpu" python setup.py develop
复制代码
注意
由于 TPU 依靠于需要静态形状的 XLA,因此 vLLM 会将可能的输入形状举行分桶处理,并为每个差别的形状编译 XLA 图。第一次运行的编译时间可能需要 20~30 分钟。不过由于 XLA 图会缓存在磁盘中(默认在VLLM_XLA_CACHE_PATH 或 ~/.cache/vllm/xla_cache 中),之后的编译时间会淘汰到大约 5 分钟。
提示
如果您遇到以下错误:
  1. from torch._C import *  # noqa: F403
  2. ImportError: libopenblas.so.0: cannot open shared object file: No such file or directory
复制代码
请使用以下命令安装 OpenBLAS:
  1. sudo apt-get install libopenblas-base libopenmpi-dev libomp-dev
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南七星之家

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表