昇腾服务器(Atlas800系列)部署embedding和rerank模子

打印 上一主题 下一主题

主题 1013|帖子 1013|积分 3039

昇腾服务器部署embedding和rerank模子

1、确定安装情况

情况型号CANN版本训练情况Atlas800T A2服务器CANN8.0.RC2及以上推理情况Atlas800I A2服务器CANN8.0.RC2及以上推理情况Atlas300IDUO推理卡CANN8.0.RC2及以上 2、获取下载包

资源包
可以使用wget命令下载:wget https://tools.obs.cn-south-292.ca-aicc.com:443/samples/llm/embed_rerank.tar.gz --no-check-certificate
3、底子情况配置

  1. apt update && apt install curl build-essential autoconf libtool curl make g++ unzip wget libssl-dev pkg-config -y
复制代码
4、创建一个conda情况

  1. conda create -n Embedding --clone MindIE_1.0.RC2
  2. conda activate Embedding
复制代码
5、安装rust和protoc



  • 安装rust
  1. curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
复制代码
出现下所示,选择1即可。
  1. 1) Proceed with standard installation (default - just press enter)
  2. 2) Customize installation
  3. 3) Cancel installation
复制代码



  • 安装protobuf v21.12
    软件包提供了protobuf的源代码。直接解压配置和编译
  1. tar -zxvf protobuf-all-21.12.tar.gz
  2. cd protobuf-21.12
  3. ./configure
  4. make -j20
  5. make install
复制代码
在命令行实行如下命令:
export LD_LIBRARY_PATH=/usr/local/libLIB_LIBRARY_PATH
6、安装应用依赖

在主目录:
  1. pip install -r requirements.txt
复制代码


  • 安装Route

    • 进入$work_dir/TEI/text-embeddings-inference实行如下命令:
    1. ../../cargo/bin/cargo install --path router -F python -F http --no-default-features
    复制代码

安装成功后如图:



  • 进入$work_dir/TEI/text-embeddings-inference/backends/python/server

    • 实行安装依赖和编译安装

  1. make install
  2. pip install transformers==4.37.0
  3. pip install safetensors==0.3.3
  4. poetry install
复制代码
安装后截图:

7、运行模子和测试



  • embedding

    • 回到主目录下实行如下脚本:

  1. start_im_embed.sh
复制代码



  • 测试:
  1. curl 127.0.0.1:11027/embed \
  2.     -X POST \
  3.     -d '{"inputs":"What is Deep Learning?"}' \
  4.     -H 'Content-Type: application/json'
复制代码
推理结果



  • rerank

    • 运行
      回到主目录下实行如下脚本:

  1. start_im_rerank.sh
复制代码


  • 测试
    1. curl 127.0.0.1:11028/rerank \
    2.     -X POST \
    3.     -d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
    4.     -H 'Content-Type: application/json'
    复制代码
推理结果

结论:
embedded 大概在20ms左右、rerank在30ms左右。速度可用~

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

滴水恩情

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表