昇腾服务器部署embedding和rerank模子
1、确定安装情况
情况型号CANN版本训练情况Atlas800T A2服务器CANN8.0.RC2及以上推理情况Atlas800I A2服务器CANN8.0.RC2及以上推理情况Atlas300IDUO推理卡CANN8.0.RC2及以上 2、获取下载包
资源包
可以使用wget命令下载:wget https://tools.obs.cn-south-292.ca-aicc.com:443/samples/llm/embed_rerank.tar.gz --no-check-certificate
3、底子情况配置
- apt update && apt install curl build-essential autoconf libtool curl make g++ unzip wget libssl-dev pkg-config -y
复制代码 4、创建一个conda情况
- conda create -n Embedding --clone MindIE_1.0.RC2
- conda activate Embedding
复制代码 5、安装rust和protoc
- curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
复制代码 出现下所示,选择1即可。
- 1) Proceed with standard installation (default - just press enter)
- 2) Customize installation
- 3) Cancel installation
复制代码
- 安装protobuf v21.12
软件包提供了protobuf的源代码。直接解压配置和编译
- tar -zxvf protobuf-all-21.12.tar.gz
- cd protobuf-21.12
- ./configure
- make -j20
- make install
复制代码 在命令行实行如下命令:
export LD_LIBRARY_PATH=/usr/local/lib LIB_LIBRARY_PATH
6、安装应用依赖
在主目录:
- pip install -r requirements.txt
复制代码
- 安装Route
- 进入$work_dir/TEI/text-embeddings-inference实行如下命令:
- ../../cargo/bin/cargo install --path router -F python -F http --no-default-features
复制代码
安装成功后如图:
- 进入$work_dir/TEI/text-embeddings-inference/backends/python/server
- make install
- pip install transformers==4.37.0
- pip install safetensors==0.3.3
- poetry install
复制代码 安装后截图:
7、运行模子和测试
- curl 127.0.0.1:11027/embed \
- -X POST \
- -d '{"inputs":"What is Deep Learning?"}' \
- -H 'Content-Type: application/json'
复制代码 推理结果
- 测试
- curl 127.0.0.1:11028/rerank \
- -X POST \
- -d '{"query":"What is Deep Learning?", "texts": ["Deep Learning is not...", "Deep learning is..."]}' \
- -H 'Content-Type: application/json'
复制代码 推理结果
结论:
embedded 大概在20ms左右、rerank在30ms左右。速度可用~
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |