Xinference安装及摆设大模子

打印 上一主题 下一主题

主题 537|帖子 537|积分 1611

1. Xinference 先容

Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模子的运行和集成。借助 Xinference,您可以利用任何开源 LLM、嵌入模子和多模态模子在云端或当地环境中运行推理,并创建强大的 AI 应用,简单的讲就是摆设大模子的应用,至于场景嘛,就是当我们本身利用当地模子的时候,切换起来方便。
2. 环境阐明

**系统:**Ubuntu 22.04.4 LTS
**python版本:**Python 3.10.14
本文利用conda假造python环境
  1. # 创建一个环境
  2. conda create -n Xinference python=3.10.14
  3. # 激活环境
  4. conda activate Xinference
复制代码
3. 安装Xinference环境

1> 设置清华源
目的是为了快一点,如果你要是能直接练到邪术网络,那也可以不用设置!
ps:本文都加了-i https:xxx的参数,目的很明确,就是怕网络不通,设置好的请忽略。
  1. # 配置
  2. python -m pip install --upgrade pip
  3. pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
  4. # 单次使用清华源进行升级
  5. python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
复制代码
2> 安装大模子需要利用到的全部依赖
  1. # 直接执行
  2. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "xinference[all]"
复制代码
**3> 测试一下能不能用PyTorch **
  1. python -c "import torch; print(torch.cuda.is_available())"
复制代码
要是出现什么module没有了的问题,没有谁人你就下载谁人,因为新激活的环境touch肯定没有,以是需要下载
  1. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch
复制代码
4> 可能会遇到在安装"xinference[all]"的时候出现什么Llama.cpp的包下载不下来的问题
这里你就别在折腾了,直接到官网下载whl文件,然后通过当地安装的方式就可以!
**Llama.cpp地点:**https://github.com/abetlen/llama-cpp-python/releases
版本呢,有很多,看报错信息需要谁人版本
cp310是python版本3.10别搞错了,本文安装的是这个:llama_cpp_python-0.2.88-cp310-cp310-linux_x86_64.whl
  1. # 假设llama_cpp_python-0.2.88-cp310-cp310-linux_x86_64.whl在当前目录下
  2. pip install llama_cpp_python-0.2.88-cp310-cp310-linux_x86_64.whl
复制代码
4. 启动

在以上操纵精确的安装完成后,就可以执行当地启动了
  1. # 前台
  2. xinference-local --host 0.0.0.0 --port 9997
  3. # 后台
  4. nohup xinference-local --host 0.0.0.0 --port 9997 & > output.log
复制代码
5.Xinference安装完毕,打开前台

找个欣赏器,然后输入你摆设的服务器的ip地点加端口

6.大模子下载

大模子摆设需要你先下载个模子,本文摆设的是glm-4-9b-chat
**魔塔社区地点:**https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat


  • 安装modelscope模块
  1. pip install modelscope
复制代码


  • 写一个install.py文件
  1. vim install.py
  2. #模型下载
  3. from modelscope import snapshot_download
  4. model_dir = snapshot_download('zhipuai/glm-4-9b-chat',local_dir='/opt/chatglm-9b')
复制代码


  • 给权限然后下载,然后等待下载完成即可
  1. chmod +x install.py
  2. python install.py
复制代码
7.打开Xinference,然后进行摆设

1> 按照操纵次序点一下

2> 然后有一些参数需要设置
**Model Engine:**摆设方式
Model Formate: 摆设格式
**Model Size:**模子的参数目大小,这里只有9b
**Quantization:**量化精度
**N-GPU:**选择利用第几个 GPU


  • 点开Optional Configuations,还有一些参数
**Model UID:**模子的名字,后续可能会用到哦,以是不能乱改
**GPU IDX:**GPU的序号数,有几个GPU从0开始排序,比如两个GPU,那就是0,1,我有4个,以是就0,1,2,3
**DownloadHub:**以及提前下载好了模子,以是选择NONE
**ModelPath:**模子地点,就是我们刚才下载的地点!/opt/chatglm-9b

然后点击下面的小火箭!刺溜一下!ok,如果退出了当前页面,那就代表摆设好了!
8.看看占用率

  1. nvidia-smi
复制代码

9.彩蛋!

xinference提供了标准的OpenAI接口,可以在:http://127.0.0.1:9997/docs摆设的/docs下查看
利用langchain调用一下,这个模子。
安装包
  1. pip install langchain_openai
复制代码
然后编写程序
  1. from langchain_openai import ChatOpenAI
  2. #
  3. openai_api_base = 'http://127.0.0.1:9997/v1/'
  4. # 说明model的值是上面部署模型的时候Model UID的值!错了就会找不到哦!
  5. model = "glm-4-9b"
  6. temperature = 1
  7. openai_api_key = "EMPTY"
  8. llm = ChatOpenAI(openai_api_base=openai_api_base,
  9.                      model=model,
  10.                      temperature=temperature,
  11.                      openai_api_key=openai_api_base)
  12. res = llm.invoke("""请问你原不原?""")
  13. print(res.content)
  14. >>> 原神启动!!!!
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

惊落一身雪

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表