开源模子应用落地-qwen-7b-chat与vllm实现推理加快的正确姿势(一)

[复制链接]
发表于 2024-9-18 01:42:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
一、前言

    基于真实生产级项目分享,资助有须要的同学快速构建完整可交付项目
     项目流程包括(去掉业务部分):

  •   开源模子测试,包括baichuan、qwen、chatglm、bloom
  •   数据爬取及洗濯
  •   模子微调及评估
  •   搭建AI交互能力
  •   搭建IM交互能力
  •   搭建违禁词辨认能力
  •   优化模子推理速率
  •   加强模子恒久影象能力
二、术语介绍

    2.1. vLLM

     vLLM是一个开源的大模子推理加快框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
    2.2. qwen-7b

    通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模子系列的70亿参数规模的模子。
    2.3.Anaconda

     Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对情况可以统一管理的发行

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表