LLM加速方法,Adapter Tuning和Prompt Tuning的区别及原理举例 ...

锦通  论坛元老 | 2025-1-10 12:57:14 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1026|帖子 1026|积分 3078

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
LLM加速方法


  
整体结构

基于模子微调、基于模子压缩、基于分布式并行处理。
各分支内容



  • 基于模子微调
         
    • 包罗Adapter Tuning、Prompt Tuning、LoRA三个子类别。这些技术主要通过对模子进行微调来优化传输,   
    • 比方Adapter Tuning是在模子中添加一些小的适配模块,   
    • Prompt Tuning是通过调整提示信息来优化模子,   
    • LoRA则是一种低秩适配方法,以淘汰模子训练和传输的参数目。  
      
  • 基于模子压缩
         
    • 又细分为剪枝、知识蒸馏、量化、低秩分解。剪枝是指去除模子中一些不重要的毗连或参数,以减小模子规模;   
    • 知识蒸馏是让一个小模子去学习大模子的知识,从而在保持性能的同时降低模子复杂度;   
    • 量化是将模子的参数用更低精度的数据表现,淘汰数据量;   
    • 低秩分解则是将模子的参数矩阵进行分解,降低盘算和存储成本。  
      
  • 基于分布式并行处理: <

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

锦通

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表