锦通 发表于 2025-1-10 12:57:14

LLM加速方法,Adapter Tuning和Prompt Tuning的区别及原理举例

LLM加速方法



整体结构

基于模子微调、基于模子压缩、基于分布式并行处理。
各分支内容



[*]基于模子微调:
   
[*]包罗Adapter Tuning、Prompt Tuning、LoRA三个子类别。这些技术主要通过对模子进行微调来优化传输,   
[*]比方Adapter Tuning是在模子中添加一些小的适配模块,   
[*]Prompt Tuning是通过调整提示信息来优化模子,   
[*]LoRA则是一种低秩适配方法,以淘汰模子训练和传输的参数目。

[*]基于模子压缩:
   
[*]又细分为剪枝、知识蒸馏、量化、低秩分解。剪枝是指去除模子中一些不重要的毗连或参数,以减小模子规模;   
[*]知识蒸馏是让一个小模子去学习大模子的知识,从而在保持性能的同时降低模子复杂度;   
[*]量化是将模子的参数用更低精度的数据表现,淘汰数据量;   
[*]低秩分解则是将模子的参数矩阵进行分解,降低盘算和存储成本。

[*]基于分布式并行处理: <

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: LLM加速方法,Adapter Tuning和Prompt Tuning的区别及原理举例