Multi-Head Latent Attention: Boosting Inference Efficiency

打印 上一主题 下一主题

主题 953|帖子 953|积分 2859

Introduction



  • 作者提出 Multi-head Latent Attention (MLA),通过将 KV 压缩为 Compressed Latent KV,在减小 KV cache 的同时保持模型精度

Method

Low-Rank Key-Value Joint Compression

  Decoupled Rotary Position Embedding

  References



  • DeepSeek-AI, et al. “DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.” arXiv preprint arXiv:2405.04434 (2024).
  • 苏剑林. (May. 13, 2024). 《缓存与结果的极限拉扯:从MHA、MQA、GQA到MLA 》[Blog post]. Retrieved from https://kexue.fm/archives/10091

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

八卦阵

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表