IT评测·应用市场-qidao123.com

标题: 清华开源KTransformers-让24GB显卡流畅运行满血DeepSeek-R1 [打印本页]

作者: 钜形不锈钢水箱    时间: 2025-2-24 06:03
标题: 清华开源KTransformers-让24GB显卡流畅运行满血DeepSeek-R1

在AI技能飞速发展的本日,大语言模子(LLM)的应用越来越广泛。然而,本地运行这些模子,尤其是像DeepSeek-R1如许的大模子,每每需要高性能的硬件支持,这让许多开辟者和研究人员望而却步。
本日,为各人保举一款由清华大学 MADSys 和 Approaching.AI 专为优化大模子本地推理体验而设计的开源框架--KTransformers。它支持在单卡24GB VRAM的GPU上运行满血版的DeepSeek-R1,较llama.cpp而言,预填充阶段性能提拔高达27.79倍!其重要的优化策略有:
这篇文章将带您深入了解KTransformers的强大功能,以及怎样轻松上手。
KTransformers是什么?

KTransformers是一个基于Python的开源框架,专注于优化大模子的本地推理体验。它通过先进的内核优化和机动的硬件配置策略,让开辟者能够在有限的资源下实现高效的模子推理,并提供了与 Transformers 兼容的接口、符合 OpenAI 和 Ollama 尺度的 RESTful API。


无论是单GPU、多GPU,还是CPU/GPU混合推理,KTransformers都能提供卓越的性能体现。别的,它还支持多种量化方法(如Q2K、Q3K、Q5K等),能够在不显著影响模子精度的环境下,大幅低落内存占用。
KTransformers核心功能

怎样使用KTransformers?

使用KTransformers非常简单,以下是基本步调:
性能对比:KTransformers vs llama.cpp

  指标
  llama.cpp(双节点,64核)
  KTransformers(双节点,64核)
  提拔倍数
  Prefill Speed
  10.31 tokens/s
  286.55 tokens/s
  27.79×
  Decode Speed
  4.51 tokens/s
  13.69 tokens/s
  3.03×
  从上表可以看出,KTransformers在性能上远超llama.cpp,尤其是在Prefill阶段,速度提拔了27.79倍!
KTransformers的实用场景

KTransformers的源代码:https://github.com/kvcache-ai/ktransformers

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4