使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

卖不甜枣 · 2025-2-18 20:48:23

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速率是cpu的近8倍.
测试情况: ubuntu22.04 x86+llama.cpp
cpu intel 10750h 4.41 tokens / s

使用-t 12扩展到12线程，速率也没有明显变化.

gpu nvidia 1660, 天生速率36 tokens / s.

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

0 个回复