使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

打印 上一主题 下一主题

主题 903|帖子 903|积分 2709

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速率是cpu的近8倍.
测试情况: ubuntu22.04 x86+llama.cpp
cpu intel 10750h 4.41 tokens / s
model
size
params
backend
threads
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
pp512
15.70 ± 0.40
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
tg128
4.41 ± 0.03
 使用-t 12扩展到12线程,速率也没有明显变化.

gpu nvidia 1660, 天生速率36 tokens / s.
model
size
params
backend
ngl
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
pp512
164.55 ± 0.03
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
tg128
36.38 ± 0.02


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

卖不甜枣

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表