卖不甜枣 发表于 2025-2-18 20:48:23

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速率是cpu的近8倍.
测试情况: ubuntu22.04 x86+llama.cpp
cpu intel 10750h 4.41 tokens / s
model
size
params
backend
threads
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
pp512
15.70 ± 0.40
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
tg128
4.41 ± 0.03
 使用-t 12扩展到12线程,速率也没有明显变化.

gpu nvidia 1660, 天生速率36 tokens / s.
model
size
params
backend
ngl
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
pp512
164.55 ± 0.03
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
tg128
36.38 ± 0.02


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比