使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比
使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速率是cpu的近8倍.测试情况: ubuntu22.04 x86+llama.cpp
cpu intel 10750h 4.41 tokens / s
model
size
params
backend
threads
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
pp512
15.70 ± 0.40
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
tg128
4.41 ± 0.03
使用-t 12扩展到12线程,速率也没有明显变化.
gpu nvidia 1660, 天生速率36 tokens / s.
model
size
params
backend
ngl
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
pp512
164.55 ± 0.03
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
tg128
36.38 ± 0.02
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]