Oracle使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

卖不甜枣 发表于 2025-2-18 20:48:23

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比

使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速率是cpu的近8倍.
测试情况: ubuntu22.04 x86+llama.cpp
cpu intel 10750h 4.41 tokens / s
model
size
params
backend
threads
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
pp512
15.70 ± 0.40
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CPU
6
tg128
4.41 ± 0.03
使用-t 12扩展到12线程，速率也没有明显变化.

gpu nvidia 1660, 天生速率36 tokens / s.
model
size
params
backend
ngl
test
t/s
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
pp512
164.55 ± 0.03
qwen2 7B Q5_K - Medium
5.07 GiB
7.62 B
CUDA
30
tg128
36.38 ± 0.02

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

使用llama.cpp在gpu和cpu上运行deepseek-r1 7b的性能对比