使用deepseek-r1 7b模型的q5km量化版本进行测试, gpu上的token解码速率是cpu的近8倍.
测试情况: ubuntu22.04 x86+llama.cpp
cpu intel 10750h 4.41 tokens / s
model
| size
| params
| backend
| threads
| test
| t/s
| qwen2 7B Q5_K - Medium
| 5.07 GiB
| 7.62 B
| CPU
| 6
| pp512
| 15.70 ± 0.40
| qwen2 7B Q5_K - Medium
| 5.07 GiB
| 7.62 B
| CPU
| 6
| tg128
| 4.41 ± 0.03
| 使用-t 12扩展到12线程,速率也没有明显变化.
gpu nvidia 1660, 天生速率36 tokens / s.
model
| size
| params
| backend
| ngl
| test
| t/s
| qwen2 7B Q5_K - Medium
| 5.07 GiB
| 7.62 B
| CUDA
| 30
| pp512
| 164.55 ± 0.03
| qwen2 7B Q5_K - Medium
| 5.07 GiB
| 7.62 B
| CUDA
| 30
| tg128
| 36.38 ± 0.02
|
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |