DeepSeek 8B,14B,32B,70B在ubuntu,mac上的性能测试结果

打印 上一主题 下一主题

主题 952|帖子 952|积分 2856



分别基于Ubuntu22.04, Macbook Pro M芯片模型测试:

ubuntu设置:Macbook Pro CPU: 13th Gen Intel(R) Core(TM) i7-13700KF
显卡: NVIDIA GeForce RTX 4070 Ti 12GB
内存:80G
系统版本:Window11 WSL Ubuntu 22.04.5 LTS
  CPU:  Apple M1 Max
显卡:Apple M1 Max Metal 3
内存:32G
系统版本:14.6.1
  Macbook Pro M芯片性能测试:

DeepSeek-R1-Distill-Qwen-8B-GGUF 测试结果:
modelsizeparamsbackendthreadstestt/sllama 8B Q2_K - Medium3.07 GiB8.03 BMetal,BLAS8pp512487.43 ± 0.24llama 8B Q2_K - Medium3.07 GiB8.03 BMetal,BLAS8tg12849.33 ± 0.09 DeepSeek-R1-Distill-Qwen-14B-GGUF 测试结果:
modelsizeparamsbackendthreadstestt/sqwen2 14B Q2_K - Medium5.37 GiB14.77 BMetal,BLAS8pp512257.18 ± 0.12qwen2 14B Q2_K - Medium5.37 GiB14.77 BMetal,BLAS8tg12827.45 ± 0.10 DeepSeek-R1-Distill-Qwen-32B-GGUF 测试结果:
modelsizeparamsbackendthreadstestt/sqwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BMetal,BLAS8pp51299.51 ± 0.15qwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BMetal,BLAS8tg12813.58 ± 0.01 DeepSeek-R1-Distill-Qwen-70B-GGUF 测试结果:
ModelSizeParamsBackendThreadsTestt/sLLaMA 70B Q2_K - Medium24.79 GiB70.55 BMetal,BLAS8pp5126.3 ± 0.08LLaMA 70B Q2_K - Medium24.79 GiB70.55 BMetal,BLAS8tg12800.00 ± 0.00 Ubuntu 22.04 性能测试:

DeepSeek-R1-Distill-Qwen-8B-GGUF 测试结果:
ModelSizeParamsBackendNGLTestT/sllama 8B Q2_K - Medium3.07 GiB8.03 BCUDA99pp5124371.47 ± 8.21llama 8B Q2_K - Medium3.07 GiB8.03 BCUDA99tg128122.44 ± 0.09 DeepSeek-R1-Distill-Qwen-14B-GGUF 测试结果:
ModelSizeParamsBackendNGLTestT/sqwen2 14B Q2_K - Medium5.37 GiB14.77 BCUDA99pp5122411.33 ± 6.56qwen2 14B Q2_K - Medium5.37 GiB14.77 BCUDA99tg12867.53 ± 0.15 DeepSeek-R1-Distill-Qwen-32B-GGUF 测试结果: 
ModelSizeParamsBackendNGLTestT/sqwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BCUDA99pp5121204.93 ± 83.32qwen2 32B IQ2_XXS - 2.0625 bpw8.40 GiB32.76 BCUDA99tg12841.92 ± 0.17 DeepSeek-R1-Distill-Qwen-70B-GGUF 测试结果:
ModelSizeParamsBackendNGLTestT/sllama 70B Q2_K - Medium24.79 GiB70.55 BCUDA99pp51237.18 ± 0.16llama 70B Q2_K - Medium24.79 GiB70.55 BCUDA99tg1281.31 ± 0.00 参数表明:
[/table] [table]标题表明模型 (Model)使用的模型名称和版本大小 (Size)模型的内存占用,单元是GiB (Gibibytes)参数 (Params)模型的参数数量,单元是B (Billion)后端 (Backend)模型运行所使用的盘算后端 (例如Metal, BLAS)线程 (Threads)使用的线程数量GPU数量(NGL)Number of GPU Layer,分给GPU的层数用来盘算测试 (Test) 运行测试的范例,例如pp512 (测试512 token)或tg128 (测试128 token)
pp512: Prompt Processing 处理512 token提示词
tg128: Text Generation 生成长度为128 token文本
每秒处理标志数 (t/s)每秒处理的token数量 (tokens per second) 测试结果:
在两台机器上,DeepSeek-R1-Distill-Qwen-8B,14B, 32B 都可以正常使用,通过 T/s  结果可以看出来,只有70B 在两台机器上固然可以运行,但根本无法使用。各人根据自己的机器设置,选择合适的模型。
模型资源下载地址:
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-70B
测试项目llama.cpp

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

九天猎人

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表