手机端跑大模子:Ollma/llama.cpp/vLLM 实测对比
昨天给大家分享了:怎样在手机端用 Ollama 跑大模子有小同伴问:为啥要选择 Ollama?
不用 Ollama,还能用啥?据猴哥所知,当前大模子加速的主流工具有:Ollama、vLLM、llama.cpp 等。
那我到底该用哪个呢?
今日分享:带大家在手机端分别跑通 Ollama、vLLM、llama.cpp,并给出评测结论。
友情提醒:本文实操,请确保已在手机端预备好 Linux 环境,详细参考上篇教程。
1. 三者区别
以下是我对三者的简朴认识:
[*]llama.cpp:基于C++重写了 LLaMa 的推理代码,是一种推理框架。支持动态批处理,支持混合推理。
[*]Ollama:使用了 llama.cpp 提供的底层本领(如量化),小白易上手。
[*]vLLM:基于Python,采用PagedAttention高效管理注意力KV内存,支持动态批处理。
别的,三者的模子权重存储也不同:
[*] llama.cpp:只支持 gguf 格式的模子,可以本身生成或从 huggingface 等平台下载 gguf 格式的模子;
[*] Ollama:支持从项目标 Library 下载,也可以本身生成,有本身的存储格式;
[*] vLLM:支持从 huggingface/modelscope 等平台下载的模子文件。
Qwen2 对这3个方案都有支持,为此本文将以 qwen2:0.5b 进行实测。
2. Ollama
项目地址:https://github.com/ollama/ollama
怎样安装 Ollama,之前的教程已经介绍得很详细了:本地部署大模子?Ollama 部署和实战,看这篇就够了。
上篇中我们采用的是 Ollama+OpenWebUI 的镜像,如果端侧不需要 webui,可以用官方最新镜像,拉起一个容器:
sudo docker run -d -v ollama:/root/.ollama -p 1002:11434 --restart unless-stopped --name ollama ollama/ollama
注意:因为官方镜像托管在 docker.hub,国内下载会失败
页:
[1]