qidao123.com技术社区-IT企服评测·应用市场

标题: 手机端跑大模子：Ollma/llama.cpp/vLLM 实测对比 [打印本页]

作者: 数据人与超自然意识 时间: 2024-10-9 09:29
标题: 手机端跑大模子：Ollma/llama.cpp/vLLM 实测对比
昨天给大家分享了：怎样在手机端用 Ollama 跑大模子
有小同伴问：为啥要选择 Ollama？
不用 Ollama，还能用啥？据猴哥所知，当前大模子加速的主流工具有：Ollama、vLLM、llama.cpp 等。
那我到底该用哪个呢？
今日分享：带大家在手机端分别跑通 Ollama、vLLM、llama.cpp，并给出评测结论。
友情提醒：本文实操，请确保已在手机端预备好 Linux 环境，详细参考上篇教程。
1. 三者区别

以下是我对三者的简朴认识：

llama.cpp：基于C++重写了 LLaMa 的推理代码，是一种推理框架。支持动态批处理，支持混合推理。
Ollama：使用了 llama.cpp 提供的底层本领（如量化），小白易上手。
vLLM：基于Python，采用PagedAttention高效管理注意力KV内存，支持动态批处理。

别的，三者的模子权重存储也不同：

llama.cpp：只支持 gguf 格式的模子，可以本身生成或从 huggingface 等平台下载 gguf 格式的模子；
Ollama：支持从项目标 Library 下载，也可以本身生成，有本身的存储格式；
vLLM：支持从 huggingface/modelscope 等平台下载的模子文件。

Qwen2 对这3个方案都有支持，为此本文将以 qwen2:0.5b 进行实测。
2. Ollama

项目地址：https://github.com/ollama/ollama
怎样安装 Ollama，之前的教程已经介绍得很详细了：本地部署大模子?Ollama 部署和实战，看这篇就够了。
上篇中我们采用的是 Ollama+OpenWebUI 的镜像，如果端侧不需要 webui，可以用官方最新镜像，拉起一个容器：

sudo docker run -d -v ollama:/root/.ollama -p 1002:11434 --restart unless-stopped --name ollama ollama/ollama

复制代码

注意：因为官方镜像托管在 docker.hub，国内下载会失败

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)