qidao123.com技术社区-IT企服评测·应用市场
标题:
手机端跑大模子:Ollma/llama.cpp/vLLM 实测对比
[打印本页]
作者:
数据人与超自然意识
时间:
2024-10-9 09:29
标题:
手机端跑大模子:Ollma/llama.cpp/vLLM 实测对比
昨天给大家分享了:怎样在手机端用 Ollama 跑大模子
有小同伴问:为啥要选择 Ollama?
不用 Ollama,还能用啥?据猴哥所知,当前大模子加速的主流工具有:Ollama、vLLM、llama.cpp 等。
那我到底该用哪个呢?
今日分享:带大家在手机端分别跑通
Ollama、vLLM、llama.cpp
,并给出评测结论。
友情提醒:本文实操,请确保已在手机端预备好 Linux 环境,详细参考上篇教程。
1. 三者区别
以下是我对三者的简朴认识:
llama.cpp
:基于C++重写了 LLaMa 的推理代码,是一种推理框架。支持动态批处理,支持混合推理。
Ollama
:使用了 llama.cpp 提供的底层本领(如量化),小白易上手。
vLLM
:基于Python,采用PagedAttention高效管理注意力KV内存,支持动态批处理。
别的,三者的模子权重存储也不同:
llama.cpp
:只支持 gguf 格式的模子,可以本身生成或从 huggingface 等平台下载 gguf 格式的模子;
Ollama
:支持从项目标 Library 下载,也可以本身生成,有本身的存储格式;
vLLM
:支持从 huggingface/modelscope 等平台下载的模子文件。
Qwen2 对这3个方案都有支持,为此本文将以 qwen2:0.5b 进行实测。
2. Ollama
项目地址:https://github.com/ollama/ollama
怎样安装 Ollama,之前的教程已经介绍得很详细了:本地部署大模子?Ollama 部署和实战,看这篇就够了。
上篇中我们采用的是 Ollama+OpenWebUI 的镜像,如果端侧不需要 webui,可以用官方最新镜像,拉起一个容器:
sudo docker run -d -v ollama:/root/.ollama -p 1002:11434 --restart unless-stopped --name ollama ollama/ollama
复制代码
注意:因为官方镜像托管在 docker.hub,国内下载会失败
欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)
Powered by Discuz! X3.4