论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
大模型本地部署神器:llama.cpp使用先容
大模型本地部署神器:llama.cpp使用先容
熊熊出没
论坛元老
|
2025-5-4 19:01:33
|
显示全部楼层
|
阅读模式
楼主
主题
1835
|
帖子
1835
|
积分
5505
先容llama.cpp
本节主要先容什么是llama.cpp,以及llama.cpp、llama、ollama的区别。同时分析一下GGUF这种模型文件格式。
什么是llama.cpp
llama.cpp是一个由Georgi Gerganov开辟的高性能C++库,主要目的是在各种硬件上(本地和云端)以最少的设置和最先辈的性能实现大型语言模型推理。
主要特点:
纯C/C++实现,没有任何依靠
对Apple Silicon(如M1/M2/M3芯片)提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化
支持x86架构的AVX、AVX2、AVX512和AMX指令集
支持1.5位、2位、3位、4位、5位、6位和8位整数目化,实现更快的推理和更低的内存使用
为NVIDIA GPU提供自定义CUDA内核(通过HIP支持AMD GPU,通过MUSA支持摩尔线程MTT GPU)
支持Vulkan和SYCL后端
CPU+GPU混淆推理,可部分加快大于总VRAM容量的模型
llama、llama.cpp、ollama的区别
是不是经常听到llama、llama.cpp、ollama这三个名字,看起来都包括lalama,但实际上它们是不同的概念:
LLaMA
:
LLaMA(Large Language Model Meta AI)是由Meta(Facebook)开辟的大型语言模型系列
它是一组开源的基础语言模型,包括不同参数规模的版本(如LLaMA、LLaMA 2、LLaMA 3等)
LLaMA是模型自己,即训练好的神经网络权重和架构文件,有不同巨细的模型,如3B、7B、13B、65B、70B、130B等
llama.cpp
:
llama.cpp是一个C++库,用于在CPU上高效运行LLaMA模型
它是由Georgi Gerganov开辟的,专注于优化LLaMA模型在消费级硬件上的推理性能
主要特点是内存服从高、支持量化(如4-bit、5-bit、8-bit量化)以减少内存需求
它是运行模型的推理引擎
Ollama
:
Ollama是一个应用程序,让用户可以或许轻松下载、运行和使用各种大型语言模型
它在底层使用llama.cpp作为推理引擎
Ollama提供了友爱的命令行界面和API,简化了模型的管理和使用
它相当于是llama.cpp的上层封装,增加了模型管理、会话管理等功能
以是说,LLaMA是模型自己("大脑"),llama.cpp是高效运行这些模型的引擎("引擎"),Ollama是一个用户友爱的应用程序,使用llama.cpp作为引擎,让普通用户可以或许轻松使用这些模型("应用")
GGUF
我们常听说一下模型文件格式,GGUF就是此中一种专为 llama.cpp 计划的二进制格式,取代早期的 GGML。 GGUF(GPT-Generated Unified Format)是一种用于存储模型以便使用GGML和基于GGML的实验器进行推理的文件格式。,具有以下优势:
高效存储与加载
:通过紧凑编码和内存映射技能加快模型载入47。
自包含性
:文件内包含模型架构、超参数等完备信息,无需额外依靠7。
可扩展性
:支持在不粉碎兼容性的环境下新增元数据 下图是一个文件格式先容:
Mac M1上安装llama.cpp做模型推理
本节先容如何在Mac M1上安装llama.cpp,并使用模型进行推理。
装备:Mac Book Air(M1芯片,8G内存)
体系:macOS 15.0
模型:llama3.2-3B-Instruct
安装
Mac装备上安装有两种方式,下载源代码编译或者通过brew安装。 我们直接用brew安装。
brew install llama.cpp
复制代码
下载模型
https://huggingface.co/models?library=gguf&sort=trending
https://huggingface.co/bartowski/Llama-3.2-3B-Instruct-GGUF/blob/main/Llama-3.2-3B-Instruct-Q8_0.gguf
复制代码
运行推理
llama-cli -m Llama-3.2-3B-Instruct-Q8_0.gguf
复制代码
运行成功后,可以看到一些推理参数。比如对Apple的图形盘算Metal的支持、对ARM 上NEON优化的支持等。
在命令行直接对话:
M1芯片的Mac上,llama.cpp的推理速度非常快,基本秒出结果。
Linux下安装llama.cpp并使用模型进行推理
本节先容如何在Linux下安装llama.cpp,并使用模型进行推理。
装备:Linux服务器(阿里云服务器:Intel CPU,2G内存)
体系:Ubuntu 22.04
模型:llama3.2-3B-Instruct
安装
下载编译
git clone https://github.com/ggerganov/llama.cpp.git
复制代码
安装cmake 安装cmake
sudo apt install cmake
复制代码
编译
cmake -B buildcmake --build build --config Release
复制代码
运行推理
下载模型文件
同样使用前面下载的模型文件Llama-3.2-3B-Instruct-Q8_0.gguf。
运行推理
../llama.cpp/build/bin/llama-cli -m Llama-3.2-3B-Instruct-Q8_0.gguf
复制代码
阿里云服务器是Intel CPU,以是需要使用CPU进行推理。配置比力低,以是推理速度比力慢,不可用。服务端的话还是要购买GPU服务器或者直接购买API服务做推理。
总结
由于llama.cpp是纯C/C++实现的,可以或许跨平台部署大模型推理。同时针对不同的硬件做了优化,以是推理速度非常快,尤其是Apple M1芯片,完全超出我的预期。我平常用的多的Ollama就是基于这个库的封装,对使用模型和应用开辟更加友爱。如果不做模型量化转换的话,用Ollama做本地模型部署就可以了。
小模型部署在端侧的部署还是很故意义的,比如在手机上部署一个llama3.2-3B-Instruct模型,可以实现非常快的推理速度。未来模型同时在端侧和云端部署,端侧模型推理速度更快,云端模型更强大,可以实现非常多的应用场景。
参考资料
https://github.com/ggml-org/llama.cpp
https://github.com/ggml-org/ggml/blob/master/docs/gguf.md
https://github.com/ggml-org/llama.cpp/blob/master/docs/install.md
https://juejin.cn/post/7332652230711509055
https://agi-sphere.com/install-llama-mac
大模型&AI产品经理如何学习
求各人的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习蹊径图
第一阶段: 从大模型体系计划入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开辟借助阿里云PAI平台构建电商领域虚拟试衣体系;
第四阶段: 大模型知识库应用开辟以LangChain框架为例,构建物流行业咨询智能问答体系;
第五阶段: 大模型微调开辟借助以大康健、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开辟为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上固然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面蹊径图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能逐一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技能文档和电子书
这里主要整理了大模型相干PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
继续阅读请点击广告
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
熊熊出没
论坛元老
这个人很懒什么都没写!
楼主热帖
数据库的三大范式
创建SQL server服务器
在字节跳动干软件测试5年,4月无情被辞 ...
2年自动化测试经验,连基础的都不会, ...
TortoiseGit间接处理linux目录下的仓库 ...
神经网络与深度学习
django小项目 ----- 创建错题集 ...
Java 知识 - 接口代理
ZYNQ从放弃到入门(十二)- AMP — Zyn ...
基于遗传算法的最优潮流问题的研究(Ma ...
标签云
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
信创/国产替代
快速回复
返回顶部
返回列表