论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
5.llama.cpp编译及使用
5.llama.cpp编译及使用
宝塔山
论坛元老
|
2024-8-10 21:53:31
|
显示全部楼层
|
阅读模式
楼主
主题
2036
|
帖子
2036
|
积分
6108
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
llama.cpp的编译及使用
下载源码
llama.cpp
https://github.com/ggerganov/llama.cpp
复制代码
ggml 向量库
https://github.com/ggerganov/ggml
复制代码
安装依靠库
cmake 编译:版本稍高一些,我的是3.22
编译
支持cuda
cd llama.cpp
mkdir build
cd build
cmake .. -DLLAMA_CUBLAS=ON
make -j8
复制代码
末了在build/bin目次下生成
下载模型
meta官网下载,贼麻烦
https://ai.meta.com/llama/
复制代码
https://huggingface.co/
meta-llama
复制代码
huggingface下载
https://huggingface.co/
复制代码
Linly: 国内Linly开源
https://github.com/CVI-SZU/Linly
复制代码
模型量化
模型量化的python代码在llama.cpp下面找到。在硬件资源有限的情况下才对模型举行量化。
在build/bin找到quantize
模型下载
https://huggingface.co/
meta-llama
/Llama-2-7b-hf
复制代码
模型转换
convert the 7B model to ggml FP16 format 默认做当前目次下生成ggml模型ggml-model-f16.bin
python convert.py models/llama-2-7b-hf/
复制代码
在较新版本默认生成的是ggml-model-f16.gguf
模型量化
quantize the model to 4-bits (using q4_0 method) 进一步对FP16模型举行4-bit量化
./quantize ./models/llama-2-7b-hf/ggml-model-f16.bin ./models/llama-2-7b-hf/ggml-model-q4_0.bin q4_0
复制代码
模型推理
在build/bin找到main
./main -ngl 30 -m ./models/llama-2-7b-hf/ggml-model-q4_0.bin --color -f ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.0
复制代码
Linly模型
自己动手处理
运行测试
测试用脚本
#!/bin/bash
# llama 推理
#./main -ngl 30 -m ./models/7B/ggml-model-alpaca-7b-q4_0.gguf --color -f ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.3
# linly 基础模型
#./main -ngl 30 -m ./models/7B/linly-ggml-model-q4_0.bin --color -f ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.0
# linly chatflow模型
./main -ngl 30 -m ./models/chatflow_7b/linly-chatflow-7b-q4_0.bin --color -f ./prompts/chat-with-vicuna-v0.txt -ins -c 2048 --temp 0.2 -n 4096 --repeat_penalty 1.0
# whisper llama
#./whisper/talk-llama -l zh -mw ./models/ggml-small_q4_0.bin -ml ./models/7B/ggml-model-alpaca-7b-q4_0.gguf -p "lfrobot" -t 8 -c 0 -vth 0.6 -fth 100 -pe
复制代码
参数说明
比较重要的参数:
-ins 启动类ChatGPT的对话交流模式
-f 指定prompt模板,alpaca模型请加载prompts/alpaca.txt 指令模板
-c 控制上下文的长度,值越大越能参考更长的对话历史(默认:512)
-n 控制回复生成的最大长度(默认:128)
--repeat_penalty 控制生成回复中对重复文本的惩罚力度
--temp 温度系数,值越低回复的随机性越小,反之越大
--top_p, top_k 控制解码采样的相关参数
-b 控制batch size(默认:512)
-t 控制线程数量(默认:8),可适当增加
-ngl 使用cuda核心数
-m 指定模型
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
宝塔山
论坛元老
这个人很懒什么都没写!
楼主热帖
分布式事务 | 使用DTM 的Saga 模式 ...
Sqlserver2012卸载
Maxwell 一款简单易上手的实时抓取Mysq ...
WebLogic JNDI注入(CVE-2021-2109) ...
哈工大信息安全概论期末复习 ...
HTTPS基础原理和配置-3
轻量级CI/CD发布部署环境搭建及使用_03 ...
数字IC-1.9 吃透通信协议中状态机的代 ...
[DuckDB] 多核算子并行的源码解析 ...
.NET服务治理之限流中间件-FireflySoft ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Java
快速回复
返回顶部
返回列表