论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
使用 BentoML快速实现Llama-3推理服务
使用 BentoML快速实现Llama-3推理服务
欢乐狗
论坛元老
|
2024-11-16 00:35:33
|
显示全部楼层
|
阅读模式
楼主
主题
1960
|
帖子
1960
|
积分
5880
先容
近年来,开源大模型如雨后春笋般涌现,为自然语言处理领域带来了革命性的变化。从文本生成到代码编写,从机器翻译到问答系统,开源大模型展现出惊人的本领,吸引了越来越多的开辟者和企业投身其中。
然而,尽管开源大模型潜力巨大,但将其摆设到实际应用场景中却并非易事。高昂的硬件成本、复杂的模型配置、繁琐的摆设流程等标题,都为大模型的落地应用设置了重重障碍。
为了降低大模型的使用门槛,让更多用户能够轻松体验和应用大模型的强大本领,本文将先容BentoML是怎么降低使用门槛并快速上手大模型开辟的**。**无论你是履历丰富的开辟者,照旧对大模型充满好奇的初学者,相信都能从本文中找到你必要的答案,快速开启你的大模型应用之旅。
环境准备
租用GPU资源
众所周知,在深度学习中,拥有符合的可用硬件至关重要。特别是对于像大语言模型这样的大型模型,这一点变得更加重要。然后购买硬件资源非常昂贵,所以租用GPU资源对于普通开辟者而言是最经济实惠的方案。下面我选择在AutoDL平台上租一块RTX 4090,当然你可以在其他平台租售必要的硬件资源。
首先,确保您有 AutoDL 帐户。接下来,按照自己的需求选择计费方式,GPU型号和基础镜像等信息。
几分钟后服务器会初始化好,然后使用SSH登录服务器。
使用 BentoML 服务
首先,通过 CLI,我们可以克隆 BentoML 团队开辟的存储库。
git clone https://github.com/bentoml/BentoVLLM.git
复制代码
在存储库中,我们将找到不同模型的几个示例。本教程我将专门使用 llama3-8b-instruct。所以我们进入该文件夹。
cd BentoVLLM/
cd llama3-8b-instruct/
复制代码
然后安装必要的依赖。
pip install -r requirements.txt && pip install -f -U "pydantic>=2.0"
复制代码
实际代码可以在 service.py 文件中找到。但是,我们调用以下下令来调起模型就充足了。
由于huggingface在国内不稳固,所以可以通过署理的方式获取模型,下面我将先容一个方法。
通过官方的huggingface-cli工具
1. 安装依赖
pip install -U huggingface_hub
复制代码
2. 设置环境变量
Linux
export HF_ENDPOINT=https://hf-mirror.com
复制代码
Windows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"
复制代码
建议将上面这一行写入
~/.bashrc
复制代码
3.1 下载模型
huggingface-cli download --resume-download meta/llama3-8b-instruct
复制代码
使用 hfd
hfd
是国内开辟者开辟的 huggingface 专用下载工具,基于成熟工具 git+aria2,可以做到稳固下载不断线。
1. 下载hfd
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
复制代码
2. 设置环境变量
Linux
export HF_ENDPOINT=https://hf-mirror.com
复制代码
Windows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"
复制代码
3.1 下载模型
./hfd.sh meta/llama3-8b-instruct --tool aria2c -x 4
复制代码
3.2 下载数据集
./hfd.sh wikitext --dataset --tool aria2c -x 4
复制代码
模型下载好后实行下面下令启动bentoml服务
bentoml serve .
复制代码
下令调用后将打开一个 IP 地点以在本地检察 API。假如将路径“/docs”添加到 IP 地点,将会打开swagger页面提供全部可用接口的文档。
我们会看到重要的API是/generate,可以在其中输入提示符和系统提示符并等待模型的输出。
当然,除了 swagger 之外,假如您想开辟自己的自定义前端,您还可以使用代码中的 API!
总结
本教程手把手的演示了一遍怎么快速的使用一个开源大模型进行推理,通过使用BentoML这一强大的工具。BentoML不仅简化了模型摆设过程,还提供了便捷的API接口,使得开辟者能够轻松地将大模型集成到各种应用场景中。这种快速摆设和使用的方法,为大模型的广泛应用铺平了门路,让更多人能够享受到人工智能带来的便利。
然而,尽管BentoML大大简化了大模型的摆设和使用流程,我们仍必要注意一些关键点。首先,选择符合的硬件资源至关重要,这直接影响到模型的运行效率和相应速度。其次,对于不同的应用场景,可能必要对模型进行微调或优化,以获得最佳性能。
我会在后续文章中先容怎么使用BentoML对开辟RAG和Function Calling等功能演示,敬请期待。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
欢乐狗
论坛元老
这个人很懒什么都没写!
楼主热帖
C# 读写文件从用户态切到内核态,到底 ...
LeetCode刷题100道,让你滚瓜烂熟拿下S ...
我的 Java 学习&面试网站又又又升级了 ...
不到一周我开发出了属于自己的知识共享 ...
SQL server 2008 r2 安装教程
基于梯度优化的混沌PSO算法matlab仿真 ...
x64dbg 配置插件SDK开发环境
KubeEdge在边缘计算领域的安全防护及洞 ...
SAP集成技术(十一)SAP混合集成平台 ...
graphhopper-ios 编译过程详解
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Java
物联网
快速回复
返回顶部
返回列表