论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
虚拟化.超融合.云计算
›
公有云
›
阿里云函数盘算 x NVIDIA 加速企业 AI 应用落地 ...
阿里云函数盘算 x NVIDIA 加速企业 AI 应用落地
写过一篇
金牌会员
|
2024-9-26 04:22:56
|
显示全部楼层
|
阅读模式
楼主
主题
727
|
帖子
727
|
积分
2181
前言
阿里云函数盘算(Function Compute, FC)是一种无服务器(Serverless)盘算服务,答应用户在无需管理底层基础设施的情况下,直接运行代码。与传统的盘算架构相比,函数盘算具有高灵活性和弹性扩展的特点,用户只需专注于业务逻辑的开发,体系自动处理盘算资源的分配、扩展和维护。同时,函数盘算作为阿里云云产品的粘合剂,可以让用户轻松的和多种阿里云服务集成,构建复杂的应用步伐。加之函数盘算除了提供CPU算力以外,还提供GPU算力,以是这种无缝的盘算体验,使得函数盘算非常得当需要弹性扩展的AI使命,如模型推理和图像天生,能够大幅进步效率并低落盘算成本。
NVIDIA TensorRT是英伟达为深度学习推理优化的高性能库,广泛应用于盘算机视觉、语音识别等范畴。TensorRT通过一系列优化手段,如权重量化、层融合和内存优化,极大提升了模型的推理速度,同时减少了资源消耗。它支持从多种框架(如TensorFlow、PyTorch)导出的模型,比如文生图/图生图模型和Bert类等语言模型。并在多种硬件平台上进行加速,使得开发者能够充实利用GPU的盘算能力,快速部署AI应用。
NVIDIA TensorRT-LLM是专为加速大语言模型(LLM,Large Language Models)推理设计的高性能深度学习推理库,旨在大幅提升推理效率、低落耽误并优化GPU利用率。它是TensorRT的扩展版本,重要针对大语言模型,具备自动优化、内存管理和量化的功能,能够在保持高精度的同时实现极低的推理耽误和高吞吐量。通过TensorRT-LLM,开发者可以在英伟达的硬件平台上更高效地运行大语言模型,DiT类模型,多模态视觉语言大模型等。
阿里云函数盘算与NVIDIA TensorRT/TensorRT-LLM的互助基于双方在提效降本方面的共同目的。阿里云函数盘算作为无服务器架构,凭借其高灵活性、弹性扩展能力以及对GPU算力的支持,为AI使命如模型推理和图像天生提供了高效的盘算平台。而NVIDIA TensorRT/TensorRT-LLM则通过针对大模型的优化,显著提升推理效率、低落耽误,并优化GPU利用率。在这种配景下,双方的互助可谓一拍即合,通过结合阿里云的无缝盘算体验和NVIDIA的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的AI使命,加速技术落地和应用创新。
Stable Diffusion的推理效率革新
Stable Diffusion是一种基于扩散模型的深度学习架构,广泛应用于天生高质量图像的使命中。其工作原理是通过逐步将随机噪声转化为清晰的图像,模型在反复推理过程中将埋伏的低质量图像渐渐“清晰化”,直至天生高分辨率的最终输出。与传统天生模型不同,Stable Diffusion通过在埋伏空间进行扩散过程建模,有效减少了盘算资源的消耗,同时提升了图像天生的质量和多样性。
在图像天生范畴,Stable Diffusion的重要性体如今其广泛的应用和出色的天生能力。它不仅可以天生逼真的图像,还能够在风格化图像、艺术创作、设计和广告等多个范畴中提供创意支持。此外,Stable Diffusion以其开放性和高效性,成为天生模型中的一大创新,推动了AI驱动的创作和设计行业的发展。
基于函数盘算大幅低落部署Stable Diffusion应用的复杂性
通常用户自己构建一套Stable Diffusion应用一样平常需要四个大的步调,在每一个步调中都有不小的工作量和技术门槛。
购买GPU资源
:众所周知,SD模型推理是需要利用GPU运行的,以是首先用户需要先购买GPU卡,除了消耗级的30系,40系,还有Ampere系列,Ada系列的专业推理卡,但无论哪种卡,其持有成本都不低。
企业用户,在需求量较大的情况下,目前市面上并不好买卡。
GPU买来后需恒久持有,可能存在较大的利用率空窗期。
AIGC本质是稀疏调用场景,GPU的资源利用普遍偏低。
部署Stable Diffusion推理服务
:虽然如今有Stable Diffusion WebUI这种简化利用的前端UI,但是团体部署还是有肯定的技术门槛。
从Github获取Stable Diffusion WebUI。
下载Stable Diffusion不同版本的模型,不同版本的插件。
构建GPU服务,部署Stable Diffusion WebUI。
出图服务API化
:Stable Diffusion WebUI虽然足够方便,但是在企业用户面向C端用户的场景,出图服务API化是刚需。
Stable Diffusion模型本身不支持并行推理,Stable Diffusion WebUI也不支持多租户管理能力。
企业生产级应用需要API化,进步并发性能,需要用户自行实现。
推理性能调优
:推理性能的好坏直接影响单位时间内的出图效率,GPU卡数量固定条件下的总出图数量,以是都需要用户对默认的推理框架进行优化。
默认推理框架的推理效率不高,且在内存分配方面貌面貌易出现问题(当有使命列队时,内存会持续增加,直到OOM)。
适配开源推理框架,进步推理效率,进步出图量或低落资源成本,需要用户自行实现。
如果利用函数盘算构建Stable Diffusion应用,只需一步。在函数盘算应用中央找到
Stable Diffusion应用模板
,一键部署即可自动完成上述那些复杂的步调。
GPU资源
:函数盘算自带GPU资源,包含Tesla系列(函数盘算提供的T4 GPU),Ampere系列,Ada系列
GPU实例分日间夜间计费,夜间时间为北京时间每日0时~6时,夜间单价是日间单价的5折,纵然需要长时间持有GPU,成本也会有大幅低落。
GPU门路定价
,用量越大,成本越低,门路3 单价比 门路1 单价便宜33%。
支持极速模式,既对GPU实例做预置快照处理,提前锁定弹性资源,有请求时从预置快照极速拉起弹性实例,制止冷启动影响(CPU 毫秒级,GPU 秒级),客户只需为预置快照付少量成本,兼顾了成本和弹性效率。
部署Stable Diffusion推理服务
:自动在GPU实例中部署Stable Diffusion模型推理服务,以及Stable Diffusion WebUI,同时还会自带模型/插件管理界面,各参数设置界面,图片管理/统计页面,完善的可观测、日志能力等。
出图服务API化
:自带Stable Diffusion Serverless API模式,通过API出图提升并行效率,消除切换模型时的时延问题。
推理性能调优
:内置TensorRT优化过的Stable Diffusion模型(支持Ampere系列,Ada系列 GPU),大幅提升推理效率。
基于TensorRT大幅提升Stable Diffusion推理效率
我们对 Stable Diffusion V1.5 和 Stable Diffusion XL 1.0 两个模型,在Ampere系列和Ada系列上分别做的测试验证。
同卡型对比,无论是SD1.5还是SDXL1.0,TRT优化模型对比原始模型,平均推理耗时均缩减了50%以上。
不同卡型对比,无论是SD1.5还是SDXL1.0,L20对比A10,平均推理耗时均缩减了30%~50%。
Ampere 系列
Ada 系列
原始模型TensorRT优化模型原始模型模型:
runwayml/stable-diffusion-v1-5
2.976s1.235s1.711s模型:
stabilityai/stable-diffusion-xl-base-1.0
4.350sN/A2.493s通过以上的数据不难看出,利用NVIDIA TensorRT优化后的模型推理效率提升50%,那就意味着,在相同的时间内,用户的出图量可以多一倍,或者出图服务的QPS可以提升一倍。再加上基于函数盘算构建Stable Diffusion应用的便利性,和函数盘算GPU盘算资源的高利用率特性,真正做到了降本提效,使业务方可以有更多的空间做产品竞争力的提升。
大语言模型的推理效率革新
阿里云Qwen2是一款先进的大语言模型,具备强大的明白和天生能力。它通过对海量文本数据的练习,能够在多种NLP应用中显现出卓越的性能,包罗文本天生、机器翻译、问答体系、文本摘要等。Qwen2采用了最新的模型架构和优化技术,显著提升了推理速度和天生质量,使其在处理复杂语言使命时表现出色。
在实际应用中,Qwen2可以资助企业和开发者自动化处理天然语言数据,广泛应用于智能客服、内容创作、数据分析、对话体系等场景。通过高效的语言明白和天生能力,Qwen2大幅提升了天然语言处理使命的自动化和准确性,推动了多个行业的数字化转型与创新。
Qwen2有200B的商业版模型,也有像7B这种的开源模型,而且在很多场景下,AI应用的团体流程中,有一些环节用开源的大语言模型完全可以胜任,也能制止商业版模型QPS限制的问题,以是投入产出比更好。比如Embedding服务,翻译服务,代码问答服务,智能知识库等。
基于函数盘算快速部署Qwen2 7B
目前市面上有多种大语言模型托管的平台,像海外的HuggingFace,Ollama,国内的魔搭ModelScope。这些模型托管平台均在函数盘算应用中央中有应用模板,可以快速一键进行部署。
比如以Ollama为例,在应用中央中通过应用模板一键部署好Ollama服务,然后就可以通过Ollama的API下载Qwen2 7B模型,并运行在函数盘算GPU资源上。
可以同样在函数盘算应用中央一键部署Ollama Open WebUI应用,通过白屏化界面下载Qwen2 7B。
基于TensorRT-LLM加速Qwen2 7B推理
我们测试对比了TensorRT-LLM和vLLM的推理效果:
Qwen/QWen2-7B FP16:对比平均响应时间(RT)指标,TensorRT-LLM 对比 vLLM 改善了21%。
QWen/QWen2-7B FP8:对比平均响应时间(RT)指标,TensorRT-LLM 对比 vLLM 改善了28%。
Qwen/QWen2-7B FP16QWen/QWen2-7B FP8TRT-LLMvLLMTRT-LLMRT2679ms3374ms1688msTPS201632Token数量120.12W96.23W190.32W综上,利用TensorRT-LLM推理框架使Qwen2 7B的推理性能有近30%的提升,再加上函数盘算GPU盘算资源高效率、高利用率的特性,利用户在构建基于LLM的AI应用时在稳定性、性能、效率、成本各方面都会有大幅提升,为虎傅翼。
总结
目前NVIDIA TensorRT-LLM已经支持了市面上所有主流的开源LLM,同时函数盘算应用中央利用GPU资源的应用都已支持TensorRT-LLM推理框架,此次云栖发布的云应用开发平台CAP也会全面支持TensorRT-LLM推理框架。
阿里云函数盘算与NVIDIA技术团队的互助具有重要的战略意义,双方通过结合各自的技术优势,为AI技术的高效落地提供了强有力的支持。阿里云函数盘算以其无服务器架构和弹性扩展能力,使开发者能够在无需管理底层基础设施的情况下灵活处理AI使命。而NVIDIA则通过其高性能的推理引擎,如TensorRT,TensorRT-LLM,为深度学习模型提供了极高的盘算效率和优化能力。两者的结合不仅能够加速复杂模型的推理速度,还能大幅低落AI应用的运行成本。
这种互助推动了AI技术的实际应用落地,特殊是在盘算麋集型的使命如图像天生、天然语言处理等范畴,能够通过无缝集成的高效盘算平台,大规模部署AI模型。开发者可以借助这种平台,快速开发并迭代AI产品,从而缩短从概念到实际应用的时间。同时,这种互助还支持企业灵活应对动态的盘算需求,特殊是在面对高并发或大规模使命时,实现弹性扩展和高效资源管理,为AI在各个行业的广泛应用提供了坚实的技术基础。
函数盘算按量付费、资源包
8折优惠
,以及面向中国站的中国内地地域
夜间5折优惠
活动正在进行中。
https://www.aliyun.com/product/fc
更多内容关注 Serverless 微信公众号(ID:serverlessdevs),汇集 Serverless 技术最全内容,定期举行 Serverless 活动、直播,用户最佳实践。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
写过一篇
金牌会员
这个人很懒什么都没写!
楼主热帖
hibernate入门
kubernetes数据持久化StorageClass动态 ...
Debian/Ubuntu使用apt安装php8.x
26基于java的电影院售票管理系统设计 ...
OpenHarmony开源鸿蒙与HarmonyOS商业鸿 ...
回忆我的第一个软件项目
Jvm调优
简述PHP中trait的使用和同时引入多个tr ...
管理软件定制公司 广州管理软件定制开 ...
基于LSTM的多变量多输出温湿度预测 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表