阿里云函数盘算 x NVIDIA 加速企业 AI 应用落地

写过一篇 · 2024-9-26 04:22:56

前言

阿里云函数盘算（Function Compute, FC）是一种无服务器（Serverless）盘算服务，答应用户在无需管理底层基础设施的情况下，直接运行代码。与传统的盘算架构相比，函数盘算具有高灵活性和弹性扩展的特点，用户只需专注于业务逻辑的开发，体系自动处理盘算资源的分配、扩展和维护。同时，函数盘算作为阿里云云产品的粘合剂，可以让用户轻松的和多种阿里云服务集成，构建复杂的应用步伐。加之函数盘算除了提供CPU算力以外，还提供GPU算力，以是这种无缝的盘算体验，使得函数盘算非常得当需要弹性扩展的AI使命，如模型推理和图像天生，能够大幅进步效率并低落盘算成本。
NVIDIA TensorRT是英伟达为深度学习推理优化的高性能库，广泛应用于盘算机视觉、语音识别等范畴。TensorRT通过一系列优化手段，如权重量化、层融合和内存优化，极大提升了模型的推理速度，同时减少了资源消耗。它支持从多种框架（如TensorFlow、PyTorch）导出的模型，比如文生图/图生图模型和Bert类等语言模型。并在多种硬件平台上进行加速，使得开发者能够充实利用GPU的盘算能力，快速部署AI应用。
NVIDIA TensorRT-LLM是专为加速大语言模型（LLM，Large Language Models）推理设计的高性能深度学习推理库，旨在大幅提升推理效率、低落耽误并优化GPU利用率。它是TensorRT的扩展版本，重要针对大语言模型，具备自动优化、内存管理和量化的功能，能够在保持高精度的同时实现极低的推理耽误和高吞吐量。通过TensorRT-LLM，开发者可以在英伟达的硬件平台上更高效地运行大语言模型，DiT类模型，多模态视觉语言大模型等。
阿里云函数盘算与NVIDIA TensorRT/TensorRT-LLM的互助基于双方在提效降本方面的共同目的。阿里云函数盘算作为无服务器架构，凭借其高灵活性、弹性扩展能力以及对GPU算力的支持，为AI使命如模型推理和图像天生提供了高效的盘算平台。而NVIDIA TensorRT/TensorRT-LLM则通过针对大模型的优化，显著提升推理效率、低落耽误，并优化GPU利用率。在这种配景下，双方的互助可谓一拍即合，通过结合阿里云的无缝盘算体验和NVIDIA的高性能推理库，开发者能够以更低的成本、更高的效率完成复杂的AI使命，加速技术落地和应用创新。
Stable Diffusion的推理效率革新

Stable Diffusion是一种基于扩散模型的深度学习架构，广泛应用于天生高质量图像的使命中。其工作原理是通过逐步将随机噪声转化为清晰的图像，模型在反复推理过程中将埋伏的低质量图像渐渐“清晰化”，直至天生高分辨率的最终输出。与传统天生模型不同，Stable Diffusion通过在埋伏空间进行扩散过程建模，有效减少了盘算资源的消耗，同时提升了图像天生的质量和多样性。
在图像天生范畴，Stable Diffusion的重要性体如今其广泛的应用和出色的天生能力。它不仅可以天生逼真的图像，还能够在风格化图像、艺术创作、设计和广告等多个范畴中提供创意支持。此外，Stable Diffusion以其开放性和高效性，成为天生模型中的一大创新，推动了AI驱动的创作和设计行业的发展。
基于函数盘算大幅低落部署Stable Diffusion应用的复杂性

通常用户自己构建一套Stable Diffusion应用一样平常需要四个大的步调，在每一个步调中都有不小的工作量和技术门槛。

购买GPU资源：众所周知，SD模型推理是需要利用GPU运行的，以是首先用户需要先购买GPU卡，除了消耗级的30系，40系，还有Ampere系列，Ada系列的专业推理卡，但无论哪种卡，其持有成本都不低。
- 企业用户，在需求量较大的情况下，目前市面上并不好买卡。
- GPU买来后需恒久持有，可能存在较大的利用率空窗期。
- AIGC本质是稀疏调用场景，GPU的资源利用普遍偏低。
部署Stable Diffusion推理服务：虽然如今有Stable Diffusion WebUI这种简化利用的前端UI，但是团体部署还是有肯定的技术门槛。
- 从Github获取Stable Diffusion WebUI。
- 下载Stable Diffusion不同版本的模型，不同版本的插件。
- 构建GPU服务，部署Stable Diffusion WebUI。
出图服务API化：Stable Diffusion WebUI虽然足够方便，但是在企业用户面向C端用户的场景，出图服务API化是刚需。
- Stable Diffusion模型本身不支持并行推理，Stable Diffusion WebUI也不支持多租户管理能力。
- 企业生产级应用需要API化，进步并发性能，需要用户自行实现。
推理性能调优：推理性能的好坏直接影响单位时间内的出图效率，GPU卡数量固定条件下的总出图数量，以是都需要用户对默认的推理框架进行优化。
- 默认推理框架的推理效率不高，且在内存分配方面貌面貌易出现问题（当有使命列队时，内存会持续增加，直到OOM）。
- 适配开源推理框架，进步推理效率，进步出图量或低落资源成本，需要用户自行实现。

如果利用函数盘算构建Stable Diffusion应用，只需一步。在函数盘算应用中央找到Stable Diffusion应用模板，一键部署即可自动完成上述那些复杂的步调。

GPU资源：函数盘算自带GPU资源，包含Tesla系列（函数盘算提供的T4 GPU），Ampere系列，Ada系列
- GPU实例分日间夜间计费，夜间时间为北京时间每日0时~6时，夜间单价是日间单价的5折，纵然需要长时间持有GPU，成本也会有大幅低落。
- GPU门路定价，用量越大，成本越低，门路3 单价比门路1 单价便宜33%。
- 支持极速模式，既对GPU实例做预置快照处理，提前锁定弹性资源，有请求时从预置快照极速拉起弹性实例，制止冷启动影响（CPU 毫秒级，GPU 秒级），客户只需为预置快照付少量成本，兼顾了成本和弹性效率。
部署Stable Diffusion推理服务：自动在GPU实例中部署Stable Diffusion模型推理服务，以及Stable Diffusion WebUI，同时还会自带模型/插件管理界面，各参数设置界面，图片管理/统计页面，完善的可观测、日志能力等。
出图服务API化：自带Stable Diffusion Serverless API模式，通过API出图提升并行效率，消除切换模型时的时延问题。
推理性能调优：内置TensorRT优化过的Stable Diffusion模型（支持Ampere系列，Ada系列 GPU），大幅提升推理效率。

基于TensorRT大幅提升Stable Diffusion推理效率

我们对 Stable Diffusion V1.5 和 Stable Diffusion XL 1.0 两个模型，在Ampere系列和Ada系列上分别做的测试验证。

同卡型对比，无论是SD1.5还是SDXL1.0，TRT优化模型对比原始模型，平均推理耗时均缩减了50%以上。
不同卡型对比，无论是SD1.5还是SDXL1.0，L20对比A10，平均推理耗时均缩减了30%~50%。

Ampere 系列Ada 系列原始模型TensorRT优化模型原始模型模型：runwayml/stable-diffusion-v1-52.976s1.235s1.711s模型：stabilityai/stable-diffusion-xl-base-1.04.350sN/A2.493s通过以上的数据不难看出，利用NVIDIA TensorRT优化后的模型推理效率提升50%，那就意味着，在相同的时间内，用户的出图量可以多一倍，或者出图服务的QPS可以提升一倍。再加上基于函数盘算构建Stable Diffusion应用的便利性，和函数盘算GPU盘算资源的高利用率特性，真正做到了降本提效，使业务方可以有更多的空间做产品竞争力的提升。
大语言模型的推理效率革新

阿里云Qwen2是一款先进的大语言模型，具备强大的明白和天生能力。它通过对海量文本数据的练习，能够在多种NLP应用中显现出卓越的性能，包罗文本天生、机器翻译、问答体系、文本摘要等。Qwen2采用了最新的模型架构和优化技术，显著提升了推理速度和天生质量，使其在处理复杂语言使命时表现出色。
在实际应用中，Qwen2可以资助企业和开发者自动化处理天然语言数据，广泛应用于智能客服、内容创作、数据分析、对话体系等场景。通过高效的语言明白和天生能力，Qwen2大幅提升了天然语言处理使命的自动化和准确性，推动了多个行业的数字化转型与创新。
Qwen2有200B的商业版模型，也有像7B这种的开源模型，而且在很多场景下，AI应用的团体流程中，有一些环节用开源的大语言模型完全可以胜任，也能制止商业版模型QPS限制的问题，以是投入产出比更好。比如Embedding服务，翻译服务，代码问答服务，智能知识库等。
基于函数盘算快速部署Qwen2 7B

目前市面上有多种大语言模型托管的平台，像海外的HuggingFace，Ollama，国内的魔搭ModelScope。这些模型托管平台均在函数盘算应用中央中有应用模板，可以快速一键进行部署。

比如以Ollama为例，在应用中央中通过应用模板一键部署好Ollama服务，然后就可以通过Ollama的API下载Qwen2 7B模型，并运行在函数盘算GPU资源上。
可以同样在函数盘算应用中央一键部署Ollama Open WebUI应用，通过白屏化界面下载Qwen2 7B。

基于TensorRT-LLM加速Qwen2 7B推理

我们测试对比了TensorRT-LLM和vLLM的推理效果：

Qwen/QWen2-7B FP16：对比平均响应时间（RT）指标，TensorRT-LLM 对比 vLLM 改善了21%。
QWen/QWen2-7B FP8：对比平均响应时间（RT）指标，TensorRT-LLM 对比 vLLM 改善了28%。

Qwen/QWen2-7B FP16QWen/QWen2-7B FP8TRT-LLMvLLMTRT-LLMRT2679ms3374ms1688msTPS201632Token数量120.12W96.23W190.32W综上，利用TensorRT-LLM推理框架使Qwen2 7B的推理性能有近30%的提升，再加上函数盘算GPU盘算资源高效率、高利用率的特性，利用户在构建基于LLM的AI应用时在稳定性、性能、效率、成本各方面都会有大幅提升，为虎傅翼。
总结

目前NVIDIA TensorRT-LLM已经支持了市面上所有主流的开源LLM，同时函数盘算应用中央利用GPU资源的应用都已支持TensorRT-LLM推理框架，此次云栖发布的云应用开发平台CAP也会全面支持TensorRT-LLM推理框架。
阿里云函数盘算与NVIDIA技术团队的互助具有重要的战略意义，双方通过结合各自的技术优势，为AI技术的高效落地提供了强有力的支持。阿里云函数盘算以其无服务器架构和弹性扩展能力，使开发者能够在无需管理底层基础设施的情况下灵活处理AI使命。而NVIDIA则通过其高性能的推理引擎，如TensorRT，TensorRT-LLM，为深度学习模型提供了极高的盘算效率和优化能力。两者的结合不仅能够加速复杂模型的推理速度，还能大幅低落AI应用的运行成本。
这种互助推动了AI技术的实际应用落地，特殊是在盘算麋集型的使命如图像天生、天然语言处理等范畴，能够通过无缝集成的高效盘算平台，大规模部署AI模型。开发者可以借助这种平台，快速开发并迭代AI产品，从而缩短从概念到实际应用的时间。同时，这种互助还支持企业灵活应对动态的盘算需求，特殊是在面对高并发或大规模使命时，实现弹性扩展和高效资源管理，为AI在各个行业的广泛应用提供了坚实的技术基础。
函数盘算按量付费、资源包 8折优惠，以及面向中国站的中国内地地域 夜间5折优惠 活动正在进行中。https://www.aliyun.com/product/fc
更多内容关注 Serverless 微信公众号（ID：serverlessdevs），汇集 Serverless 技术最全内容，定期举行 Serverless 活动、直播，用户最佳实践。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

阿里云函数盘算 x NVIDIA 加速企业 AI 应用落地

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云