马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0078.html
华为VLLM
华为的vLLM(Variable-Length Language Model)是一个针对大规模语言模子推理的高效框架,通过一连批处理惩罚(continuous batching) 和页注意力(pageAttention) 等技能显着提升推理性能。其焦点上风在于优化内存管理与并行盘算,实用于天然语言处理惩罚(NLP)、图像天生、语音辨认等场景。
昇腾NPU优化版本:Ascend-vLLM
华为针对昇腾NPU推出了Ascend-vLLM框架(华为云文档),在原生vLLM底子上举行深度优化,特点包罗:
- 硬件适配:通过插件(如vllm-ascend)实现昇腾NPU的无缝集成,支持Transformer、Mixture-of-Expert(MoE)、多模态模子等(GitHub堆栈)。
- 性能提升:优化内存调治与算子加速,比方使用atb_llm模子库提升推理速率(天翼云分析)。
- 易用性增强:兼容PyTorch生态,支持FP16/BF16数据范例,适配CANN 8.0及以上版本(华为文档)。
关键应用场景
Ascend-vLLM已用于Qwen1.5等大模子的NPU推理摆设(最佳实践),并通过社区一连演进(版本适配分析)。
综上,vLLM及其昇腾优化版本为华为生态下的AI推理提供了高效、机动的办理方案。
华为MindIE兼容OpenAI接口与兼容vLLM OpenAI接口的区别?
华为MindIE提供的两种兼容接口(兼容OpenAI接口和兼容vLLM OpenAI接口)告急在接口尺度支持范围和功能扩展性上存在差异:
1. 兼容OpenAI接口
- 焦点特点:
- 完全依照OpenAI API规范:支持OpenAI官方界说的全部尺度参数(如model、messages、temperature等),开发者可以直接使用现有的OpenAI客户端库(如Python SDK)举行交互,无需额外适配。
- 服务化摆设便捷:通过MindIE Server可直接摆设符合OpenAI尺度的API服务,支持HTTPS通讯,实用于须要严酷依照OpenAI生态的场景。
- 实用场景:实用于渴望与现有OpenAI生态无缝对接的开发者,或须要完备OpenAI功能(如tools、tool_choice等参数)的项目。
示例代码(直接使用OpenAI客户端):
- from openai import OpenAI
- client = OpenAI(base_url="http://localhost:8000/v1", api_key="token-abc123")
- completion = client.chat.completions.create(
- model="NousResearch/Meta-Llama-3-8B-Instruct",
- messages=[{"role": "user", "content": "Hello!"}]
- )
复制代码 2. 兼容vLLM OpenAI接口
- 焦点特点:
- 基于vLLM框架扩展:继承vLLM的高性能特性(如Continuous Batching和PagedAttention),但仅部分兼容OpenAI尺度参数,大概不支持某些参数(如tools)。
- 提供附加功能:支持vLLM独有的扩展参数(如best_of、use_beam_search),增强推理机动性。
- 摆设方式多样:支持通过Python或Docker启动服务,并与MindIE的NPU优化深度集成,得当寻求高性能和硬件加速的场景。
示例启动下令:
- vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123
复制代码 怎样选择?
- 优先选择兼容OpenAI接口:若须要与OpenAI生态完全兼容,或依赖其完备API参数(如工具调用)。
- 优先选择兼容vLLM接口:若需使用vLLM的加速特性(如动态批处理惩罚)或扩展参数,且能继承部分OpenAI参数缺失。
参考泉源:
- MindIE Service开发指南(昇腾社区)
- vLLM官方文档
- CSDN:基于MindIE的昇腾LLM推理实践
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
|