配景
现在,和 DeepSeek 相干的需求总结为两类:
- 因官方 APP/Web 服务经常无法返回结果,各类云厂商、硬件或软件企业提供满血版或蒸馏版的 API + 算力服务,还有不少基于开源+家用计算和存储装备的本地摆设方案,以分担 DeepSeek 官方的服务压力。
- 各行各业开始调用 DeepSeek API 来设计大模型应用,服务于企业表里部,关注应用的构建效率和稳定性。
此前,我们已经针对以上的第一点需求,发布了不少云端和本地的摆设;本篇文章,将针对第二点需求,谈谈流量管理层的工程化方案。
DeepSeek 摆设
由于 DeepSeek 开源了完整的 DeepSeek-R1 模型权重,企业可以将模型摆设到本身的网络内,从而使得整个 AI 应用的数据链路都把握在本身手里。
模型权重下载
可以通过魔搭社区 (https://modelscope.cn/) 下载模型权重。
由于完整的 DeepSeek-R1 模型有 671B 参数,运行其全量参数模型必要大量的 GPU 资源,可以思量通过 int8/int4 等量化方式推理。同时,DeepSeek 也放出了几个不同规格的蒸馏模型,可以在较低配置的机器上摆设。
摆设方案
阿里云官方已经提供了多种摆设方式,包括 PAI、GPU + ACK、魔搭社区+FC、Spring AI Alibaba + Ollama。本文不再详细展开,感爱好的朋友可自行选择下方链接,了解详情。
- PAI:https://mp.weixin.qq.com/s/Ly9bseQxhmunlbePphRsnA
- 百炼:https://mp.weixin.qq.com/s/UgB90HfKlMDfarMugc5F5w
- 容器化摆设(GPU + ACK):https://mp.weixin.qq.com/s/SSGD5G7KL8iYLy2jxh9FOg
- Serverless 摆设(魔搭社区+FC):https://mp.weixin.qq.com/s/yk5t0oIv7XQR0ky6phiq6g
- 本地摆设(Spring AI Alibaba + Ollama + Higress):https://mp.weixin.qq.com/s/-8z9OFHvn0A1ga2rFsmeww
通过 PAI 摆设
本方案以 DeepSeek-R1-Distill-Qwen-7B 为例进行演示,用户通过人工智能平台 PAI 的 Model Gallery,无须写代码即可完成模型摆设。用户也可以在 PAI-Model Gallery 中选择 DeepSeek-R1 等其他模型进行一键摆设,系统将自动适配所需的实例规格。
摆设指南:https://www.aliyun.com/solution/tech-solution-deploy/2868642
通过百炼摆设
百炼提供了 DeepSeek 模型调用的 API,其中 DeepSeek-R1 与 DeepSeek-V3 分别有 100 万的免费 Token,另有多款开源 Qwen 及 Llama 蒸馏模型支持调用。
摆设指南:https://www.aliyun.com/solution/tech-solution-deploy/2868889
通过 GPU 服务器摆设
将 DeepSeek-R1 开源模型摆设到 GPU 云服务器。在 GPU 云服务器上安装与配置 vLLM 和 Open WebUI。vLLM 负责托管 DeepSeek-R1 模型,Open WebUI 则为用户提供友爱的交互界面。
摆设指南:https://www.aliyun.com/solution/tech-solution-deploy/2868645
通过 Serverless 范式摆设
通过云原生应用开辟平台 CAP 摆设 Ollama 和 Open WebUI 两个 FC 函数。Ollama 负责托管模型,它是基于 DeepSeek-R1 的推理本领,通过蒸馏技能将推理模式迁徙到较小的 Qwen 模型上,从而在保持高效性能的同时降低了计算成本。
摆设指南:https://www.aliyun.com/solution/tech-solution-deploy/2868644
本地摆设
下载 Ollama,在项目中加入 spring-ai-ollama-spring-boot-starter 依靠,由于模型是通过 ollama 运行的,这里我们也加入,再将 ChatClientBean 注入就可以实现与 DS 模型谈天了。
摆设指南:https://java2ai.com/blog/spring-ai-alibaba-ollama-deepseek
大模型应用落地过程中的常见需求
和摆设 Web 应用一样,当我们在摆设大模型应用时,也会遇到诸如流量突发与过载、网络颠簸与延迟、安全与合规问题、调用额度和成本管控、发布引起的线上故障等工程化难题,但是由于大模型应用的架构和 Web 应用有所不同,因此应对方案也会有所差别。如下图。
在《大模型推理全景图》一文中,我们分享了流量管控对大模型应用工程化的紧张性,而 AI 网关已经成了大模型应用的标配,通过 AI 网关将摆设的模型作为服务注册,API 暴露给必要的调用方,同时并具备了限流、鉴权、统计等本领。接下来,我们来看看 AI 网关如何办理大模型应用落地过程中的工程化难题。
Higress 是阿里云开源的一款高性能的网关,用于摆设 Web 应用和大模型应用,并提供商业版服务,即阿里云云原生 API 网关,本文将以云原生 API 网关的控制台进行演示。
需求一:自建的 DeepSeek 服务并发有限,调用失败怎么兜底?
DeepSeek-R1 拥有 671B 的庞大参数,摆设成本较高,可以摆设一些 R1 系列的蒸馏模型进行兜底,如基于 Qwen 模型训练的 DeepSeek-R1-Distill-Qwen-32B [ 1] 是个不错的选择。
云原生 API 网关中的 AI 网关支持配置多个后端模型服务,且可以通过 Fallback 本领将失败的哀求重新调度,如调用自摆设的 DeepSeek-R1 失败后,就可以路由至一些参数较小的模型。此外,也可以选择路由至在线 API 服务以确保整体服务本领,如 DeepSeek-V3、Qwen-max 等。
如图,配置了 DeepSeek 的服务,Fallback 策略为调用 qwen-max。
需求二:自建的 DeepSeek 服务怎么保证内容安全?
DeepSeek 的 R1 系列开源模型的输出风格整体是偏“自由”的,假如使用其提供对外服务,不免会有对内容安全的担忧,一旦模型对一些敏感问题做了复兴,可能会为企业带来一些额外的解释成本。
云原生 API 网关对接了阿里云内容安全,可以大概做到对大模型哀求/相应的实时处理与内容封禁,阿里云内容安全通过了信通院的认证,可以大概提供强有力的 AI 内容安全保障。
开启内容安全后,此时假如发送违规内容,将会得到如下相应:
- {
- "id": "chatcmpl-E45zRLc5hUCxhsda4ODEhjvkEycC9",
- "object": "chat.completion",
- "model": "from-security-guard",
- "choices": [
- {
- "index": 0,
- "message": {
- "role": "assistant",
- "content": "我不能处理隐私信息"
- },
- "logprobs": null,
- "finish_reason": "stop"
- }
- ],
- "usage": {
- "prompt_tokens": 0,
- "completion_tokens": 0,
- "total_tokens": 0
- }
- }
复制代码 同时,在内容安全控制台可以检察每一个哀求的审计日志:
需求三:我想把 API 授权给特定的用户使用,并且控制他们的额度
基于云原生 API 网关的消耗者鉴权本领支持模型服务的分租,用户可以像模型服务商一样在网关上签发本身的 API Key 供用户使用,并可以大概控制消耗者的调用权限和调用额度,配合可观测本领,还可以对每个消耗者的 token 用量进行观测统计。
对于在线模型服务,则可以通过此功能屏蔽掉模型提供商的 API Key,从而做到 API Key 的分租。
需求四:现在已经有在使用别的 LLM,想切一点流量到 DeepSeek 看看结果
云原生 API 网关支持模型按比例灰度本领,便于用户在模型间迁徙,如下图所示,哀求流量将有 90% 被路由到 openai,10% 被路由到 DeepSeek,后续灰度的切换也只需修改配置并发布,不必要做任何代码层级的变更。
需求五:摆设模型推理的成本很高,常见的哀求能用缓存挡掉就好了
云原生 API 网关支持对 LLM 生产结果进行缓存,开启缓存本领后,一些常用的哀求,如打招呼、询问产品本领等,均可通过命中的缓存直接复兴,不会进入到后端模型,占用宝贵的推理资源。
上面的这些本领怎么看结果呢?
云原生 API 网关提供了更丰富的可观测本领,例如内容安全、限流、缓存等相干的监控。
此外,我们联合 SLS 提供了基于大模型对话的语义向量索引功能以及进阶的语义富化功能,可以实现话题聚类、意图识别、感情识别、质量评估等本领,帮助用户逐步提升模型应用结果。
相干链接:
[1] DeepSeek-R1-Distill-Qwen-32B
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |