和摆设 Web 应用一样,当我们在摆设大模型应用时,也会遇到诸如流量突发与过载、网络颠簸与延迟、安全与合规问题、调用额度和成本管控、发布引起的线上故障等工程化难题,但是由于大模型应用的架构和 Web 应用有所不同,因此应对方案也会有所差别。如下图。
在《大模型推理全景图》一文中,我们分享了流量管控对大模型应用工程化的紧张性,而 AI 网关已经成了大模型应用的标配,通过 AI 网关将摆设的模型作为服务注册,API 暴露给必要的调用方,同时并具备了限流、鉴权、统计等本领。接下来,我们来看看 AI 网关如何办理大模型应用落地过程中的工程化难题。
Higress 是阿里云开源的一款高性能的网关,用于摆设 Web 应用和大模型应用,并提供商业版服务,即阿里云云原生 API 网关,本文将以云原生 API 网关的控制台进行演示。
需求一:自建的 DeepSeek 服务并发有限,调用失败怎么兜底?
DeepSeek-R1 拥有 671B 的庞大参数,摆设成本较高,可以摆设一些 R1 系列的蒸馏模型进行兜底,如基于 Qwen 模型训练的 DeepSeek-R1-Distill-Qwen-32B [1] 是个不错的选择。
云原生 API 网关中的 AI 网关支持配置多个后端模型服务,且可以通过 Fallback 本领将失败的哀求重新调度,如调用自摆设的 DeepSeek-R1 失败后,就可以路由至一些参数较小的模型。此外,也可以选择路由至在线 API 服务以确保整体服务本领,如 DeepSeek-V3、Qwen-max 等。
DeepSeek 的 R1 系列开源模型的输出风格整体是偏“自由”的,假如使用其提供对外服务,不免会有对内容安全的担忧,一旦模型对一些敏感问题做了复兴,可能会为企业带来一些额外的解释成本。
云原生 API 网关对接了阿里云内容安全,可以大概做到对大模型哀求/相应的实时处理与内容封禁,阿里云内容安全通过了信通院的认证,可以大概提供强有力的 AI 内容安全保障。
开启内容安全后,此时假如发送违规内容,将会得到如下相应:
{
"id": "chatcmpl-E45zRLc5hUCxhsda4ODEhjvkEycC9",
"object": "chat.completion",
"model": "from-security-guard",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "我不能处理隐私信息"
},
"logprobs": null,
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 0,
"completion_tokens": 0,
"total_tokens": 0
}
}
复制代码
同时,在内容安全控制台可以检察每一个哀求的审计日志:
需求三:我想把 API 授权给特定的用户使用,并且控制他们的额度
基于云原生 API 网关的消耗者鉴权本领支持模型服务的分租,用户可以像模型服务商一样在网关上签发本身的 API Key 供用户使用,并可以大概控制消耗者的调用权限和调用额度,配合可观测本领,还可以对每个消耗者的 token 用量进行观测统计。
对于在线模型服务,则可以通过此功能屏蔽掉模型提供商的 API Key,从而做到 API Key 的分租。
需求四:现在已经有在使用别的 LLM,想切一点流量到 DeepSeek 看看结果
云原生 API 网关支持模型按比例灰度本领,便于用户在模型间迁徙,如下图所示,哀求流量将有 90% 被路由到 openai,10% 被路由到 DeepSeek,后续灰度的切换也只需修改配置并发布,不必要做任何代码层级的变更。
需求五:摆设模型推理的成本很高,常见的哀求能用缓存挡掉就好了
云原生 API 网关支持对 LLM 生产结果进行缓存,开启缓存本领后,一些常用的哀求,如打招呼、询问产品本领等,均可通过命中的缓存直接复兴,不会进入到后端模型,占用宝贵的推理资源。
上面的这些本领怎么看结果呢?