标题: LLamafactory API摆设与使用异步方式 API 调用优化大模型推理效率 [打印本页] 作者: 张国伟 时间: 2025-3-20 09:54 标题: LLamafactory API摆设与使用异步方式 API 调用优化大模型推理效率 背景先容
第三方大模型API
如今,市面上有许多第三方大模型 API 服务提供商,通过 API 接口向用户提供多样化的服务。这些平台不仅能提供更多类别和范例的模型选择,还因其用户规模较大,能够以更低的成本从原厂获得服务,再将其转售给用户。别的,这些服务商还支持一些海外 API 服务,例如 ChatGPT 等,为用户提供了更加广泛的选择。
https://www.gptapi.us/register?aff=9xEy
比如上述网站以 API 接口的情势对外提供的服务,比官方的 API 要便宜。
装包:
pip install langchain langchain_openai
复制代码
运行下述代码,完成上述网站的注册后,并填上述网站的 api_key 便可通过 python API 调用,就会收到 gpt-4o-mini 大模型的响应。
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
model="gpt-4o-mini",
base_url="https://www.gptapi.us/v1/",
api_key="sk-xxx", # 在这里填入你的密钥
)
res = llm.invoke("你是谁?请你简要做一下,自我介绍?")
print(res)
复制代码
先容
在摆设垂直范畴模型时,我们通常会对开源大模型举行微调,并获得相应的 LoRA 权重。在接下来的部分,我将先容如何使用 LLamafactory 将微调后的 LoRA 模型摆设为 API 服务。
在 Python 中调用 API 服务时,如果接纳同步方式举行请求,往往会导致请求速度较慢。因为同步方式需要在吸收到上一条请求的响应后,才能发起下一条请求。
为了解决这一题目,我将为大家先容如何通过异步请求的方式,在短时间内发送大量请求,从而提升 API 调用效率。
LLamafactory 摆设API