启动后,API Server将监听默认的端口(通常是5000),你可以通过HTTP请求与模子举行交互。
调用API Server
API Server提供了几个主要的API端点,以下是一些常用的API调用示例:
生成文本:
curl -X POST "http://localhost:5000/generate" -H "Content-Type: application/json" -d '{"prompt": "Once upon a time", "max_length": 100}'
复制代码
这个请求将根据输入的提示“Once upon a time”生成最多100个字符的文本。
批量生成文本:
curl -X POST "http://localhost:5000/generate_batch" -H "Content-Type: application/json" -d '{"prompts": ["Once upon a time", "In a land far away"], "max_length": 100}'
练习速率:练习速率是衡量模子练习服从的重要指标。它通常以每秒处理的样本数(samples per second)或每秒处理的令牌数(tokens per second)来表示。进步练习速率可以通过增加批量大小(batch size)、利用更高效的优化器、或者利用混合精度练习等方法来实现。
推理速率:推理速率是衡量模子在实际应用中相应速率的指标。它通常以每秒处理的请求数(requests per second)或每秒处理的令牌数(tokens per second)来表示。推理速率的优化可以通过模子量化(quantization)、剪枝(pruning)、或者利用更高效的推理引擎(如TensorRT)等方法来实现。