该部署工具是基于英伟达 Triton 框架专为服务器场景的大模型服务化部署而设计。它提供了支持 gRPC、HTTP 协议的服务接口,以及流式 Token 输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化(PTQ)等加速优化策略,为用户带来易用且高性能的部署体验。
该方法仅支持可一键跑通的模型列表中的模型进行一键启动推理服务。
为了避免模型过大导致的下载时间过长问题,我们直接提供了自动下载的脚本,支持下载后再启动服务进行推理。进入容器后根据单机或多机模型进行静态图下载。
MODEL_PATH
为指定模型下载的存储路径,可自行指定
model_name
为指定下载模型名称,具体支持模型可查看文档
Note:
- 请保证 shm-size >= 5,不然可能会导致服务启动失败
- 部署前请确认模型所需要的环境和硬件,请参考文档
A100部署示例
export MODEL_PATH=${MODEL_PATH:-$PWD}
export model_name=${model_name:-"deepseek-ai/DeepSeek-R1-Distill-Llama-8B/weight_only_int8"}
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
-v $MODEL_PATH:/models -e "model_name=${model_name}" \
-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.3 /bin/bash \
-c -ex 'start_server $model_name && tail -f /dev/null'
该服务化部署工具目前仅支持在 Linux 系统下部署,部署之前请确保系统有正确的 GPU 环境。
-
安装 docker 请参考 Install Docker Engine 选择对应的 Linux 平台安装 docker 环境。
-
安装 NVIDIA Container Toolkit 请参考 Installing the NVIDIA Container Toolkit 了解并安装 NVIDIA Container Toolkit。
NVIDIA Container Toolkit 安装成功后,参考 Running a Sample Workload with Docker 测试 NVIDIA Container Toolkit 是否可以正常使用。
为了方便部署,我们提供了 cuda12.4 与 cuda 11.8 的镜像,可以直接拉取镜像,或者使用我们提供的 Dockerfile
构建自定义镜像
cuda版本 | 支持硬件架构 | 镜像地址 | 支持的典型设备 |
---|---|---|---|
cuda11.8 | 70 75 80 86 | ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.3 | V100,T4,A100,A30,A10 |
cuda12.4 | 80 86 89 90 | ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.3 | A100,A30,A10,L20,H20,H100 |
导出后的模型放在任意文件夹下,以 /home/workspace/models_dir
为例
该部署工具为 PaddleNLP 静态图模型提供了高效的部署方案,模型静态图导出方案请参考:DeepSeek、LLaMA、Qwen、Mixtral ...
cd /home/workspace/models_dir
# 导出的模型目录结构如下所示,理论上无缝支持 PaddleNLP 导出的静态图模型,无需修改模型目录结构
# /opt/output/Serving/models
# ├── config.json # 模型配置文件
# ├── xxxx.model # 词表模型文件
# ├── special_tokens_map.json # 词表配置文件
# ├── tokenizer_config.json # 词表配置文件
# └── rank_0 # 保存模型结构和权重文件的目录
# ├── model.pdiparams
# └── model.pdmodel 或者 model.json # Paddle 3.0 版本模型为model.json,Paddle 2.x 版本模型为model.pdmodel
除了支持通过设置model_name
在启动时进行自动下载,服务提供脚本可以进行自行下载。部署时需指定环境变量MODEL_DIR
为模型下载存储路径
脚本所在路径/opt/output/download_model.py
(当前路径为镜像内路径)
注:模型下载依赖当前镜像的版本号,若在镜像内启动下载脚本无需配置,若直接从代码仓库拉取需配置环境变量tag
,当前默认下载的版本为3.0.0.b4
python download_model.py \
--model_name $model_name \
--dir $MODEL_PATH \
--nnodes 2 \
--mode "master" \
--speculate_model_path $MODEL_PATH
单机模型下载 以DeepSeek-R1 weight_only_int4 模型为例
export MODEL_PATH=${MODEL_PATH:-$PWD}
export model_name="deepseek-ai/DeepSeek-R1/weight_only_int4"
python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 1
多机模型下载 以DeepSeek-R1 2机 weight_only_int8 模型为例 node1 主节点
export MODEL_PATH=${MODEL_PATH:-$PWD}
export model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"
python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 2 --mode "master"
node2 副节点
export MODEL_PATH=${MODEL_PATH:-$PWD}
export model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"
python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 2 --mode "slave"
参数说明
字段名 | 字段类型 | 说明 | 是否必填 | 默认值 |
---|---|---|---|---|
model_name | str | 为指定下载模型名称,具体支持模型可查看文档 | 否 | deepseek-ai/DeepSeek-R1/weight_only_int4 |
dir | str | 模型存储地址 | 否 | downloads |
nnodes | int | 节点个数 | 否 | 1 |
mode | str | 下载模式用于区分多机的不同节点 | 否 | 仅支持 master 和 slave 两个值 |
speculate_model_path | str | 投机解码模型存储路径 | 否 | None |
创建容器之前,请检查 Docker 版本和 GPU 环境,确保 Docker 支持 --gpus all
参数。
将模型目录挂载到容器中,默认模型挂载地址为 /models/
,服务启动时可通过 MODEL_DIR
环境变量自定义挂载地址。
docker run --gpus all \
--name paddlenlp_serving \
--privileged \
--cap-add=SYS_PTRACE \
--network=host \
--shm-size=5G \
-v /home/workspace/models_dir:/models/ \
-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.3 bash
# 进入容器,检查GPU环境和模型挂载是否正常
docker exec -it paddlenlp_serving /bin/bash
nvidia-smi
ls /models/
根据需求和硬件信息,配置以下环境变量
# 单/多卡推理配置。自行修改。
## 如果是单卡推理,使用0卡,设置如下环境变量。
export MP_NUM=1
export CUDA_VISIBLE_DEVICES=0
## 如果是多卡推理,除了模型导出得满足2卡要求,同时设置如下环境变量。
# export MP_NUM=2
# export CUDA_VISIBLE_DEVICES=0,1
# 如部署场景无流式Token返回需求,可配置如下开关
# 服务将会将每个请求的所有生成Token一次性返回
# 降低服务逐个Token发送压力
# 默认关闭
# export DISABLE_STREAMING=1
# 配置数据服务。需要自行修改HTTP_PORT、GRPC_PORT、METRICS_PORT和INFER_QUEUE_PORT。(请事先检查端口可用)
export HEALTH_HTTP_PORT="8110" # 探活服务的http端口(当前仅用于健康检查、探活)
export SERVICE_GRPC_PORT="8811" # 模型推服务的grpc端口
export METRICS_HTTP_PORT="8722" # 模型服务中监督指标的端口
export INTER_PROC_PORT="8813" # 模型服务内部使用的端口
export SERVICE_HTTP_PORT="9965" # 服务请求HTTP端口号,如不配置,默认为-1,即服务只支持GRPC协议
# MAX_SEQ_LEN: 服务会拒绝input token数量超过MAX_SEQ_LEN的请求,并返回错误提示
# MAX_DEC_LEN: 服务会拒绝请求中max_dec_len/min_dec_len超过此参数的请求,并返回错误提示
export MAX_SEQ_LEN=8192
export MAX_DEC_LEN=1024
export BATCH_SIZE="48" # 设置最大Batch Size,模型可同时并发处理的最大输入数量,不能高于128
export BLOCK_BS="5" # 缓存Block支持的最大Query Batch Size,如果出现out of memory 错误,尝试减少该数值
export BLOCK_RATIO="0.75" # 一般可以设置成 输入平均Token数/(输入+输出平均Token数)
export MAX_CACHED_TASK_NUM="128" # 服务缓存队列最大长度,队列达到上限后,会拒绝新的请求,默认128
# 开启HTTP接口配置如下参数
export PUSH_MODE_HTTP_WORKERS="1" # HTTP服务进程数,在 PUSH_MODE_HTTP_PORT 配置的情况下有效,最高设置到8即可,默认为1
相比单机部署新增服务参数
export POD_IPS=10.0.0.1,10.0.0.2
export POD_0_IP=10.0.0.1
export MP_NNODE=2 # 节点数为2表明为2机服务
export MP_NUM=16 # 模型分片为16
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
更多请求参数请参考模型配置参数介绍
针对模型部署我们提供两种方案:
- 模型已保存在指定路径下进行部署
- 静态图自动下载部署
模型已保存在指定路径下进行部署
export MODEL_DIR=${MODEL_DIR:-"/models"}
start_server
# 重新启动服务前,需要停止服务,执行 stop_server
静态图自动下载部署
model_name
为指定下载模型名称,具体支持模型可查看文档
model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"
start_server $model_name
# 重新启动服务前,需要停止服务,执行 stop_server
- 启动 master node 主节点服务
- 依次启动其他节点的服务
启动命令与单机相同
若使用mpi 进行启动需提前配置各机器的ssh 可以正常访问
mpirun start_server
# 停止服务
mpirun stop_server
# port为上面启动服务时候指定的HEALTH_HTTP_PORT
> 测试前请确保服务IP和端口正确
live接口: (服务是否能正常接收请求)
http://127.0.0.1:8110/v2/health/live
health接口:(模型是否准备好推理)
http://127.0.0.1:8110/v2/health/ready
多机测试时需在主节点执行或者将ip 修改为主节点ip
import uuid
import json
import requests
ip = 127.0.0.1
service_http_port = "9965" # 服务配置的
url = f"http://{ip}:{service_http_port}/v1/chat/completions"
req_id = str(uuid.uuid1())
data_single = {
"text": "Hello, how are you?",
"req_id": req_id,
"max_dec_len": 64,
"stream": True,
}
# 逐token返回
res = requests.post(url, json=data_single, stream=True)
for line in res.iter_lines():
print(json.loads(line))
# 多轮对话
data_multi = {
"messages": [
{"role": "user", "content": "Hello, who are you"},
{"role": "system", "content": "I'm a helpful AI assistant."},
{"role": "user", "content": "List 3 countries and their capitals."},
],
"req_id": req_id,
"max_dec_len": 64,
"stream": True,
}
# 逐token返回
res = requests.post(url, json=data_multi, stream=True)
for line in res.iter_lines():
print(json.loads(line))
更多请求参数请参考请求参数介绍
如果stream为True,流式返回
如果正常,返回{'token': xxx, 'is_end': xxx, 'send_idx': xxx, ..., 'error_msg': '', 'error_code': 0}
如果异常,返回{'error_msg': xxx, 'error_code': xxx},error_msg字段不为空,error_code字段不为0
如果stream为False,非流式返回
如果正常,返回{'tokens_all': xxx, ..., 'error_msg': '', 'error_code': 0}
如果异常,返回{'error_msg': xxx, 'error_code': xxx},error_msg字段不为空,error_code字段不为0
我们提供了 OpenAI 客户端的支持,使用方法如下:
import openai
ip = 127.0.0.1
service_http_port = "9965" # 服务配置的
client = openai.Client(base_url=f"http://{ip}:{service_http_port}/v1/chat/completions", api_key="EMPTY_API_KEY")
# 非流式返回
response = client.completions.create(
model="default",
prompt="Hello, how are you?",
max_tokens=50,
stream=False,
)
print(response)
print("\n")
# 流式返回
response = client.completions.create(
model="default",
prompt="Hello, how are you?",
max_tokens=100,
stream=True,
)
for chunk in response:
if chunk.choices[0] is not None:
print(chunk.choices[0].text, end='')
print("\n")
# Chat completion
# 非流式返回
response = client.chat.completions.create(
model="default",
messages=[
{"role": "user", "content": "Hello, who are you"},
{"role": "system", "content": "I'm a helpful AI assistant."},
{"role": "user", "content": "List 3 countries and their capitals."},
],
temperature=0,
max_tokens=64,
stream=False,
)
print(response)
print("\n")
# 流式返回
response = client.chat.completions.create(
model="default",
messages=[
{"role": "user", "content": "Hello, who are you"},
{"role": "system", "content": "I'm a helpful AI assistant."},
{"role": "user", "content": "List 3 countries and their capitals."},
],
temperature=0,
max_tokens=64,
stream=True,
)
for chunk in response:
if chunk.choices[0].delta is not None:
print(chunk.choices[0].delta.content, end='')
print("\n")
为了方便用户构建自定义服务,我们提供了基于 dockerfile 创建自己的镜像的脚本。
git clone https://github.com/PaddlePaddle/PaddleNLP.git
cd PaddleNLP/llm/server
docker build --network=host -f ./dockerfiles/Dockerfile_serving_cuda124_cudnn9 -t llm-serving-cu124-self .
创建自己的镜像后,可以基于该镜像创建容器
字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | 备注 |
---|---|---|---|---|---|
MP_NNODE | int | 节点个数 | 否 | 1 | 与机器个数相同 |
MP_NUM | int | 模型并行度 | 否 | 8 | CUDA_VISIBLE_DEVICES 需配置对应卡数 |
CUDA_VISIBLE_DEVICES | str | 使用 GPU 编号 | 否 | 0,1,2,3,4,5,6,7 | |
POD_IPS | str | 多机每个结点的ip | 否 | 无 | 多机时必填,示例: "10.0.0.1,10.0.0.2" |
POD_0_IP | str | 多机中主节点IP | 否 | 无 | 多机时必填,示例: "10.0.0.1" 该IP 必须存在在POD_IPS 中 |
HEALTH_HTTP_PORT | int | 探活服务的 http 端口 | 是 | 无 | 当前仅用于健康检查、探活 (3.0.0版本前镜像使用HTTP_PORT) |
SERVICE_GRPC_PORT | int | 模型推服务的 grpc 端口 | 是 | 无 | (3.0.0版本前镜像使用GRPC_PORT) |
METRICS_HTTP_PORT | int | 模型服务中监督指标的端口 | 是 | 无 | (3.0.0版本前镜像使用METRICS_PORT) |
INTER_PROC_PORT | int | 模型服务内部使用的端口 | 否 | 56666 | (3.0.0版本前镜像使用INTER_QUEUE_PORT) |
SERVICE_HTTP_PORT | int | 服务请求 HTTP 端口号 | 否 | 9965 | (3.0.0版本前镜像使用PUSH_MODE_HTTP_PORT) |
DISABLE_STREAMING | int | 是否使用流式返回 | 否 | 0 | |
MAX_SEQ_LEN | int | 最大输入序列长度 | 否 | 8192 | 服务会拒绝 input token 数量超过 MAX_SEQ_LEN 的请求,并返回错误提示 |
MAX_DEC_LEN | int | 最大 decoder 序列长度 | 否 | 1024 | 服务会拒绝请求中 max_dec_len/min_dec_len 超过此参数的请求,并返回错误提示 |
BATCH_SIZE | int | 最大 Batch Size | 否 | 50 | 模型可同时并发处理的最大输入数量,不能高于128 |
BLOCK_BS | int | 缓存 Block 支持的最大 Query Batch Size | 否 | 50 | 如果出现 out of memory 错误,尝试减少该数值 |
BLOCK_RATIO | float | 否 | 0.75 | 建议设为输入长度占总长度的比例 | |
MAX_CACHED_TASK_NUM | int | 服务缓存队列最大长度 | 否 | 128 | 队列达到上限后,会拒绝新的请求 |
PUSH_MODE_HTTP_WORKERS | int | HTTP 服务进程数 | 否 | 1 | 在 配置的情况下有效,高并发下提高该数值,建议最高配置为8 |
USE_WARMUP | int | 是否进行 warmup | 否 | 0 | |
USE_HF_TOKENIZER | int | 是否进行使用 huggingface 的词表 | 否 | 0 | |
USE_CACHE_KV_INT8 | int | 是否将 INT8配置为 KV Cache 的类型 | 否 | 0 | c8量化模型需要配置为1 |
MODEL_DIR | str | 模型文件路径 | 否 | /models/ | |
model_name | str | 模型名称 | 否 | 无 | 用于支持模型静态图下载,具体名称参考文档(#./static_models.md) |
OUTPUT_LOG_TO_CONSOLE | str | 是否定向输出到console 文件中 | 否 | 0 |
- BLOCK_BS:设定 cacheKV block 的数量,服务支持的输入、输出的总 token 数为 NUM_TOTAL_TOKEN = BLOCK_BS * INFER_MODEL_MAX_SEQ_LEN
- 例如 8K 的模型 BLOCK_BS 设为 40,则共可以支持 40*8 = 320K 的 token 长度
- 例如 8K 的模型推荐配置 BLOCK_BS设为 40,运行 32K 的模型,支持的总 token 数不变,则 BLOCK_BS 设为 40 / (32K/8K) = 10,考虑到输入长度变化,影响激活峰值显存,可适当下调到 8 或 9
- BLOCK_RATIO: block 分配给 encoder 和 decoder 的比例,建议设为 (平均输入长度+128) /(平均输入长度 + 平均输出长度) * EXTEND_RATIO,其中 EXTEND_RATIO 是超参,在大部分情况中,设为1即可,如输入长度方差较大,可根据具体情况设为 1.1~1.3
- 例如一份平均输入 300,平均输出 1500,则 block_ratio 推荐值为 (300 + 128) / (300 + 1500) ≈ 0.25
- BATCH_SIZE: 一般小于 NUM_TOTAL_TOKEN / (平均输入长度 + 平均输出长度)
GPU 显存 | 部署模型 | 静态图权重 | 节点数 | 量化类型 | 导出长度 | 是否 MTP | MTP 量化类型 | 推荐 block_bs |
---|---|---|---|---|---|---|---|---|
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1/a8w8_fp8_wint4 | 1 | a8w8_fp8_wint4 | 8K | 否 | - | 40 |
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP/a8w8_fp8_wint4 | 1 | a8w8_fp8_wint4 | 8K | 是 | a8w8_fp8 | 36 |
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1/weight_only_int4 | 1 | weight_only_int4 | 8K | 否 | - | 40 |
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP/weight_only_int4 | 1 | weight_only_int4 | 8K | 是 | weight_only_int8 | 36 |
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-2nodes/a8w8_fp8 | 2 | a8w8_fp8 | 8K | 否 | - | 50 |
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP-2nodes/a8w8_fp8 | 2 | a8w8_fp8 | 8K | 是 | a8w8_fp8 | 36 |
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8 | 2 | weight_only_int8 | 8K | 否 | - | 40 |
80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP-2nodes/weight_only_int8 | 2 | weight_only_int8 | 8K | 是 | weight_only_int8 | 36 |
字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | 备注 |
---|---|---|---|---|---|
req_id | str | 请求 ID,用于标识一个请求。建议设置 req_id,保证其唯一性 | 否 | 随机 id | 如果推理服务中同时有两个相同 req_id 的请求,会返回 req_id 重复的错误信息 |
text | str | 请求的文本 | 否 | 无 | text 和 messages 必须有一个 |
messages | str | 多轮对话文本 | 否 | 无 | 多轮对话以 list 方式存储 |
max_dec_len | int | 最大生成 token 的长度,如果请求的文本 token 长度加上 max_dec_len 大于模型的 max_seq_len,会返回长度超限的错误信息 | 否 | max_seq_len 减去文本 token 长度 | |
min_dec_len | int | 最小生成 token 的长度,最小是1 | 否 | 1 | |
topp | float | 控制随机性参数,数值越大则随机性越大,范围是0~1 | 否 | 0.7 | |
temperature | float | 控制随机性参数,数值越小随机性越大,需要大于 0 | 否 | 0.95 | |
frequency_score | float | 频率分数 | 否 | 0 | |
penalty_score | float | 惩罚分数 | 否 | 1 | |
presence_score | float | 存在分数 | 否 | 0 | |
stream | bool | 是否流式返回 | 否 | False | |
timeout | int | 请求等待的超时时间,单位是秒 | 否 | 300 | |
return_usage | bool | 是否返回输入、输出 token 数量 | 否 | False |
- 服务支持 GRPC 和 HTTP 两种请求服务
- stream 参数仅对 HTTP 请求生效