English | 简体中文
在线推理作为企业或个人线上部署模型的最后一环,是工业界必不可少的环节,其中最重要的就是服务化推理框架。FastDeploy 目前提供两种服务化部署方式:simple_serving和fastdeploy_serving
- simple_serving:适用于只需要通过http等调用AI推理任务,没有高并发需求的场景。simple_serving基于Flask框架具有简单高效的特点,可以快速验证线上部署模型的可行性
- fastdeploy_serving:适用于高并发、高吞吐量请求的场景。基于Triton Inference Server框架,是一套可用于实际生产的完备且性能卓越的服务化部署框架
补充说明:
- 文件名标记了
without-argmax
的模型,导出方式为:不指定--input_shape
,指定--output_op none
- 文件名标记了
with-argmax
的模型导出方式为:不指定--input_shape
,指定--output_op argmax
支持PaddleSeg高于2.6版本的Segmentation模型,如果部署的为PP-Matting、PP-HumanMatting以及ModNet请参考Matting模型部署。目前FastDeploy测试过成功部署的模型:
PaddleSeg模型导出,请参考其文档说明模型导出,注意:PaddleSeg导出的模型包含model.pdmodel
、model.pdiparams
和deploy.yaml
三个文件,FastDeploy会从yaml文件中获取模型在推理时需要的预处理信息
请参考模型导出中output_op
参数的说明,获取您部署所需的模型,比如是否带argmax
或softmax
算子