Skip to content

Latest commit

 

History

History
49 lines (35 loc) · 1.29 KB

installation.md

File metadata and controls

49 lines (35 loc) · 1.29 KB

高性能推理算子安装

git clone 代码到本地:

git clone https://github.com/PaddlePaddle/PaddleNLP.git
export PYTHONPATH=/path/to/PaddleNLP:$PYTHONPATH

PaddleNLP 针对于 Transformer 系列编写了高性能自定义算子,提升模型在推理和解码过程中的性能,使用之前需要预先安装自定义算子库:

# GPU设备安装自定义算子
cd PaddleNLP/csrc && python setup_cuda.py install
# XPU设备安装自定义算子
cd PaddleNLP/csrc/xpu/src && sh cmake_build.sh
# DCU设备安装自定义算子
cd PaddleNLP/csrc && python setup_hip.py install
# SDAA设备安装自定义算子
cd PaddleNLP/csrc/sdaa && python setup_sdaa.py install

安装triton依赖

pip install triton # 推荐 3.2.0

python -m pip install git+https://github.com/zhoutianzi666/UseTritonInPaddle.git

# 仅需执行 一次 如下命令,之后在任意终端都可以使用triton。无需重复执行
python -c "import use_triton_in_paddle; use_triton_in_paddle.make_triton_compatible_with_paddle()"

到达运行目录,即可开始:

cd PaddleNLP/llm

大模型推理教程:

获取最佳推理性能: