git clone 代码到本地:
git clone https://github.com/PaddlePaddle/PaddleNLP.git
export PYTHONPATH=/path/to/PaddleNLP:$PYTHONPATH
PaddleNLP 针对于 Transformer 系列编写了高性能自定义算子,提升模型在推理和解码过程中的性能,使用之前需要预先安装自定义算子库:
# GPU设备安装自定义算子
cd PaddleNLP/csrc && python setup_cuda.py install
# XPU设备安装自定义算子
cd PaddleNLP/csrc/xpu/src && sh cmake_build.sh
# DCU设备安装自定义算子
cd PaddleNLP/csrc && python setup_hip.py install
# SDAA设备安装自定义算子
cd PaddleNLP/csrc/sdaa && python setup_sdaa.py install
安装triton依赖
pip install triton # 推荐 3.2.0
python -m pip install git+https://github.com/zhoutianzi666/UseTritonInPaddle.git
# 仅需执行 一次 如下命令,之后在任意终端都可以使用triton。无需重复执行
python -c "import use_triton_in_paddle; use_triton_in_paddle.make_triton_compatible_with_paddle()"
到达运行目录,即可开始:
cd PaddleNLP/llm
大模型推理教程:
获取最佳推理性能: