Skip to content

Triton Inference Server 실행하는 법

Gyutae Oh edited this page Nov 9, 2024 · 3 revisions

현재는 사용하지 않음, 참고


도커 설치후 다음 스텝 밟기

서버실행 명령어

sudo docker run --privileged --shm-size=1g --ulimit memlock=-1 \
   -v /home/guest/marhaedgh/vllm_backend:/opt/tritonserver/vllm_backend \
   -p 8000:8000 -p 8001:8001 -p 8002:8002 --ulimit stack=67108864 -ti nvcr.io/nvidia/tritonserver:24.01-vllm-python-py3

컨테이너 실행시 사용할 것

$ pip3 install -i https://pypi.rbln.ai/simple rebel-compiler==0.5.12 optimum-rbln==0.1.12 vllm-rbln==0.1.0
$ tritonserver --model-repository /opt/tritonserver/vllm_backend/samples/model_repository

주의

컨테이너에서 작업시 pip update 꼭 해줄것.
huggingface login 해주기 컨테이너에서 model.json 참고시 해당 컨테이너 기준 절대경로로 붙여넣을 것.


간소화(도커 이미지로 만들어서 다음 명령어만 치면 됨)

sudo docker run --privileged --shm-size=1g --ulimit memlock=-1 \
   -v /home/guest/marhaedgh/vllm_backend:/opt/tritonserver/vllm_backend \
   -p 8000:8000 -p 8001:8001 -p 8002:8002 --ulimit stack=67108864 -ti test-image1:v1.0.0
$ tritonserver --model-repository /opt/tritonserver/vllm_backend/samples/model_repository
Clone this wiki locally