-
Notifications
You must be signed in to change notification settings - Fork 0
Triton Inference Server 실행하는 법
Gyutae Oh edited this page Nov 9, 2024
·
3 revisions
현재는 사용하지 않음, 참고
도커 설치후 다음 스텝 밟기
서버실행 명령어
sudo docker run --privileged --shm-size=1g --ulimit memlock=-1 \
-v /home/guest/marhaedgh/vllm_backend:/opt/tritonserver/vllm_backend \
-p 8000:8000 -p 8001:8001 -p 8002:8002 --ulimit stack=67108864 -ti nvcr.io/nvidia/tritonserver:24.01-vllm-python-py3
컨테이너 실행시 사용할 것
$ pip3 install -i https://pypi.rbln.ai/simple rebel-compiler==0.5.12 optimum-rbln==0.1.12 vllm-rbln==0.1.0
$ tritonserver --model-repository /opt/tritonserver/vllm_backend/samples/model_repository
컨테이너에서 작업시 pip update 꼭 해줄것.
huggingface login 해주기 컨테이너에서 model.json 참고시 해당 컨테이너 기준 절대경로로 붙여넣을 것.
간소화(도커 이미지로 만들어서 다음 명령어만 치면 됨)
sudo docker run --privileged --shm-size=1g --ulimit memlock=-1 \
-v /home/guest/marhaedgh/vllm_backend:/opt/tritonserver/vllm_backend \
-p 8000:8000 -p 8001:8001 -p 8002:8002 --ulimit stack=67108864 -ti test-image1:v1.0.0
$ tritonserver --model-repository /opt/tritonserver/vllm_backend/samples/model_repository