如何配置参数使服务处理请求并发数最大化 #494

xiaoshizijiayou · 2024-10-21T09:16:16Z

目前使用默认参数验证，40个线程同时请求，最大响应为1.3s左右，平均为600ms左右；20个线程同时请求，最大响应为0.9s左右平均为400ms左右；是不是以下参数可以优化？
python3 -m ftllm.server -t 16 -p /root/Qwen2-0.5B-Instruct --port 8000 --model_name Qwen2-0.5B-Instruct --device cuda --cuda_embedding --lora /root/adatper/checkpoint-2000

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何配置参数使服务处理请求并发数最大化 #494

如何配置参数使服务处理请求并发数最大化 #494

xiaoshizijiayou commented Oct 21, 2024

如何配置参数使服务处理请求并发数最大化 #494

如何配置参数使服务处理请求并发数最大化 #494

Comments

xiaoshizijiayou commented Oct 21, 2024