lmdeploy中TP设置成2时,当模型不能完全加载到一张显卡中,会对模型进行分层并加载到两张GPU中吗? #1474
Unanswered
hello-gary-2022
asked this question in
Q&A
Replies: 1 comment
-
Tensor Parallelism |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
在lmdeploy中,通过TP可以指定GPU数为2。 如果一个模型不能直接加载到单个GPU的显卡中,这个参数会把模型进行分层,并加载到两个GPU的显存中进行推理吗? lmdeploy是否可以加载模型并进行推理,这里的TP是指纯粹的张量并行,还是也包含模型并行?
例如 , 在case2中,lmdeploy的运行结果和原理是什么样的?
硬件:T4 GPU * 2 ,显存都为16G
case 1:
1. 设置推理时的TP=1
2. 加载一个精度为fp16,参数为14B的模型进行推理时 , 使用单个GPU无法加载这个模型。
case 2:
1. 设置推理时的TP=2
2. 加载一个精度为fp16,参数为14B的模型进行推理时 ,运行结果和原理是?
Beta Was this translation helpful? Give feedback.
All reactions