-
Notifications
You must be signed in to change notification settings - Fork 533
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问,一张卡为什么无法加载多个模型? #2893
Comments
先启动embedding,再启动llm 此外,xinference有一个限制是,一张卡无法加载多个llm模型,包括chat,vl以及其他语音stt,tts,图片生成等模型 |
这个问题我的解决办法是再启用一个xinference 实例,如果是docker部署,就再启动一个xinference 容器,端口不一样。 这样就可以在同一张卡上运行多个模型,只要显存够。 |
麻烦问下你用的什么版本?我1.0.0的版本就这么干的,升级到1.2.2就不可以了 |
我用的就是1.2.2的docker部署方式, 分别启了三个容器,三个容器上分别部署了LLM, Whisper, TTS |
那可能不同模型可以,相同模型好像不行 |
whisper和tts我不太清楚,上面@GreenerZ 的方法对我来说挺有用,因为我是embedding和llm,先开embedding后就可以开llm了,反之不行。 |
Feature request / 功能建议
如题,我用xinference vllm框架在A100*2运行了deepseek-r1-qwen-distill-32B,双卡各占用50%。此时两张卡都剩余50%显存。我再用xinference运行一个bge-m3 embedding模型,GPU 0或者1都设置过了,点击运行的时候显示0/1已被deepseek-r1-qwen-distill-32B占用。
所以,请教一下,是强制要求专卡专用吗还是设置上有问题。
Motivation / 动机
Your contribution / 您的贡献
The text was updated successfully, but these errors were encountered: