Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问,一张卡为什么无法加载多个模型? #2893

Open
Jimmy-L99 opened this issue Feb 19, 2025 · 6 comments
Open

请问,一张卡为什么无法加载多个模型? #2893

Jimmy-L99 opened this issue Feb 19, 2025 · 6 comments
Milestone

Comments

@Jimmy-L99
Copy link

Feature request / 功能建议

如题,我用xinference vllm框架在A100*2运行了deepseek-r1-qwen-distill-32B,双卡各占用50%。此时两张卡都剩余50%显存。我再用xinference运行一个bge-m3 embedding模型,GPU 0或者1都设置过了,点击运行的时候显示0/1已被deepseek-r1-qwen-distill-32B占用。

所以,请教一下,是强制要求专卡专用吗还是设置上有问题。

Motivation / 动机

Your contribution / 您的贡献

@XprobeBot XprobeBot added the gpu label Feb 19, 2025
@XprobeBot XprobeBot added this to the v1.x milestone Feb 19, 2025
@GreenerZ
Copy link

先启动embedding,再启动llm

此外,xinference有一个限制是,一张卡无法加载多个llm模型,包括chat,vl以及其他语音stt,tts,图片生成等模型

@jackleeforce
Copy link

这个问题我的解决办法是再启用一个xinference 实例,如果是docker部署,就再启动一个xinference 容器,端口不一样。 这样就可以在同一张卡上运行多个模型,只要显存够。

@ascacl
Copy link

ascacl commented Feb 21, 2025

这个问题我的解决办法是再启用一个xinference 实例,如果是docker部署,就再启动一个xinference 容器,端口不一样。 这样就可以在同一张卡上运行多个模型,只要显存够。

麻烦问下你用的什么版本?我1.0.0的版本就这么干的,升级到1.2.2就不可以了

@jackleeforce
Copy link

这个问题我的解决办法是再启用一个xinference 实例,如果是docker部署,就再启动一个xinference 容器,端口不一样。 这样就可以在同一张卡上运行多个模型,只要显存够。

麻烦问下你用的什么版本?我1.0.0的版本就这么干的,升级到1.2.2就不可以了

我用的就是1.2.2的docker部署方式, 分别启了三个容器,三个容器上分别部署了LLM, Whisper, TTS

@ascacl
Copy link

ascacl commented Feb 21, 2025

这个问题我的解决办法是再启用一个xinference 实例,如果是docker部署,就再启动一个xinference 容器,端口不一样。 这样就可以在同一张卡上运行多个模型,只要显存够。

麻烦问下你用的什么版本?我1.0.0的版本就这么干的,升级到1.2.2就不可以了

我用的就是1.2.2的docker部署方式, 分别启了三个容器,三个容器上分别部署了LLM, Whisper, TTS

那可能不同模型可以,相同模型好像不行

@Jimmy-L99
Copy link
Author

这个问题我的解决办法是再启用一个xinference 实例,如果是docker部署,就再启动一个xinference 容器,端口不一样。 这样就可以在同一张卡上运行多个模型,只要显存够。

whisper和tts我不太清楚,上面@GreenerZ 的方法对我来说挺有用,因为我是embedding和llm,先开embedding后就可以开llm了,反之不行。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants