Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

question: 关于DP支持的疑问 #635

Open
wangxiyuan opened this issue Nov 22, 2024 · 2 comments
Open

question: 关于DP支持的疑问 #635

wangxiyuan opened this issue Nov 22, 2024 · 2 comments

Comments

@wangxiyuan
Copy link

为什么寒武纪的dp cambricon-device-plugin是用的原生的,但昇腾、NV的dp是HAMI自己写的?昇腾、NV原生的DP不适配吗,什么原因?

@Nimbus318
Copy link
Contributor

我们的调度 GPU 资源的前提,首先就是 scheduler 可以从 Node 上可以解码出对应卡的相关信息,即 dp 能够注册上 scheduler
需要的数据:

  1. 无论是 Patch Annotation
  2. 或者通过 kubelet 需要 dp 实现的接口上报对应资源
  3. 再或者直接 Patch Node 的 status.capacity 和 status.allocatable

总之需要相关的信息,如果官方的 dp 无法提供 sched 需要的信息,我们就需要自己实现这个 dp,昇腾官方的 dp 是每种卡都需要对应的 dp

于是我们把昇腾的各种卡类型,对应的卡模版给抽象出来了,自己实现通过一个 dp 来处理不同卡不同模版的情况,方便与 sched 进行协同

NVIDIA 那就更是因为我们需要实现更多高级的特性(如算力显存限制,超配,NUMA 感知等),就需要更多信息了

@wangxiyuan
Copy link
Author

感谢答疑

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants