启用燧原 GPU 共享
简介
本组件支持复用燧原 GCU 设备 (S60),并为此提供以下几种与 vGPU 类似的复用功能,包括:
GPU 共享: 每个任务可以只占用一部分显卡,多个任务可以共享一张显卡
百分比切片能力: 你现在可以用百分比来申请一个 GCU 切片(例如 20%),本组件会确保任务使用的显存和算力不会超过这个百分比对应的数值
设备 UUID 选择: 你可以通过注解指定使用或排除特定的 GCU 设备
方便易用: 部署本组件后,只需要部署厂家提供的 gcushare-device-plugin 即可使用
节点需求
- Enflame gcushare-device-plugin >= 2.1.6
- driver version >= 1.2.3.14
- kubernetes >= 1.24
- enflame-container-toolkit >=2.0.50
开启 GCU 复用
- 部署'gcushare-device-plugin',燧原的 GCU 共享需要配合厂家提供的'gcushare-device-plugin'一起使用,请联系设备提供方获取
注意: 只需要安装 gcushare-device-plugin,不要安装 gcushare-scheduler-plugin.
- 在安装 HAMi 时配置参数'devices.enflame.enabled=true'
helm install hami hami-charts/hami --set devices.enflame.enabled=true -n kube-system
说明: 默认资源名称如下:
enflame.com/vgcu用于 GCU 数量,这里只能为 1enflame.com/vgcu-percentage用于生成共享 GCU 切片你可以通过修改
hami-scheduler-device配置,来修改这些资源名称
设备粒度切分
HAMi 将每个燧原 GCU 划分为 100 个单元进行资源分配。当你请求一部分 GPU 时,实际上是在请求这些单元中的一定数量。