NVIDIA多实例GPU调度#

NVIDIA的A100/A800和H100/H800支持把一块GPU最多分成7个实例。实例大小有不同的组合。详细参见:https://docs.nvidia.com/datacenter/tesla/mig-user-guide/

AIP自动检测MIG是否已经配置,然后把每个MIG作为一个GPU来调度。

观察可用GPU MIG:

chosts -s

命令输出:

RESOURCE                USABLE       RESERVED       LOCALE
gpuMIG1g5gb           7.000000            0.0       linux7
gpuMIG2g10gb          3.000000            0.0       linux7
gpuMIG3g20gb          2.000000            0.0       linux7
gpuMIG4g20gb          1.000000            0.0       linux
gpuMIG1c3g20gb        6.000000            0.0       linux

提交作业#

验证MIG分配情况的作业例子。用环境变量查看作业环境中CUDA_VISIBLE_DEVICES的设置:

csub -I -R rusage[gpuMIG1g5gb=1] env | grep CUDA

命令输出:

Job 3390 is waiting to be started...
Job 3390 has started on host linux7.
CUDA_VISIBLE_DEVICES=MIG-30ff4a58-8039-5b2c-9623-241c3dbf8689

以上的例子展示AIP给作业分配的MIG。一个作业也可请求多个MIG,如: -R rusage[gpuMIG1g5gb=4]。

本页