NVIDIA多实例GPU调度#
NVIDIA的A100/A800和H100/H800支持把一块GPU最多分成7个实例。实例大小有不同的组合。详细参见:https://docs.nvidia.com/datacenter/tesla/mig-user-guide/
AIP自动检测MIG是否已经配置,然后把每个MIG作为一个GPU来调度。
观察可用GPU MIG:
chosts -s
命令输出:
RESOURCE USABLE RESERVED LOCALE
gpuMIG1g5gb 7.000000 0.0 linux7
gpuMIG2g10gb 3.000000 0.0 linux7
gpuMIG3g20gb 2.000000 0.0 linux7
gpuMIG4g20gb 1.000000 0.0 linux
gpuMIG1c3g20gb 6.000000 0.0 linux
提交作业#
验证MIG分配情况的作业例子。用环境变量查看作业环境中CUDA_VISIBLE_DEVICES的设置:
csub -I -R rusage[gpuMIG1g5gb=1] env | grep CUDA
命令输出:
Job 3390 is waiting to be started...
Job 3390 has started on host linux7.
CUDA_VISIBLE_DEVICES=MIG-30ff4a58-8039-5b2c-9623-241c3dbf8689
以上的例子展示AIP给作业分配的MIG。一个作业也可请求多个MIG,如: -R rusage[gpuMIG1g5gb=4]。
本页