chinfo#
命令#
chinfo - 显示主机和静态资源和GPU信息
概要#
chinfo [-w | -l | -e | -j ] [-o “格式"] [-R “资源需求"] [主机名] …
chinfo -s[共享资源名 …]
chinfo -g
chinfo [-h | -V]
描述#
显示主机的静态资源或GPU信息。
默认情况下,返回以下信息:主机名、主机类型、 主机型号、CPU 因子、CPU 数量、总内存、总交换空间、 主机是否为服务器主机以及静态资源。显示集群中所有主机的信息。请参阅 cb.yaml(5)。
-s 选项显示静态共享资源及其关联主机的信息。
-g 选项显示GPU及其关联主机的信息。
选项#
- -w
以宽格式显示主机信息。字段显示时不会截断。
- -e
以多行长格式显示包含负载在内的扩展主机信息。它比使用 -l 选项显示更多信息。
- -g
显示集群中的GPU信息。
- -l
以长多行格式显示主机信息。除了默认字段外,还显示有关最大 /tmp 空间、本地磁盘数量、 远程作业的执行优先级、负载阈值和运行窗口的信息。
- -j
输出JSON。
- -o “字段名称 … [delimiter=’分割符’]”
通过字段名称指定自定义输出格式。使用 delimiter= 来设置在不同标题和字段之间显示的分隔符。分隔符必须是单个字符。默认情况下,分隔符为空格。
如果字段没有值,则输出为短划线 (-)。
可用的字段名称包括:
host_name: 主机名
model: 主机的CPU型号
type: 主机类型,如 x86_64Linux, aarch64Linux等
ncpus: CPU 或 vCPU 的数量,取决于 cb.yaml 中 define_ncpus 的值。define_ncpus是cores则显示物理核数,否则显示逻辑核数
maxmem: 最大内存
maxswp: 最大交换空间
maxtmp: 最大 /tmp 空间
attr|server: 主机属性:Server(普通主机), Dynamic(动态主机), Remote(远程不运行AIP服务的主机), 或 Client(客户端)。
- -R “res_req“
仅显示满足资源需求表达式的主机信息。有关资源需求的更多信息, 请参考资源需求字符串的大小限制为 512 字节。
AIP 支持对所有负载索引(包括外部负载索引,无论是静态的还是动态的)的资源需求进行排序。
- 主机名……
仅显示指定主机的信息。指定多个主机时请勿使用引号。
主机名可以采用 xxxx[001-100] 的格式指定。
- -s[共享资源名…]
显示指定资源的信息。这些资源必须是静态共享资源。返回以下信息: 资源名称、资源值以及资源位置。如果未指定共享资源,则显示 所有共享资源的信息。
- -h
将命令用法打印到 stderr 并退出。
- -V
将 AIP 发布版本打印到 stderr 并退出。
输出#
缺省显示的主机信息#
显示以下字段:
- HOST_NAME
主机名。如果主机名太长,则会被截断。
- type
主机类型。如果主机类型太长,则会被截断。其值为 $archLinux 或 $archWindows,其中 $arch 是操作系统的值,如x86_64、aarch64等。
- model
主机CPU型号。如果字串太长,则会被截断。
- cpuf
CPU 因子。CPU 因子用于缩放 CPU 负载值,以便将 CPU 速度的差异考虑在内。 CPU 速度越快,CPU 因子就越大。CPU因子的数值是Linux的lscpu里的BogoMIPS除以100。
未知主机类型的主机的 CPU 因子为 1.0。
- ncpus
CPU 或 vCPU 的数量,取决于 cb.yaml 中 define_ncpus 的值。 define_ncpus是cores则显示物理核数,否则显示逻辑核数。
- ngpus
GPUs个数。若单张GPU卡上有两个GPU,这数值为2。
- maxmem
最大内存。
- maxswp
最大交换空间。
- attr
“Server”是指在 cb.yaml 中配置的静态服务器主机。
“Remote”是指通过主服务器或指定的代理主机进行代理的远程主机。
“Dynamic”是指动态添加的主机。
“Client”是指客户端主机。
- RESOURCES
可用的布尔资源(以资源名称表示)以及外部数字和字符串静态资源的值。 有关如何配置外部静态资源,请参阅 cb.yaml 和 ress 。
主机-l或-e选项长格式输出#
除了上述字段外,-l 或-e选项还显示以下内容:
- HOST_IP
AIP用于通讯的配置在/opt/skyformai/etc/hosts里的主机IPv4地址。
- ndisks
本地磁盘的数量。
- maxtmp
主机上配置的最大 /tmp 空间(以MB为单位)。
- rexpri
远程执行(ctask, runtask)优先级。这个指标总是0。
- 本机共享资源
静态共享资源。
- CPU Model
CPU型号全名。
- Sockets
CPU颗数。
- Cores per Socket
每颗CPU上的物理核数。
- GPUs
GPU信息列表。包含ID、MODEL(型号)、TotalMem(最大显存)、FreeMem(可用显存)、 Temp(C)(温度)、和Power(W)(功耗瓦数)。
- RUN_WINDOWS:
这个参数没有意义,只是为了保持与LSF的兼容性,值总是always open。
- LOAD_THRESHOLDS
这个参数没有意义,只是为了保持与LSF的兼容性,值总是空。
除了上述字段外,-e选项还显示以下内容:
- Core Ut
每个物理核或逻辑核(取决于define_ncpus的值,参考 cb.yaml )上的利用率。
- Network Traffic:
各个网卡上的输出(send)和输入(recv)的瞬间速率(每秒KB)。值是运行命令时5秒内的值。
- Local Disk IO:
本地磁盘上的读(read)和写(write)的瞬间速率(每秒KB)。值是运行命令时5秒内的值。
- Master Candidate
如果是主控制主机(master),则显示这个信息,并显示用于AIP key的Host ID。
资源选项-s输出#
显示静态共享资源。每行提供静态共享资源的值及其关联的主机。有关如何配置静态共享资源,请参阅 cb.yaml 和 ress 。
显示以下字段:
- RESOURCE
资源名。
- VALUE
静态资源的值。
- LOCATION
与静态共享资源关联的主机。
GPU资源选项-g输出#
显示集群中的GPU信息。
显示以下字段:
- HOST_NAME
主机名。
- ID
GPU的ID。
- MODEL_NAME
GPU型号。
- TotMem
GPU最大显存MB。
- FreeMem
GPU可用显存MB。
- Temp
GPU温度。
- GUT
GPU利用率。最小0,最大1。
- MUT
GPU显存利用率。最小0,最大1。
- POWER
GPU功耗瓦数。