chinfo#

命令#

chinfo - 显示主机和静态资源和GPU信息

概要#

chinfo [-w | -l | -e | -j ] [-o格式"] [-R资源需求"] [主机名] …

chinfo -s[共享资源名 …]

chinfo -g

chinfo [-h | -V]

描述#

显示主机的静态资源或GPU信息。

默认情况下,返回以下信息:主机名、主机类型、 主机型号、CPU 因子、CPU 数量、总内存、总交换空间、 主机是否为服务器主机以及静态资源。显示集群中所有主机的信息。请参阅 cb.yaml(5)。

-s 选项显示静态共享资源及其关联主机的信息。

-g 选项显示GPU及其关联主机的信息。

选项#

-w

以宽格式显示主机信息。字段显示时不会截断。

-e

以多行长格式显示包含负载在内的扩展主机信息。它比使用 -l 选项显示更多信息。

-g

显示集群中的GPU信息。

-l

以长多行格式显示主机信息。除了默认字段外,还显示有关最大 /tmp 空间、本地磁盘数量、 远程作业的执行优先级、负载阈值和运行窗口的信息。

-j

输出JSON。

-o字段名称 … [delimiter=分割符’]”

通过字段名称指定自定义输出格式。使用 delimiter= 来设置在不同标题和字段之间显示的分隔符。分隔符必须是单个字符。默认情况下,分隔符为空格。

如果字段没有值,则输出为短划线 (-)。

可用的字段名称包括:

host_name: 主机名

model: 主机的CPU型号

type: 主机类型,如 x86_64Linux, aarch64Linux等

ncpus: CPU 或 vCPU 的数量,取决于 cb.yaml 中 define_ncpus 的值。define_ncpus是cores则显示物理核数,否则显示逻辑核数

maxmem: 最大内存

maxswp: 最大交换空间

maxtmp: 最大 /tmp 空间

attr|server: 主机属性:Server(普通主机), Dynamic(动态主机), Remote(远程不运行AIP服务的主机), 或 Client(客户端)。

-R res_req

仅显示满足资源需求表达式的主机信息。有关资源需求的更多信息, 请参考资源需求字符串的大小限制为 512 字节。

AIP 支持对所有负载索引(包括外部负载索引,无论是静态的还是动态的)的资源需求进行排序。

主机名……

仅显示指定主机的信息。指定多个主机时请勿使用引号。

主机名可以采用 xxxx[001-100] 的格式指定。

-s[共享资源名…]

显示指定资源的信息。这些资源必须是静态共享资源。返回以下信息: 资源名称、资源值以及资源位置。如果未指定共享资源,则显示 所有共享资源的信息。

-h

将命令用法打印到 stderr 并退出。

-V

将 AIP 发布版本打印到 stderr 并退出。

输出#

缺省显示的主机信息#

显示以下字段:

HOST_NAME

主机名。如果主机名太长,则会被截断。

type

主机类型。如果主机类型太长,则会被截断。其值为 $archLinux 或 $archWindows,其中 $arch 是操作系统的值,如x86_64、aarch64等。

model

主机CPU型号。如果字串太长,则会被截断。

cpuf

CPU 因子。CPU 因子用于缩放 CPU 负载值,以便将 CPU 速度的差异考虑在内。 CPU 速度越快,CPU 因子就越大。CPU因子的数值是Linux的lscpu里的BogoMIPS除以100。

未知主机类型的主机的 CPU 因子为 1.0。

ncpus

CPU 或 vCPU 的数量,取决于 cb.yaml 中 define_ncpus 的值。 define_ncpus是cores则显示物理核数,否则显示逻辑核数。

ngpus

GPUs个数。若单张GPU卡上有两个GPU,这数值为2。

maxmem

最大内存。

maxswp

最大交换空间。

attr

“Server”是指在 cb.yaml 中配置的静态服务器主机。

“Remote”是指通过主服务器或指定的代理主机进行代理的远程主机。

“Dynamic”是指动态添加的主机。

“Client”是指客户端主机。

RESOURCES

可用的布尔资源(以资源名称表示)以及外部数字和字符串静态资源的值。 有关如何配置外部静态资源,请参阅 cb.yamlress

主机-l或-e选项长格式输出#

除了上述字段外,-l 或-e选项还显示以下内容:

HOST_IP

AIP用于通讯的配置在/opt/skyformai/etc/hosts里的主机IPv4地址。

ndisks

本地磁盘的数量。

maxtmp

主机上配置的最大 /tmp 空间(以MB为单位)。

rexpri

远程执行(ctask, runtask)优先级。这个指标总是0。

本机共享资源

静态共享资源。

CPU Model

CPU型号全名。

Sockets

CPU颗数。

Cores per Socket

每颗CPU上的物理核数。

GPUs

GPU信息列表。包含ID、MODEL(型号)、TotalMem(最大显存)、FreeMem(可用显存)、 Temp(C)(温度)、和Power(W)(功耗瓦数)。

RUN_WINDOWS:

这个参数没有意义,只是为了保持与LSF的兼容性,值总是always open。

LOAD_THRESHOLDS

这个参数没有意义,只是为了保持与LSF的兼容性,值总是空。

除了上述字段外,-e选项还显示以下内容:

Core Ut

每个物理核或逻辑核(取决于define_ncpus的值,参考 cb.yaml )上的利用率。

Network Traffic:

各个网卡上的输出(send)和输入(recv)的瞬间速率(每秒KB)。值是运行命令时5秒内的值。

Local Disk IO:

本地磁盘上的读(read)和写(write)的瞬间速率(每秒KB)。值是运行命令时5秒内的值。

Master Candidate

如果是主控制主机(master),则显示这个信息,并显示用于AIP key的Host ID。

资源选项-s输出#

显示静态共享资源。每行提供静态共享资源的值及其关联的主机。有关如何配置静态共享资源,请参阅 cb.yamlress

显示以下字段:

RESOURCE

资源名。

VALUE

静态资源的值。

LOCATION

与静态共享资源关联的主机。

GPU资源选项-g输出#

显示集群中的GPU信息。

显示以下字段:

HOST_NAME

主机名。

ID

GPU的ID。

MODEL_NAME

GPU型号。

TotMem

GPU最大显存MB。

FreeMem

GPU可用显存MB。

Temp

GPU温度。

GUT

GPU利用率。最小0,最大1。

MUT

GPU显存利用率。最小0,最大1。

POWER

GPU功耗瓦数。