chosts#

命令#

chosts - 显示调度器内主机的静态和动态信息

概要#

chosts[-w | -l | -c | -S | -E] [-j] [-o格式”][-R “资源需求] [主机名 | 主机组] …

chosts -s [共享资源 …]

chosts[-h | -V]

描述#

显示主机信息。

默认情况下,返回所有主机的以下信息:主机名、主机状态、作业槽位限制以及作业状态统计信息。

-s 选项显示数值共享资源及其关联主机的信息。

显示主机信息范围#

  • root或集群管理员可以访问所有主机信息。

  • 当cb.yaml中user_view_alljobs: yes,普通用户可以访问所有主机信息。

    • 当环境变量CB_LIMIT_VIEW(或者在/opt/skyformai/etc/cb.conf中设置)设任何值,普通用户只能访问自己可用队列所含主机的信息。

    例子:

    [u001@aipm ~]$ chosts
    HOST_NAME          STATUS       JL/U    MAX  NJOBS    RUN  SSUSP  USUSP    RSV    gpu
    aipg               ok              -    300      0      0      0      0      0  0.000
    aipm               ok              -    300      0      0      0      0      0  4.000
    centos6            ok              -    300      0      0      0      0      0  0.000
    node111            ok              -    300      0      0      0      0      0  0.000
    u22                ok              -    300      0      0      0      0      0  8.000
    w19                ok              -    300      0      0      0      0      0  0.000
    [u001@aipm ~]$ CB_LIMIT_VIEW=1 chosts
    HOST_NAME          STATUS       JL/U    MAX  NJOBS    RUN  SSUSP  USUSP    RSV    gpu
    aipg               ok              -    300      0      0      0      0      0  0.000
    aipm               ok              -    300      0      0      0      0      0  4.000
    
  • 当cb.yaml中user_view_alljobs: no,或者该参数没有设置,用户只能访问自己可用队列所含主机的信息。

选项#

-w

以宽格式显示主机信息。字段显示时不会截断。

-l

以(长)多行格式显示主机信息。除了默认字段外,还显示有关 CPU 因子、调度窗口、 当前负载和负载阈值的信息。

-j

显示每台主机上正在运行或暂停的作业 ID。短格式或宽格式输出仅显示作业 ID。长格式输出中, 作业信息的格式为:作业 ID:状态(槽位数量),例如 1743:RUN(2)

-c

仅显示由 AIP 管理员关闭的主机,以及正在运行的作业数量和管理员在命令“csadmin hclose” 中发布的消息。

-o输出项 … [delimiter=字符’]”

通过字段名称指定自定义输出格式。使用 delimiter= 来设置不同标题和字段之间显示的分隔符。 分隔符必须是单个字符。默认情况下,分隔符为空格。

如果字段没有值,则输出为短划线 (-)。

可用的字段名称包括:

host_name: 主机名

status: 主机状态。详见**输出**

max: 主机上配置的最大作业槽数

njobs: 以被占用的作业槽数量

run: 正在运行的作业槽数量

ssusp: 调度器暂停的作业槽数量

ususp: 用户暂停的作业槽数量

rsv: 调度器保留的作业槽数量

hgroups: 主机所属的主机组

queues: 主机所属的队列名称

-S

显示不同状态的主机数量摘要。

-E

显示状态为“Unavail”和“Unreach”的主机名。

-R “res_req

仅显示满足资源需求表达式的主机信息。有关资源需求的更多信息,资源需求字符串的大小限制为 512 字节。

AIP 支持对所有负载索引(包括静态或动态的外部负载索引)的资源需求进行排序。

主机名 … | 主机组名

仅显示指定主机或主机组的信息。 对于主机组,将显示属于该组的主机名称,而不是主机组的名称。指定多个主机或主机组时,请勿使用引号。

host_name 可以采用 xxxx[001-100] 的格式指定。

-s [共享资源名…]

显示指定共享资源的信息。资源必须为数值。返回以下信息:资源名称、资源总量和预留量,以及资源位置。 如果未指定共享资源,则显示所有数值共享资源的信息。

-h

将命令用法打印到 stderr 并退出。

-V

将 AIP 发布版本打印到 stderr 并退出。

输出#

主机信息缺省输出#

显示以下字段:

HOST_NAME

主机名称。如果主机正在运行作业,并且该主机已从配置中移除, 则主机名将显示为 lost_and_found。

STATUS

主机的当前状态。作业只能调度到状态为 ok 的主机。主机状态的可能值如下:

ok

主机可以接受作业。

unavail

主机已关闭,或者主机上的 CBLS 和 CBJM 不可达。

unreach

主机上的 CBLS 正在运行,但 CBJM 无法访问。

closed

主机不允许接受任何远程作业。主机关闭的原因有多种(请参阅基于主机的 -l 选项)。

JL/U

主机可以为每个用户处理的最大作业槽位数量。

这些作业槽位可供正在运行的作业以及已预留槽位的暂停或等待作业使用。

MAX

主机可以处理的最大作业槽位数量。这些作业槽位供主机上正在运行和暂停的作业使用, 以及供主机上已预留作业槽位的等待作业使用。

NJOBS

主机上已启动作业(包括正在运行和已暂停的作业)占用的作业槽位数量。

RUN

主机上运行的作业所使用的作业槽数。

SSUSP

主机上系统暂停的作业所使用的作业槽数。

USUSP

用户暂停的作业在主机上占用的作业槽位数量。 作业可以由用户或 AIP 管理员暂停。

RSV

主机上预留了作业槽位的等待作业所使用的作业槽位数量。

主机信息-l长格式输出#

除了上述字段外,-l 选项还显示以下内容:

STATUS
closed

-l 选项显示的长格式给出了主机关闭的可能原因:

closed_Adm

该主机已被 AIP 管理员或 root 用户关闭(请参阅 csadmin )。 任何作业都无法调度到该主机,但正在该主机上执行的作业不会受到影响。

closed_Lock

主机已被 AIP 管理员或 root 锁定(请参阅 cadmin )。 主机上的所有作业均已被 AIP 暂停。

closed_Wind

主机通过其调度窗口关闭,调度窗口在配置文件 cb.yaml(5) 中定义。 主机上的所有作业均被 AIP 系统暂停。

closed_Full

已达到主机上配置的最大作业槽数(请参阅下面的 MAX 字段)。

closed_Excl

主机目前正在执行独家任务。

closed_Busy

主机已过载,因为某些负载指标超出了配置的阈值(参见 cb.yaml )。显示的 导致主机繁忙的阈值前面带有星号 (*)。

closed_LS

主机上的 CBLS 无法访问,但 CBJM 正常。

closed_Power

主机已被管理员关闭电源。

ok_Power

主机已根据省电调度策略关闭。等待的作业可以将其启动。

suspending

主机正在由管理员或省电策略关闭。

resuming

主机正在由管理员或省电策略启动。

CPUF

显示主机的 CPU 标准化因子(请参阅 chinfo )。

DISPATCH_WINDOWS

显示每个主机的调度窗口。调度窗口是每周可以在每个主机上运行作业的时间窗口。 已启动的作业不受调度窗口的影响。调度窗口的默认值为无限制或始终开放 (即每周 7 天,每天 24 小时)。有关调度窗口的规范, 请参阅 cqueues 中 -l 选项下 DISPATCH_WINDOWS 关键字的说明。

CURRENT LOAD

显示主机总负载和预留负载。

Reserved

您可以使用 csub -R 指定保留资源(参见 csub )。 这些资源由主机上运行的作业保留。

Total

总负载的含义取决于负载指标是增加还是减少。

对于增加的负载指标(例如运行队列长度、CPU 利用率、分页活动、登录次数和磁盘 I/O), 总负载等于已消耗负载加上预留负载。总负载等于当前负载与预留负载之和。 当前负载是 cload 看到的负载。

对于减少的负载指标(例如可用内存、空闲时间、可用交换空间和 tmp 中的可用空间), 总负载等于可用负载。总负载等于当前负载与预留负载之差。此差值是 cload 看到的可用资源。

LOAD THRESHOLD

显示调度阈值 loadSched 和暂停阈值 loadStop。此外,还会显示迁移阈值(如果已定义) 以及检查点支持(如果主机支持)。

阈值的格式与批量作业队列的格式相同(参见 cqueuescb.yaml )。 有关阈值和负载指标的说明,请参阅 cqueues 中 -l 选项下“队列调度参数”关键字的说明。

Job CPU binding is set

显示CPU绑定是否已设。

Member of host group

显示主机所属的主机组

Member of queues

显示主机所属的队列

资源选项-s的输出#

-s 选项显示以下内容:用于调度的资源量、预留的资源量以及共享资源的关联主机。 仅显示具有数值的共享资源。有关如何配置共享资源,请参阅 cb.yaml

将显示以下字段:

RESOURCE

资源名。

TOTAL

用于调度的共享资源的值。这是共享资源的当前负载和预留负载的总和。

RESERVED

作业预留的资源量。您可以使用 csub -R 指定预留的资源(参见 csub )。

LOCATION

与共享资源关联的主机。