chosts#
命令#
chosts - 显示调度器内主机的静态和动态信息
概要#
chosts[-w | -l | -c | -S | -E] [-j] [-o “格式”][-R “资源需求“] [主机名 | 主机组] …
chosts -s [共享资源 …]
chosts[-h | -V]
描述#
显示主机信息。
默认情况下,返回所有主机的以下信息:主机名、主机状态、作业槽位限制以及作业状态统计信息。
-s 选项显示数值共享资源及其关联主机的信息。
显示主机信息范围#
root或集群管理员可以访问所有主机信息。
当cb.yaml中user_view_alljobs: yes,普通用户可以访问所有主机信息。
当环境变量CB_LIMIT_VIEW(或者在/opt/skyformai/etc/cb.conf中设置)设任何值,普通用户只能访问自己可用队列所含主机的信息。
例子:
[u001@aipm ~]$ chosts HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV gpu aipg ok - 300 0 0 0 0 0 0.000 aipm ok - 300 0 0 0 0 0 4.000 centos6 ok - 300 0 0 0 0 0 0.000 node111 ok - 300 0 0 0 0 0 0.000 u22 ok - 300 0 0 0 0 0 8.000 w19 ok - 300 0 0 0 0 0 0.000 [u001@aipm ~]$ CB_LIMIT_VIEW=1 chosts HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV gpu aipg ok - 300 0 0 0 0 0 0.000 aipm ok - 300 0 0 0 0 0 4.000
当cb.yaml中user_view_alljobs: no,或者该参数没有设置,用户只能访问自己可用队列所含主机的信息。
选项#
- -w
以宽格式显示主机信息。字段显示时不会截断。
- -l
以(长)多行格式显示主机信息。除了默认字段外,还显示有关 CPU 因子、调度窗口、 当前负载和负载阈值的信息。
- -j
显示每台主机上正在运行或暂停的作业 ID。短格式或宽格式输出仅显示作业 ID。长格式输出中, 作业信息的格式为:作业 ID:状态(槽位数量),例如 1743:RUN(2)
- -c
仅显示由 AIP 管理员关闭的主机,以及正在运行的作业数量和管理员在命令“csadmin hclose” 中发布的消息。
- -o “输出项 … [delimiter=’字符’]”
通过字段名称指定自定义输出格式。使用 delimiter= 来设置不同标题和字段之间显示的分隔符。 分隔符必须是单个字符。默认情况下,分隔符为空格。
如果字段没有值,则输出为短划线 (-)。
可用的字段名称包括:
host_name: 主机名
status: 主机状态。详见**输出**
max: 主机上配置的最大作业槽数
njobs: 以被占用的作业槽数量
run: 正在运行的作业槽数量
ssusp: 调度器暂停的作业槽数量
ususp: 用户暂停的作业槽数量
rsv: 调度器保留的作业槽数量
hgroups: 主机所属的主机组
queues: 主机所属的队列名称
- -S
显示不同状态的主机数量摘要。
- -E
显示状态为“Unavail”和“Unreach”的主机名。
- -R “res_req“
仅显示满足资源需求表达式的主机信息。有关资源需求的更多信息,资源需求字符串的大小限制为 512 字节。
AIP 支持对所有负载索引(包括静态或动态的外部负载索引)的资源需求进行排序。
- 主机名 … | 主机组名 …
仅显示指定主机或主机组的信息。 对于主机组,将显示属于该组的主机名称,而不是主机组的名称。指定多个主机或主机组时,请勿使用引号。
host_name 可以采用 xxxx[001-100] 的格式指定。
- -s [共享资源名…]
显示指定共享资源的信息。资源必须为数值。返回以下信息:资源名称、资源总量和预留量,以及资源位置。 如果未指定共享资源,则显示所有数值共享资源的信息。
- -h
将命令用法打印到 stderr 并退出。
- -V
将 AIP 发布版本打印到 stderr 并退出。
输出#
主机信息缺省输出#
显示以下字段:
- HOST_NAME
主机名称。如果主机正在运行作业,并且该主机已从配置中移除, 则主机名将显示为 lost_and_found。
- STATUS
主机的当前状态。作业只能调度到状态为 ok 的主机。主机状态的可能值如下:
- ok
主机可以接受作业。
- unavail
主机已关闭,或者主机上的 CBLS 和 CBJM 不可达。
- unreach
主机上的 CBLS 正在运行,但 CBJM 无法访问。
- closed
主机不允许接受任何远程作业。主机关闭的原因有多种(请参阅基于主机的 -l 选项)。
- JL/U
主机可以为每个用户处理的最大作业槽位数量。
这些作业槽位可供正在运行的作业以及已预留槽位的暂停或等待作业使用。
- MAX
主机可以处理的最大作业槽位数量。这些作业槽位供主机上正在运行和暂停的作业使用, 以及供主机上已预留作业槽位的等待作业使用。
- NJOBS
主机上已启动作业(包括正在运行和已暂停的作业)占用的作业槽位数量。
- RUN
主机上运行的作业所使用的作业槽数。
- SSUSP
主机上系统暂停的作业所使用的作业槽数。
- USUSP
用户暂停的作业在主机上占用的作业槽位数量。 作业可以由用户或 AIP 管理员暂停。
- RSV
主机上预留了作业槽位的等待作业所使用的作业槽位数量。
主机信息-l长格式输出#
除了上述字段外,-l 选项还显示以下内容:
- STATUS
- closed
-l 选项显示的长格式给出了主机关闭的可能原因:
- closed_Adm
该主机已被 AIP 管理员或 root 用户关闭(请参阅 csadmin )。 任何作业都无法调度到该主机,但正在该主机上执行的作业不会受到影响。
- closed_Lock
主机已被 AIP 管理员或 root 锁定(请参阅 cadmin )。 主机上的所有作业均已被 AIP 暂停。
- closed_Wind
主机通过其调度窗口关闭,调度窗口在配置文件 cb.yaml(5) 中定义。 主机上的所有作业均被 AIP 系统暂停。
- closed_Full
已达到主机上配置的最大作业槽数(请参阅下面的 MAX 字段)。
- closed_Excl
主机目前正在执行独家任务。
- closed_Busy
主机已过载,因为某些负载指标超出了配置的阈值(参见 cb.yaml )。显示的 导致主机繁忙的阈值前面带有星号 (*)。
- closed_LS
主机上的 CBLS 无法访问,但 CBJM 正常。
- closed_Power
主机已被管理员关闭电源。
- ok_Power
主机已根据省电调度策略关闭。等待的作业可以将其启动。
- suspending
主机正在由管理员或省电策略关闭。
- resuming
主机正在由管理员或省电策略启动。
- CPUF
显示主机的 CPU 标准化因子(请参阅 chinfo )。
- DISPATCH_WINDOWS
显示每个主机的调度窗口。调度窗口是每周可以在每个主机上运行作业的时间窗口。 已启动的作业不受调度窗口的影响。调度窗口的默认值为无限制或始终开放 (即每周 7 天,每天 24 小时)。有关调度窗口的规范, 请参阅 cqueues 中 -l 选项下 DISPATCH_WINDOWS 关键字的说明。
- CURRENT LOAD
显示主机总负载和预留负载。
- LOAD THRESHOLD
显示调度阈值 loadSched 和暂停阈值 loadStop。此外,还会显示迁移阈值(如果已定义) 以及检查点支持(如果主机支持)。
阈值的格式与批量作业队列的格式相同(参见 cqueues 和 cb.yaml )。 有关阈值和负载指标的说明,请参阅 cqueues 中 -l 选项下“队列调度参数”关键字的说明。
- Job CPU binding is set
显示CPU绑定是否已设。
- Member of host group
显示主机所属的主机组
- Member of queues
显示主机所属的队列
资源选项-s的输出#
-s 选项显示以下内容:用于调度的资源量、预留的资源量以及共享资源的关联主机。 仅显示具有数值的共享资源。有关如何配置共享资源,请参阅 cb.yaml 。
将显示以下字段:
- RESOURCE
资源名。
- TOTAL
用于调度的共享资源的值。这是共享资源的当前负载和预留负载的总和。
- RESERVED
作业预留的资源量。您可以使用 csub -R 指定预留的资源(参见 csub )。
- LOCATION
与共享资源关联的主机。