集群管理员命令#
服务进程控制命令#
集群管理员可以用命令aip admin来控制各个主机上的AIP服务,并通过重启主控制主机上的服务或调度器进程来使AIP服务使用新的配置。

aip admin start <host> | all:在host主机或所有主机上启动AIP服务
aip admin stop <host> | all:在host主机或所有主机上停止AIP服务
aip admin restart <host> | all:在host主机或所有主机上重启AIP服务
aip admin reconfig: 与admin restart all功能一样。当在cb.yaml文件中修改任何cluster里的参数,因为有可能影响所有主机,则需要运行该命令。
备注
重启所有主机上的AIP服务会造成集群数分钟的中断,所以需要谨慎操作。
aip admin reconfig: 当在cb.yaml文件中修改queues或general参数时,只对调度器有影响,可以用该命令来只重启调度器,减少对整个集群的影响。
资源使用量统计#
资源使用的统计可以用作计费。AIP管理员可以使用以下命令得到资源使用的统计:
cacct#
使用参数如下。具体详细说明请参考 cacct 。
-d: 统计正常结束的作业
-e: 统计异常结束的作业
-C: 定义作业结束的时间段
-m: 定义作业运行的主机,多个主机用空格隔开,并使用引号把所有主机括起来
-P: 定义一个或多个项目名
-q:定义一个或多个队列名
-u: 定义一个或多用户或用户组名
-j:定义一个或多个作业号

自动生成计费用的用量和月账单#
用量计费和账单生成修改配置文件/opt/skyformai/etc/cbcrond.yaml。修改后重启master上的服务,即可生效。 参考 cbcrond.yaml
动态修改配置(不重启服务或daemon)#
在不启动AIP服务和调度器的情况下,可使用以下命令修改调度器配置:
“aip p u”:修改调度器参数(cb.yaml中的general参数、power参数、scale参数)。 动态修改后的参数自动存于/opt/skyformai/etc/params.yaml(通用参数), /opt/skyformai/etc/power.yaml(节电调度参数),和/opt/skyformai/etc/scale.yaml(弹性伸缩调度策略参数)里, cb.yaml中相应数据将视为无效。
“aip q c | d | u”:新增、删除、或修改部分队列参数。动态修改后的参数自动存于 /opt/skyformai/etc/queue.yaml里,cb.yaml中queues中的参数将视为无效。
“aip ug c | d | a | am | dm | gl | ul”:新增、删除用户组,修改用户组管理员,增加、 减少用户组员,修改用户组作业槽上限,每个用户作业槽上限。 动态修改后的参数自动存于/opt/skyformai/etc/ug.yaml里,cb.yaml中usergroups中的参数将视为无效。
“aip hg c | d | am | dm”:新增、删除主机组,增加、减少主机组成员。 动态修改后的参数自动存于/opt/skyformai/etc/hg.yaml里,cb.yaml中hostgroups中的参数将视为无效。
动态修改参数后,若需修改其他参数,可以直接在cb.yaml中修改,然后重启AIP服务。 若要进一步手工编辑以上经过动态修改过的参数,则需要编辑相应的yaml文件(queue.yaml, params.yaml, power.yaml, scale.yaml, ug.yaml. hg.yaml等)。删除相应的动态参数文件后若重启调度器(cbsched),则回到cb.yaml中的参数。 调度器启动时先读cb.yaml,然后读取其他.yaml文件覆盖cb.yaml中的参数。