cchkpnt#
命令#
cchkpnt - 对一个或多个可设置检查点的作业进行检查点
概要#
cchkpnt [-f] [-k] [-p 分钟| -p 0] [作业ID| “作业ID[索引列表]”] …
cchkpnt [-f] [-k] [-p 分钟| -p 0] [-J 作业名称] [-m 主机名 | -m 主机组] [-q 队列名称] [-u “用户名“ | -u all] [0]
cchkpnt [-h | -V]
描述#
对正在运行 (RUN) 或已暂停(SSUSP、USUSP 和 PSUSP)的可检查点作业执行检查点操作。集群管理员和 root 用户可以对其他用户提交的作业执行检查点操作。
默认情况下,对单个作业、最近提交的作业或同时满足其他指定选项(-m、-q、-u 和 -J)的最近提交的作业执行检查点操作。 指定 0(零)可对多个作业执行检查点操作。
指定作业 ID 可对单个特定作业执行检查点操作。
默认情况下,作业在执行检查点操作后会继续执行。
要提交可检查点作业,请使用 csub -k 或将作业提交到检查点队列( cb.yaml 中的检查点)。使用 crestart 启动 已执行检查点操作的作业。
AIP 调用 CB_SERVERDIR (/opt/skyformai/sbin) 中的 echkpnt 可执行文件来执行 检查点操作。
选项#
- 0
(零)。对多个作业执行检查点操作。所有满足其他指定选项(-m、-q、-u 和 -J)的作业都将执行检查点操作。
- -f
即使存在无法执行检查点操作的条件(这些条件因操作系统而异),也强制对作业执行检查点操作。
- -k
在成功执行检查点操作后终止作业。
- -p 分钟 |**-p 0**
启用定期检查点操作并指定检查点周期, 或修改已执行检查点操作的作业的检查点周期。指定**-p 0**(零)可禁用定期检查点操作。
检查点操作是一项资源密集型操作。为了使您的作业能够继续运行,同时仍提供容错功能,请指定 30 分钟或更长时间的检查点周期。
- -J 作业名
仅对具有指定作业名称的作业执行检查点操作。
- -m 主机名 | -m 主机组
仅对调度到指定主机的作业执行检查点操作。
- -q 队列名
仅对从指定队列调度的作业执行检查点操作。
- -u “用户名“| -u all
仅对指定用户提交的作业执行检查点操作。关键字 all 指定所有用户。如果指定的作业 ID 不是 0(零),则忽略此参数。
- job_ID | “job_ID[index_list]”
仅对指定的作业执行检查点操作。
- -h
将命令用法打印到标准错误输出并退出。
- -V
将 AIP 发行版本打印到标准错误输出并退出。
示例#
% cchkpnt 1234
对作业 ID 为 1234 的作业执行检查点操作。
% cchkpnt -p 2.0 1234
启用定期检查点操作或将作业 ID 为 1234 的作业的检查点周期更改为 2.0 分钟(2 小时)。
% cchkpnt -m hostA -k -u all 0
由 root 或集群管理员发出时,将执行检查点操作并终止 hostA 上所有可执行检查点操作的作业。当主机需要关闭或重启时,此功能非常有用。