cchkpnt#

命令#

cchkpnt - 对一个或多个可设置检查点的作业进行检查点

概要#

cchkpnt [-f] [-k] [-p 分钟| -p 0] [作业ID| 作业ID[索引列表]”] …

cchkpnt [-f] [-k] [-p 分钟| -p 0] [-J 作业名称] [-m 主机名 | -m 主机组] [-q 队列名称] [-u 用户名 | -u all] [0]

cchkpnt [-h | -V]

描述#

对正在运行 (RUN) 或已暂停(SSUSP、USUSP 和 PSUSP)的可检查点作业执行检查点操作。集群管理员和 root 用户可以对其他用户提交的作业执行检查点操作。

默认情况下,对单个作业、最近提交的作业或同时满足其他指定选项(-m、-q、-u 和 -J)的最近提交的作业执行检查点操作。 指定 0(零)可对多个作业执行检查点操作。

指定作业 ID 可对单个特定作业执行检查点操作。

默认情况下,作业在执行检查点操作后会继续执行。

要提交可检查点作业,请使用 csub -k 或将作业提交到检查点队列( cb.yaml 中的检查点)。使用 crestart 启动 已执行检查点操作的作业。

AIP 调用 CB_SERVERDIR (/opt/skyformai/sbin) 中的 echkpnt 可执行文件来执行 检查点操作。

选项#

0

(零)。对多个作业执行检查点操作。所有满足其他指定选项(-m、-q、-u 和 -J)的作业都将执行检查点操作。

-f

即使存在无法执行检查点操作的条件(这些条件因操作系统而异),也强制对作业执行检查点操作。

-k

在成功执行检查点操作后终止作业。

-p 分钟 |**-p 0**

启用定期检查点操作并指定检查点周期, 或修改已执行检查点操作的作业的检查点周期。指定**-p 0**(零)可禁用定期检查点操作。

检查点操作是一项资源密集型操作。为了使您的作业能够继续运行,同时仍提供容错功能,请指定 30 分钟或更长时间的检查点周期。

-J 作业名

仅对具有指定作业名称的作业执行检查点操作。

-m 主机名 | -m 主机组

仅对调度到指定主机的作业执行检查点操作。

-q 队列名

仅对从指定队列调度的作业执行检查点操作。

-u 用户名| -u all

仅对指定用户提交的作业执行检查点操作。关键字 all 指定所有用户。如果指定的作业 ID 不是 0(零),则忽略此参数。

job_ID | job_ID[index_list]”

仅对指定的作业执行检查点操作。

-h

将命令用法打印到标准错误输出并退出。

-V

将 AIP 发行版本打印到标准错误输出并退出。

示例#

% cchkpnt 1234

对作业 ID 为 1234 的作业执行检查点操作。

% cchkpnt -p 2.0 1234

启用定期检查点操作或将作业 ID 为 1234 的作业的检查点周期更改为 2.0 分钟(2 小时)。

% cchkpnt -m hostA -k -u all 0

由 root 或集群管理员发出时,将执行检查点操作并终止 hostA 上所有可执行检查点操作的作业。当主机需要关闭或重启时,此功能非常有用。

另请参见#

csubcmodcrestartechkpnterestart