故障处理#

系统日志#

SkyForm AIP Daemon日志存放AIP操作相关的告警或出错信息。当系统中有异常行为出现时,可以查看日志。

日志文件的位置在localtop/log(如/opt/skyformai/log)。

日志文件名的格式为:daemon.host.log,其中daemon为AIP daemon进程的名字,host为主机名,如/opt/skyformai/log/cbls.mgt01.log为CBLS在master主机mgt01上的日志。

备注

AIP的日志文件每24小时自动检查一次文件大小,检查时若超过10MB,会自动滚动。滚动时,AIP的daemon的日志只会保留两份, 一份是前一个的的,一份是当前的。

常见问题#

Daemon问题#

现象:

命令systemctl status aip或service aip status显示某些daemon进程没有启动

定位:

  • 主机名是否能被解析?(执行hostname –fqdn命令必须输出正确的主机名)?

  • /opt/skyformai/etc/hosts文件是否配置,并且包含所有的集群主机的IP地址和主机名?

  • <daemon.hostname> log file中是否有上报的错误?

  • 主机是否能访问cb.yaml文件?

  • 防火墙是否关闭?

  • 所需的软件包是否在各个主机上已安装?

  • cb.yaml里定义的用户名是否存在并在所有主机上都一致?

cbls问题#

问题1#

现象:

Received request from invalid host

定位:

  • 主机是否使用多块网卡?

  • 主机是否在cb.yaml文件中定义?

  • 是否已重启AIP服务以识别新的主机?

cbsched问题#

现象:

cbsched进程没有正常启动

定位:

  • cb.yaml文件中是否提示有配置错误(可看命令aip reconfigsched的输出是否报错)?

  • cbsched.<master>.log的日志文件中是否出现错误信息?

  • cbls是否运行正常?

  • 目录localtop/work是否为SkyForm AIP第一管理员所有且具有写权限?

用户的典型问题#

问题1#

现象:

作业提交被拒

定位:

  • 查看作业定义语法。

  • 查看等待作业是否超出限制。

  • 查看cbsched是否没有正常运行。

问题2#

现象:

作业长时间等待

定位:

运行cjobs -lp 作业ID 查看作业等待原因。列出的原因为调度在各个可以被调度的主机上未能成功调度的原因。

原因只列出作业可以被调度的主机,如队列只限制部分主机,或者用户提交作业时指定某些主机。另外maxslots: 0的主机 不会被考虑在调度的主机范围内。

  • 用户是否要求了过多的资源?例如

    • 要求的内存多于主机上的内存总量

    • 定义的资源限制太过严格

  • 用户ID在作业运行主机上是否有效?

  • 用户是否请求了过多的作业执行?

  • 使用aip job info -l查看作业等待的原因。

问题3#

现象:

我的作业失败了

定位:

  • 确认从执行主机上可以访问应用及其数据文件。

  • 使用cjobs -l查看上报的退出代码(exit code)。

  • 常见的exit code

    • 127 – 命令找不到

    • 128 – 命令不能执行

    • by signal N – 命令被信号N中断(查看man signal和kill -l了解Linux系统信号的信息)

    • 其他退出码 - 这些退出码是应用程序自身的退出码,请询问应用程序的作者

提交作业失败,参考 csub 尾部的排错部分。

作业不运行,参考 cjobs 里的作业等待原因。

作业异常退出,参考 cjobs 里的作业退出原因。

问题3#

现象:

我有异常作业

定位:

异常作业一般为超时限运行、内存使用不足、CPU使用不足等。可以使用 cjobs 的-S搜索表达式 定义搜索条件,找到符合条件的作业,再做详细分析。