故障处理#
系统日志#
SkyForm AIP Daemon日志存放AIP操作相关的告警或出错信息。当系统中有异常行为出现时,可以查看日志。
日志文件的位置在localtop/log(如/opt/skyformai/log)。
日志文件名的格式为:daemon.host.log,其中daemon为AIP daemon进程的名字,host为主机名,如/opt/skyformai/log/cbls.mgt01.log为CBLS在master主机mgt01上的日志。
备注
AIP的日志文件每24小时自动检查一次文件大小,检查时若超过10MB,会自动滚动。滚动时,AIP的daemon的日志只会保留两份, 一份是前一个的的,一份是当前的。
常见问题#
Daemon问题#
现象:
命令systemctl status aip或service aip status显示某些daemon进程没有启动
定位:
主机名是否能被解析?(执行hostname –fqdn命令必须输出正确的主机名)?
/opt/skyformai/etc/hosts文件是否配置,并且包含所有的集群主机的IP地址和主机名?
<daemon.hostname> log file中是否有上报的错误?
主机是否能访问cb.yaml文件?
防火墙是否关闭?
所需的软件包是否在各个主机上已安装?
cb.yaml里定义的用户名是否存在并在所有主机上都一致?
cbls问题#
问题1#
现象:
Received request from invalid host
定位:
主机是否使用多块网卡?
主机是否在cb.yaml文件中定义?
是否已重启AIP服务以识别新的主机?
cbsched问题#
现象:
cbsched进程没有正常启动
定位:
cb.yaml文件中是否提示有配置错误(可看命令aip reconfigsched的输出是否报错)?
cbsched.<master>.log的日志文件中是否出现错误信息?
cbls是否运行正常?
目录localtop/work是否为SkyForm AIP第一管理员所有且具有写权限?
用户的典型问题#
问题1#
现象:
作业提交被拒
定位:
查看作业定义语法。
查看等待作业是否超出限制。
查看cbsched是否没有正常运行。
问题2#
现象:
作业长时间等待
定位:
运行cjobs -lp 作业ID 查看作业等待原因。列出的原因为调度在各个可以被调度的主机上未能成功调度的原因。
原因只列出作业可以被调度的主机,如队列只限制部分主机,或者用户提交作业时指定某些主机。另外maxslots: 0的主机 不会被考虑在调度的主机范围内。
用户是否要求了过多的资源?例如
要求的内存多于主机上的内存总量
定义的资源限制太过严格
用户ID在作业运行主机上是否有效?
用户是否请求了过多的作业执行?
使用aip job info -l查看作业等待的原因。
问题3#
现象:
我的作业失败了
定位:
确认从执行主机上可以访问应用及其数据文件。
使用cjobs -l查看上报的退出代码(exit code)。
常见的exit code
127 – 命令找不到
128 – 命令不能执行
by signal N – 命令被信号N中断(查看man signal和kill -l了解Linux系统信号的信息)
其他退出码 - 这些退出码是应用程序自身的退出码,请询问应用程序的作者
提交作业失败,参考 csub 尾部的排错部分。
作业不运行,参考 cjobs 里的作业等待原因。
作业异常退出,参考 cjobs 里的作业退出原因。
问题3#
现象:
我有异常作业
定位:
异常作业一般为超时限运行、内存使用不足、CPU使用不足等。可以使用 cjobs 的-S搜索表达式 定义搜索条件,找到符合条件的作业,再做详细分析。