安装AIP#
安装前准备#
在开始安装SkyForm AIP前,请先做好以下准备工作:
获取安装包
从官方网站上下载 https://skyformaip.com。
对每一个集群里的主机:
主机使用静态IP地址。
集群主机中主机间内网的防火墙是关闭的。
所有主机上的登录用户具有相同的用户名、用户号(uid)和用户组,用LDAP作为用户认证的系统无需单独设置。
确保依赖软件包都已安装(详情请参考集群和节点环境准备)。所需的包为libcurl, libyaml, psmisc, net-tools, libnsl。
对于图形服务器,安装桌面(如GNOME Desktop)和openbox(需要先安装epel-release)。
挂载共享文件系统中的SkyForm AIP的目录(目录结构见下节的图)。
选择两个主机作为集群的主节点(master)候选机,SkyForm AIP的调度器会自动在第一个主节点上运行,当第一个主节点失败后,调度器和监控服务会在第二个主节点上自动启动实现不间断地服务。用户命令会自动找到活的主节点。
在用户认证系统中生成一个用户cadmin作为AIP的管理员。
准备文件系统#
SkyForm AIP的容错依赖于共享文件系统。把可执行文件和配置文件安装在共享文件系统中也便于数据备份、软件升级和支持不同版本的操作系统。SkyForm AIP对共享文件系统没有特殊要求,只要是POSIX兼容即可。
图2描述了SkyForm AIP的文件结构:

SkyForm AIP安装文件目录结构#
图的左侧是每个主机上文件的结构,右侧是在文件服务器上的文件结构。不同版本的二进制文件会被安装在不同的路径中,只要修改本地存储上的链接,并重启服务,就可在不改变用户环境的情况下切换SkyForm AIP的版本,即:
在每个主机上mount SkyForm AIP的共享安装, 如/share/skyformai_shared。
在每个主机上建立一个本地空目录以便让安装工具在里面生成链接,如/opt/skyformai。
将SkyForm AIP安装到共享文件系统里#
在任何一台mount好共享文件系统的主机上展开软件包:
# tar xvfz skyformai-10.*.tar.gz
在以上展开的同一目录下准备文件:
文本文件hosts列出AIP管理节点和计算节点的IP地址和主机名。在有多网络的情况下,仅列出供AIP内部通讯所用的网络的IP地址。主机名使用不带域名的短主机名,主机名必须相应主机上的hostname -s输出一致。文件中不要含localhost行。hosts文件的例子:
192.168.20.100 exp001
192.168.20.101 exp002
...
192.168.20.102 exp010
警告
hosts文件中主管理节点必须放在头部。
运行脚本install ,指定共享目录名(缺省为/opt/skyformai_shared):
./install --shared=/share/skyformai_shared
小技巧
install脚本的所有选项参考 install
安装每台主机#
到目前为止所有SkyForm AIP的文件已经在共享文件系统中安装完毕,现在需要在每个主机上做相应的本地配置。配置工具为host-setup。运行时需要指定共享目录名(缺省为/opt/skyformai_shared)。例子:
/share/skyformai_shared/host-setup
host-setup会完成以下几个动作:
在local_top_dir中建立链接
设置并启动Linux服务aip,即SkyForm AIP的服务
设置用户登录后用SkyForm AIP的环境(/etc/profile.d)
例子:

备注
SkyForm AIP软件包缺省为企业版,第一次安装自带45天的企业版功能。45天后自动降级为免费版。若发现key有问题,可以修改 /opt/skyformai/etc/cb.yaml里的参数enterprise, 注释掉或者删除该参数,然后重启主管理节点上的AIP服务。
主机安装企业版功能#
可执行文件安装在本地
./host-setup --shared=/share/skyformai_shared --deploylocal
安装3D图形远程可视化和AI开发应用环境
./host-setup --shared=/share/skyformai_shared --gui
ssh登录控制能力,用户只有在某个节点上有作业运行时才可以ssh到该节点
./host-setup --shared=/share/skyformai_shared --sshcontrol
小技巧
host-setup脚本的所有选项参考 host-setup
测试#
所有主机的安装都完成后,退出终端登录。重新登录以获取AIP环境,然后运行命令aip cluster info和aip queue info并以一般用户的身份提交作业来测试集群是否工作正常。
aip cluster info

aip queue info

AIP支持SLURM和LSF命令:

备注
集群超过500个主机,或者活动作业量超过100,000个作业,或者有多个脚本调用bjobs命令频繁查询作业状态的集群,master主机 的操作系统需要调参。详见 大机群或者高通量负载集群操作系统调参 。