安装AIP#

安装前准备#

在开始安装SkyForm AIP前,请先做好以下准备工作:

  • 获取安装包

    从官方网站上下载 https://skyformaip.com

  • 对每一个集群里的主机:

    • 主机使用静态IP地址。

    • 集群主机中主机间内网的防火墙是关闭的。

    • 所有主机上的登录用户具有相同的用户名、用户号(uid)和用户组,用LDAP作为用户认证的系统无需单独设置。

    • 确保依赖软件包都已安装(详情请参考集群和节点环境准备)。所需的包为libcurl, libyaml, psmisc, net-tools, libnsl。

      对于图形服务器,安装桌面(如GNOME Desktop)和openbox(需要先安装epel-release)。

    • 挂载共享文件系统中的SkyForm AIP的目录(目录结构见下节的图)。

  • 选择两个主机作为集群的主节点(master)候选机,SkyForm AIP的调度器会自动在第一个主节点上运行,当第一个主节点失败后,调度器和监控服务会在第二个主节点上自动启动实现不间断地服务。用户命令会自动找到活的主节点。

  • 在用户认证系统中生成一个用户cadmin作为AIP的管理员。

准备文件系统#

SkyForm AIP的容错依赖于共享文件系统。把可执行文件和配置文件安装在共享文件系统中也便于数据备份、软件升级和支持不同版本的操作系统。SkyForm AIP对共享文件系统没有特殊要求,只要是POSIX兼容即可。

图2描述了SkyForm AIP的文件结构:

../_images/aip_filestruct.png

SkyForm AIP安装文件目录结构#

图的左侧是每个主机上文件的结构,右侧是在文件服务器上的文件结构。不同版本的二进制文件会被安装在不同的路径中,只要修改本地存储上的链接,并重启服务,就可在不改变用户环境的情况下切换SkyForm AIP的版本,即:

  1. 在每个主机上mount SkyForm AIP的共享安装, 如/share/skyformai_shared。

  2. 在每个主机上建立一个本地空目录以便让安装工具在里面生成链接,如/opt/skyformai。

将SkyForm AIP安装到共享文件系统里#

在任何一台mount好共享文件系统的主机上展开软件包:

# tar xvfz skyformai-10.*.tar.gz

在以上展开的同一目录下准备文件:

文本文件hosts列出AIP管理节点和计算节点的IP地址和主机名。在有多网络的情况下,仅列出供AIP内部通讯所用的网络的IP地址。主机名使用不带域名的短主机名,主机名必须相应主机上的hostname -s输出一致。文件中不要含localhost行。hosts文件的例子:

192.168.20.100 exp001
192.168.20.101 exp002
...
192.168.20.102 exp010

警告

hosts文件中主管理节点必须放在头部。

运行脚本install ,指定共享目录名(缺省为/opt/skyformai_shared):

./install --shared=/share/skyformai_shared

小技巧

install脚本的所有选项参考 install

安装每台主机#

到目前为止所有SkyForm AIP的文件已经在共享文件系统中安装完毕,现在需要在每个主机上做相应的本地配置。配置工具为host-setup。运行时需要指定共享目录名(缺省为/opt/skyformai_shared)。例子:

/share/skyformai_shared/host-setup

host-setup会完成以下几个动作:

  1. local_top_dir中建立链接

  2. 设置并启动Linux服务aip,即SkyForm AIP的服务

  3. 设置用户登录后用SkyForm AIP的环境(/etc/profile.d)

例子:

../_images/host-setup.png

备注

SkyForm AIP软件包缺省为企业版,第一次安装自带45天的企业版功能。45天后自动降级为免费版。若发现key有问题,可以修改 /opt/skyformai/etc/cb.yaml里的参数enterprise, 注释掉或者删除该参数,然后重启主管理节点上的AIP服务。

主机安装企业版功能#

  1. 可执行文件安装在本地

    ./host-setup --shared=/share/skyformai_shared --deploylocal
    
  2. 安装3D图形远程可视化和AI开发应用环境

    ./host-setup --shared=/share/skyformai_shared --gui
    
  3. ssh登录控制能力,用户只有在某个节点上有作业运行时才可以ssh到该节点

    ./host-setup --shared=/share/skyformai_shared --sshcontrol
    

小技巧

host-setup脚本的所有选项参考 host-setup

测试#

所有主机的安装都完成后,退出终端登录。重新登录以获取AIP环境,然后运行命令aip cluster info和aip queue info并以一般用户的身份提交作业来测试集群是否工作正常。

aip cluster info
../_images/aip_cluster_info.png
aip queue info
../_images/aip_queue_info.png

AIP支持SLURM和LSF命令:

../_images/aip_slurm_lsf.png

备注

集群超过500个主机,或者活动作业量超过100,000个作业,或者有多个脚本调用bjobs命令频繁查询作业状态的集群,master主机 的操作系统需要调参。详见 大机群或者高通量负载集群操作系统调参