安装登录节点和Web门户#

AIP自带的web门户只提供简单功能,可作为演示或一般小集群和少量用户使用。全功能的web门户由SkyForm算力应用平台提供。

系统准备#

安装所需系统软件和服务:

安装依赖的软件包: - EL7

yum -y install epel-release
yum -y install nginx php-fpm php php-pecl-yaml
systemctl enable nginx php-fpm
  • EL8+

yum -y install epel-release
yum -y install nginx php-fpm php php-json
systemctl enable nginx php-fpm

找到aip包里的php-yaml.el8.x86_64.tar.gz

tar xfz php-yaml.el8.x86_64.tar.gz -C /
  • Ubuntu 20+

apt install nginx php-fpm php php-json php-yaml apache2

备注

由于门户集成了对Grafana和Kibana的可视化嵌入集成,NGINX中配置了端口13000和15601的转发。若有其他服务使用 这些端口,则需要把其他服务去掉或者修改端口。门户的这两个端口是写死的,修改较困难。

如果web门户不是管理节点,安装AIP客户端#

备注

如果节点上已经安装了AIP服务,请跳转下一节。

在AIP包解压的目录下,运行client-install。运行过程中需要输入主master和第2master的主机名和相应的IP地址。例子见下:

../_images/client_install.png

安装完后,重新登录更新环境,就可以运行测试命令aip cluster info。

安装Web门户#

安装GUI文件

./portal-install

测试#

在浏览器中使用机器IP访问安装好的SkyForm Web用户门户:

https://<gui_server>

../_images/portal_login.png

Web门户使用操作系统的用户和密码登录。登陆后AIP管理员会显示系统仪表盘

../_images/portal_dashboard.png

而一般用户登录后显示用户的作业(任务)列表。

门户应用集成#

请参考 Web门户应用集成

集成AIP监控数据分析系统#

AIP监控数据分析系统 采集AIP调度器的主机负载和作业数据,存放到Elasticsearch中,使用Kibana做数据分析,并用Grafana 实现可视化的报表。

AIP门户自动检测/opt/skyformai/etc/olmon.conf文件,自动集成Kibana和Grafana里的可视化图表。

警告

如果opt/skyformai/etc/olmon.conf文件存在,而Elasticsearch、Kibana、或Grafana其中任何一个服务不能访问, 门户会卡住。

备注

如果要禁止与监控数据分析系统的集成功能,可以把/var/www/html/dashboard.php的第45行改成:$_SESSION['es'] = FALSE;

由于门户使用HTTPS,而一般Kibana和Grafana使用HTTP,需要在门户的NGINX中实现转发。

  • 修改/etc/nginx/nginx.conf的第60行里的Kibana访问URL,如 proxy_pass http://10.23.10.24:5601/;

  • 修改/etc/nginx/nginx.conf的第79行里的Grafana访问URL,如 proxy_pass http://10.23.10.24:3000/;

修改后重启NGINX:

systemctl restart nginx

管理员登录门户后,可以看到左边菜单里的“监控”,列出Grafana里的仪表盘,点击任意一项可显示仪表盘的内容。

../_images/portal_monitor.png

点击左侧菜单中的“报表”可以显示Kibana里配置的可视化标题,点击任意标题可显示可编辑的内容。

../_images/portal_monitor2.png

排错#

如果用户无法登录,或者登录后看不到作业,用普通终端登录到管理主节点,检查AIP的状态。 有些系统中如果安装过其他调度器,如SLURM,里面会有与AIP相重的命令,如lsid,这些命令 会导致门户的失败,需要去掉这些命令。