olmon.conf#

配置文件#

olmon.conf

概述#

SkyForm AIP 监控 - Olmon 是一款用于 SkyForm AIP 的监控和数据分析软件。olmon.conf 文件定义了 Olmon 的配置参数。

描述#

olmon.conf 需要在安装过程中手动创建。该文件供 Olmon 使用。Olmon 仅支持 Elasticsearch v7和v8。

位置#

olmon.conf 的位置为 $CB_ENVDIR(/opt/skyformai/etc)。

格式#

olmon.conf 中的每个条目都采用以下格式之一:

NAME=VALUE

NAME=STRING1,STRING2,…

每个 NAME 后面必须跟等号 =

以井号 (#) 开头的行是注释,会被忽略。

参数#

eshosts

语法eshosts=host1,host2,…

说明:指定 Elasticsearch 服务器主机列表。多个主机名之间用逗号 (,) 分隔。 数据收集器默认将数据写入第一个主机。如果第一个主机不可用,则会尝试第二个主机、第三个主机,依此类推。

有效值:属于 Elasticsearch 集群的有效主机名。

默认值:未定义。如果没有此参数,olmon 服务将无法启动。

job_update_interval

语法job_update_interval=time_seconds

说明:Olmon 的数据收集器会定期向工作负载管理系统查询动态作业信息。 此参数指定两次查询之间的时间间隔(以秒为单位)。受此参数影响的 Elasticsearch 索引更新包括:jobs-time 和 users-time。

有效值:大于 10 的任意正整数。

默认值:30

host_update_interval

语法host_update_interval=time_seconds

说明:指定 Olmon 从工作负载管理系统查询主机信息的时间间隔。 Elasticsearch 索引主机时间的更新受此参数影响。

有效值:大于 10 的任意正整数。

默认值:30

resource_update_interval

语法resource_update_interval=time_seconds

说明:指定 Olmon 从工作负载管理系统查询共享资源的时间间隔。 Elasticsearch 索引 shres-time 的更新受此参数影响。

有效值:大于 10 的任意正整数

默认值:30

rusagepreason_update_interval

语法rusagepreason_update_interval=time_seconds

说明:指定 Olmon 工作负载管理系统查询作业等待原因的时间间隔。此参数的最小值为 job_update_interval。 Elasticsearch 索引 preasons-time 的更新受此参数影响。

有效值:大于 10 的任意正整数。

默认值:60

log_duration

语法log_duration=time_days

说明:指定 Olmon 保存数据的时间段(以天为单位)。任何超过此时间段的数据都将被覆盖。

有效值:大于 10 的任意正整数。

默认值:90

job_index

语法job_index=0 | 1

说明:指定是否使用索引“jobs”来存储作业详情数据。值 1 表示“是”,值 0 表示“否”。

有效值:0 或 1。0 表示“否”。1 表示“是”。

默认值:1(是)

lmstat_path

语法lmstat_path=/opt/skyformai/bin/aip

描述:指定许可证查询命令 aip 的绝对路径。

有效值:指定的路径必须可由主 AIP/LSF 管理员读取和执行。

默认值:无。许可证不受监控。

license_update_interval

语法license_update_interval=time_seconds

说明:指定从许可证服务器查询许可证使用情况的时间间隔。

有效值:大于 10 的任意正整数。

默认值:30

kibana

语法kibana=IP_address

说明:指定 Kibana 服务器的 IP 地址。Web 门户使用此参数导入 Kibana 可视化数据。

有效值:门户 Web 服务器可以访问的 Kibana 服务器 IP 地址。

默认值:无。 Kibana 未启用

grafana

语法grafana=IP_address

说明:指定 Grafana 服务器的 IP 地址。此参数用于 Web 门户导入 Grafana 仪表板。

有效值:门户 Web 服务器可以访问的 Grafana 服务器 IP 地址

默认值:无。Grafana 未启用

user_data_cmd

语法user_data_cmd=executable_path

说明:指定列出附加用户meta data数据的可执行文件。

用户meta data数据的输出格式如下:

第一行列出需要包含用户元数据的 Elasticsearch 索引名称。多个索引名称之间用空格分隔。

第二行列出元数据字段名称,例如“dept group proj”。

从第三行开始列出用户名及其关联的元数据。每行一个用户条目。

输出示例:

jobs users-time
dept team
u001 rd chip1
u002 rd chip2
u003 qa veri

有效值:以上述格式将用户meta data数据输出到标准输出的可执行文件的绝对路径。

默认值:无。用户meta data数据未启用。

user_data_interval

语法user_data_interval=time_seconds

说明:指定用meta data元数据的更新间隔(以秒为单位)。 由于用户meta data数据通常不会更改,因此建议将此参数的值保持在 3600 秒(一小时)以上,以避免系统过载。

有效值:大于 300 的任意整数。

默认值:3600 秒

purge_interval

语法purge_interval=time_days

说明:清理Elasticsearch垃圾数据的间隔(以天为单位)。

有效值:大于 1 的任意整数。

默认值:7(天)

logfiles

语法logfiles=daemon_name daemon_name …

说明:把调度器master服务器的daemon日志传入Elasticseatch。日志最多保留log_duration天(缺省90天)。日志的index名为 “log-daemon名-主机名”。

有效值:字串。

默认值:无,即不上传daemon日志。

use_estream

语法use_estream= “yes | no”

说明:olmon是否使用AIP的扩展stream数据来获取最新的调度期内有关作业、主机、队列、用户组等的信息。

有效值: yes 或 no。

默认值:由 jservice.yaml 里的use_estream参数决定。

警告

当使用AIP的扩展stream数据时,数据不是实时的,一般会有30-600秒的延迟,主要的作用是减低对调度器的压力。