olmon.conf#
配置文件#
olmon.conf
概述#
SkyForm AIP 监控 - Olmon 是一款用于 SkyForm AIP 的监控和数据分析软件。olmon.conf 文件定义了 Olmon 的配置参数。
描述#
olmon.conf 需要在安装过程中手动创建。该文件供 Olmon 使用。Olmon 仅支持 Elasticsearch v7和v8。
位置#
olmon.conf 的位置为 $CB_ENVDIR(/opt/skyformai/etc)。
格式#
olmon.conf 中的每个条目都采用以下格式之一:
NAME=VALUE
NAME=STRING1,STRING2,…
每个 NAME 后面必须跟等号 =
以井号 (#) 开头的行是注释,会被忽略。
参数#
- eshosts
语法:eshosts=host1,host2,…
说明:指定 Elasticsearch 服务器主机列表。多个主机名之间用逗号 (,) 分隔。 数据收集器默认将数据写入第一个主机。如果第一个主机不可用,则会尝试第二个主机、第三个主机,依此类推。
有效值:属于 Elasticsearch 集群的有效主机名。
默认值:未定义。如果没有此参数,olmon 服务将无法启动。
- job_update_interval
语法:job_update_interval=time_seconds
说明:Olmon 的数据收集器会定期向工作负载管理系统查询动态作业信息。 此参数指定两次查询之间的时间间隔(以秒为单位)。受此参数影响的 Elasticsearch 索引更新包括:jobs-time 和 users-time。
有效值:大于 10 的任意正整数。
默认值:30
- host_update_interval
语法:host_update_interval=time_seconds
说明:指定 Olmon 从工作负载管理系统查询主机信息的时间间隔。 Elasticsearch 索引主机时间的更新受此参数影响。
有效值:大于 10 的任意正整数。
默认值:30
- resource_update_interval
语法:resource_update_interval=time_seconds
说明:指定 Olmon 从工作负载管理系统查询共享资源的时间间隔。 Elasticsearch 索引 shres-time 的更新受此参数影响。
有效值:大于 10 的任意正整数
默认值:30
- rusagepreason_update_interval
语法:rusagepreason_update_interval=time_seconds
说明:指定 Olmon 工作负载管理系统查询作业等待原因的时间间隔。此参数的最小值为 job_update_interval。 Elasticsearch 索引 preasons-time 的更新受此参数影响。
有效值:大于 10 的任意正整数。
默认值:60
- log_duration
语法:log_duration=time_days
说明:指定 Olmon 保存数据的时间段(以天为单位)。任何超过此时间段的数据都将被覆盖。
有效值:大于 10 的任意正整数。
默认值:90
- job_index
语法:job_index=0 | 1
说明:指定是否使用索引“jobs”来存储作业详情数据。值 1 表示“是”,值 0 表示“否”。
有效值:0 或 1。0 表示“否”。1 表示“是”。
默认值:1(是)
- lmstat_path
语法:lmstat_path=/opt/skyformai/bin/aip
描述:指定许可证查询命令 aip 的绝对路径。
有效值:指定的路径必须可由主 AIP/LSF 管理员读取和执行。
默认值:无。许可证不受监控。
- license_update_interval
语法:license_update_interval=time_seconds
说明:指定从许可证服务器查询许可证使用情况的时间间隔。
有效值:大于 10 的任意正整数。
默认值:30
- kibana
语法:kibana=IP_address
说明:指定 Kibana 服务器的 IP 地址。Web 门户使用此参数导入 Kibana 可视化数据。
有效值:门户 Web 服务器可以访问的 Kibana 服务器 IP 地址。
默认值:无。 Kibana 未启用
- grafana
语法:grafana=IP_address
说明:指定 Grafana 服务器的 IP 地址。此参数用于 Web 门户导入 Grafana 仪表板。
有效值:门户 Web 服务器可以访问的 Grafana 服务器 IP 地址
默认值:无。Grafana 未启用
- user_data_cmd
语法:user_data_cmd=executable_path
- 说明:指定列出附加用户meta data数据的可执行文件。
用户meta data数据的输出格式如下:
第一行列出需要包含用户元数据的 Elasticsearch 索引名称。多个索引名称之间用空格分隔。
第二行列出元数据字段名称,例如“dept group proj”。
从第三行开始列出用户名及其关联的元数据。每行一个用户条目。
输出示例:
jobs users-time dept team u001 rd chip1 u002 rd chip2 u003 qa veri
有效值:以上述格式将用户meta data数据输出到标准输出的可执行文件的绝对路径。
默认值:无。用户meta data数据未启用。
- user_data_interval
语法:user_data_interval=time_seconds
说明:指定用meta data元数据的更新间隔(以秒为单位)。 由于用户meta data数据通常不会更改,因此建议将此参数的值保持在 3600 秒(一小时)以上,以避免系统过载。
有效值:大于 300 的任意整数。
默认值:3600 秒
- purge_interval
语法:purge_interval=time_days
说明:清理Elasticsearch垃圾数据的间隔(以天为单位)。
有效值:大于 1 的任意整数。
默认值:7(天)
- logfiles
语法:logfiles=“daemon_name daemon_name …”
说明:把调度器master服务器的daemon日志传入Elasticseatch。日志最多保留log_duration天(缺省90天)。日志的index名为 “log-daemon名-主机名”。
有效值:字串。
默认值:无,即不上传daemon日志。
- use_estream
语法:use_estream= “yes | no”
说明:olmon是否使用AIP的扩展stream数据来获取最新的调度期内有关作业、主机、队列、用户组等的信息。
有效值: yes 或 no。
默认值:由 jservice.yaml 里的use_estream参数决定。
警告
当使用AIP的扩展stream数据时,数据不是实时的,一般会有30-600秒的延迟,主要的作用是减低对调度器的压力。