roles/kube-burner/files/metrics-aggregated.yaml

metrics:
  - query: (sum(irate(container_cpu_usage_seconds_total{name!="",container!="POD",namespace=~"openshift-(etcd|oauth-apiserver|sdn|ovn-kubernetes|.*apiserver|authentication|.*controller-manager|.*scheduler)"}[2m]) * 100) by (container, pod, namespace, node) and on (node) kube_node_role{role="master"}) > 0
    metricName: containerCPU-Masters

  - query: (avg(irate(container_cpu_usage_seconds_total{name!="",container!="POD",namespace=~"openshift-(sdn|ovn-kubernetes|ingress)"}[2m]) * 100 and on (node) kube_node_role{role="worker"}) by (namespace, container)) > 0
    metricName: containerCPU-AggregatedWorkers

  - query: (avg(irate(container_cpu_usage_seconds_total{name!="",container!="POD",namespace=~"openshift-(sdn|ovn-kubernetes|ingress|monitoring)"}[2m]) * 100 and on (node) kube_node_role{role="infra"}) by (namespace, container)) > 0
    metricName: containerCPU-AggregatedInfra

  - query: histogram_quantile(0.99, sum(rate(apiserver_request_duration_seconds_bucket{verb!="WATCH"}[5m])) by (le, verb)) > 0
    metricName: API99thLatency

  - query: (sum(container_memory_rss{name!="",container!="POD",namespace=~"openshift-(etcd|oauth-apiserver|.*apiserver|ovn-kubernetes|sdn|ingress|authentication|.*controller-manager|.*scheduler)"}) by (container, pod, namespace, node) and on (node) kube_node_role{role="master"}) > 0
    metricName: containerMemory-Masters

  - query: avg(container_memory_rss{name!="",container!="POD",namespace=~"openshift-(sdn|ovn-kubernetes|ingress)"} and on (node) kube_node_role{role="worker"}) by (container, namespace)
    metricName: containerMemory-AggregatedWorkers

  - query: avg(container_memory_rss{name!="",container!="POD",namespace=~"openshift-(sdn|ovn-kubernetes|ingress|monitoring)"} and on (node) kube_node_role{role="infra"}) by (container, namespace)
    metricName: containerMemory-AggregatedInfra

  - query: avg(irate(process_cpu_seconds_total{service="kubelet",job="kubelet"}[2m]) * 100 and on (node) kube_node_role{role="worker"})
    metricName: KubeletCPU-AggregatedWorkers

  - query: avg(process_resident_memory_bytes{service="kubelet",job="kubelet"} and on (node) kube_node_role{role="worker"})
    metricName: KubeletMemory-AggregatedWorkers

  - query: avg(irate(process_cpu_seconds_total{service="kubelet",job="crio"}[2m]) * 100  and on (node) kube_node_role{role="worker"})
    metricName: CrioCPU-AggregatedWorkers

  - query: avg(process_resident_memory_bytes{service="kubelet",job="crio"} and on (node) kube_node_role{role="worker"})
    metricName: CrioMemory-AggregatedWorkers

  - query: (sum(irate(node_cpu_seconds_total[2m])) by (mode,instance) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")) > 0
    metricName: nodeCPU-Masters

  - query: (avg((sum(irate(node_cpu_seconds_total[2m])) by (mode,instance) and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)"))) by (mode)) > 0
    metricName: nodeCPU-AggregatedWorkers

  - query: (avg((sum(irate(node_cpu_seconds_total[2m])) by (mode,instance) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)"))) by (mode)) > 0
    metricName: nodeCPU-AggregatedInfra

  - query: avg(node_memory_MemAvailable_bytes) by (instance) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: nodeMemoryAvailable-Masters

  - query: avg(node_memory_MemAvailable_bytes and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)"))
    metricName: nodeMemoryAvailable-AggregatedWorkers

  - query: avg(node_memory_MemAvailable_bytes and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)"))
    metricName: nodeMemoryAvailable-AggregatedInfra

  - query: avg(node_memory_Active_bytes) by (instance) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: nodeMemoryActive-Masters

  - query: avg(node_memory_Active_bytes and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)"))
    metricName: nodeMemoryActive-AggregatedWorkers

  - query: avg(avg(node_memory_Active_bytes) by (instance) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)"))
    metricName: nodeMemoryActive-AggregatedInfra

  - query: avg(node_memory_Cached_bytes) by (instance) + avg(node_memory_Buffers_bytes) by (instance) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: nodeMemoryCached+nodeMemoryBuffers-Masters

  - query: avg(node_memory_Cached_bytes + node_memory_Buffers_bytes and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)"))
    metricName: nodeMemoryCached+nodeMemoryBuffers-AggregatedWorkers

  - query: avg(node_memory_Cached_bytes + node_memory_Buffers_bytes and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)"))
    metricName: nodeMemoryCached+nodeMemoryBuffers-AggregatedInfra

  - query: irate(node_network_receive_bytes_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: rxNetworkBytes-Masters

  - query: avg(irate(node_network_receive_bytes_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: rxNetworkBytes-AggregatedWorkers

  - query: avg(irate(node_network_receive_bytes_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: rxNetworkBytes-AggregatedInfra

  - query: irate(node_network_transmit_bytes_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: txNetworkBytes-Masters

  - query: avg(irate(node_network_transmit_bytes_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: txNetworkBytes-AggregatedWorkers

  - query: avg(irate(node_network_transmit_bytes_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: txNetworkBytes-AggregatedInfra

  - query: (irate(node_network_receive_drop_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")) > 0
    metricName: rxDroppedPackets-Masters

  - query: (avg(irate(node_network_receive_drop_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)")) by (device)) > 0
    metricName: rxDroppedPackets-AggregatedWorkers

  - query: (avg(irate(node_network_receive_drop_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)")) by (device)) > 0
    metricName: rxDroppedPackets-AggregatedInfra

  - query: irate(node_network_transmit_drop_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: txDroppedPackets-Masters

  - query: (avg(irate(node_network_transmit_drop_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)")) by (device)) > 0
    metricName: txDroppedPackets-AggregatedWorkers

  - query: (avg(irate(node_network_transmit_drop_total{device=~"^(ens|eth|bond|team).*"}[2m]) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)")) by (device)) > 0
    metricName: txDroppedPackets-AggregatedInfra

  - query: rate(node_disk_written_bytes_total{device!~"^(dm|rb).*"}[2m]) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: nodeDiskWrittenBytes-Masters

  - query: avg(rate(node_disk_written_bytes_total{device!~"^(dm|rb).*"}[2m]) and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: nodeDiskWrittenBytes-AggregatedWorkers

  - query: avg(rate(node_disk_written_bytes_total{device!~"^(dm|rb).*"}[2m]) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: nodeDiskWrittenBytes-AggregatedInfra

  - query: rate(node_disk_read_bytes_total{device!~"^(dm|rb).*"}[2m]) and on (instance) label_replace(kube_node_role{role="master"}, "instance", "$1", "node", "(.+)")
    metricName: nodeDiskReadBytes-Masters

  - query: avg(rate(node_disk_read_bytes_total{device!~"^(dm|rb).*"}[2m]) and on (instance) label_replace(kube_node_role{role="worker"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: nodeDiskReadBytes-AggregatedWorkers

  - query: avg(rate(node_disk_read_bytes_total{device!~"^(dm|rb).*"}[2m]) and on (instance) label_replace(kube_node_role{role="infra"}, "instance", "$1", "node", "(.+)")) by (device)
    metricName: nodeDiskReadBytes-AggregatedInfra

  - query: sum(rate(etcd_server_leader_changes_seen_total[2m]))
    metricName: etcdLeaderChangesRate

  - query: etcd_server_is_leader > 0
    metricName: etcdServerIsLeader

  - query: histogram_quantile(0.99, rate(etcd_disk_backend_commit_duration_seconds_bucket[2m]))
    metricName: 99thEtcdDiskBackendCommitDurationSeconds

  - query: histogram_quantile(0.99, rate(etcd_disk_wal_fsync_duration_seconds_bucket[2m]))
    metricName: 99thEtcdDiskWalFsyncDurationSeconds

  - query: histogram_quantile(0.99, rate(etcd_network_peer_round_trip_time_seconds_bucket[5m]))
    metricName: 99thEtcdRoundTripTimeSeconds

  - query: etcd_mvcc_db_total_size_in_bytes
    metricName: etcdDBPhysicalSizeBytes

  - query: etcd_mvcc_db_total_size_in_use_in_bytes
    metricName: etcdDBLogicalSizeBytes

  - query: count(kube_namespace_created)
    metricName: namespaceCount

  - query: sum(kube_pod_status_phase{}) by (phase)
    metricName: podStatusCount

  - query: count(kube_secret_info{})
    metricName: secretCount

  - query: count(kube_deployment_labels{})
    metricName: deploymentCount

  - query: count(kube_configmap_info{})
    metricName: configmapCount

  - query: count(kube_service_info{})
    metricName: serviceCount

  - query: kube_node_role
    metricName: nodeRoles
    instant: true

  - query: sum(kube_node_status_condition{status="true"}) by (condition)
    metricName: nodeStatus

  - query: (sum(rate(container_fs_writes_bytes_total{container!="",device!~".+dm.+"}[5m])) by (device, container, node) and on (node) kube_node_role{role="master"}) > 0
    metricName: containerDiskUsage

  - query: sum(rate(etcd_object_counts{}[5m])) by (resource) > 0
    metricName: etcdObjectCount

  - query: cluster_version{type="completed"}
    metricName: clusterVersion
    instant: true

  - query: sum by (cluster_version)(etcd_cluster_version)
    metricName: etcdVersion
    instant: true