ELMA365 On-Premises > ELMA365 On-Premises Enterprise > Администрирование ELMA365 Enterprise / Анализ производительности системы с помощью дэшборда ELMA365-Overview

Анализ производительности системы с помощью дэшборда ELMA365-Overview

Вы можете отслеживать ключевые показатели системы в реальном времени, используя дэшборд ELMA365-Overview.

Он состоит из следующих разделов:

elma365-overview-dashboard-1

Для корректной работы дэшборда предварительно установите и настройте средства мониторинга согласно следующим статьям:

Рассмотрим более подробно содержание разделов дэшборда ELMA365-Overview.

Раздел «ELMA365»

В этом разделе представлены графики, показывающие состояние процессов в системе: запросы с Front API и время их обработки, запросы к Web API, а также статистика выполнения скриптов.

Если значения показателей превышают норму, следует оптимизировать скрипты.

elma365-overview-dashboard-2

Раздел «ELMA365 – Telemetry»

С помощью графиков в этом разделе вы увидите показатели выполнения скриптов.

elma365-overview-dashboard-3

Раздел «Kubernetes Cluster»

На графиках этого раздела вы увидите информацию о Kubernetes-кластере: размер базы данных etcd, количество запросов, которые поступают к API-серверу Kubernetes-кластера, и задержку запросов (latency) к etcd.

elma365-overview-dashboard-14

Раздел «Pods info»

На этих графиках обратите внимание на потребление CPU и памяти подов, а также на изменение статусов подов за выбранные промежутки времени.

Если наблюдается резкий рост потребления ресурсов и их нехватка, увеличьте количество ресурсов и реплик, а также лимиты для подов. Затем изучите логи сервисов, чтобы выявить возможные источники неполадок и устранить их.

elma365-overview-dashboard-4

Раздел «Nodes info»

В этом разделе содержится информация о состоянии кластера, включая графики, отображающие потребление CPU и памяти, среднюю нагрузку, сетевой трафик и доступное дисковое пространство на нодах. На основе этих данных можно выявить нештатные ситуации и принять меры для их устранения. Например, если нужно увеличить недостающие ресурсы, добавьте дополнительные ноды (8CPU, 16Mem).
Если вы развернули стандартный кластер Kubernetes, установите систему Linux для работы в условиях высокой нагрузки, чтобы обеспечить оптимальную производительность кластера.

elma365-overview-dashboard-5

В следующих разделах представлена информация о мониторинге состояния баз данных: Postgres, RabbitMQ, MongoDB и Redis.

Раздел «Postgres»

Наиболее важным графиком в этом разделе является Stat activity. Он показывает информацию по текущей активности. Если значение графика приближается к максимальному (Max Connections), увеличьте параметр max_connections.

elma365-overview-dashboard-6Раздел «RabbitMQ»

Обратите внимание на график Messages per Queue. Он показывает сообщения в очереди. С его помощью можно определить, в каком микросервисе накапливаются сообщения. Если количество сообщений не уменьшается, перезагрузите соответствующий микросервис и изучите логи сервиса с помощью Loki.

elma365-overview-dashboard-7

Раздел «MongoDB»

На графиках в этом разделе вы можете наблюдать за показателями открытых подключений, нагрузкой на память и операциями запросов.

Для отслеживания производительности и эффективности базы данных используйте график Query Operations. С его помощью можно анализировать различные метрики, связанные с операциями запросов в MongoDB.

elma365-overview-dashboard-8

Раздел «Redis»

Обратите внимание на график Total Commands / sec, который отображает общее количество команд в секунду. Он служит для мониторинга производительности и эффективности кэша Redis. Также график позволяет анализировать различные метрики, связанные с исполнением команд в Redis.

elma365-overview-dashboard-9

Раздел «Ingress»

В этом разделе вы можете узнать оставшийся срок действия сертификатов и количество HTTP‑запросов, проходящих через Ingress.

Если на графике HTTP Error увеличилось количество ошибок, изучите логи Ingress Nginx для выявления причин.

elma365-overview-dashboard-10

Раздел «Logs»

Этот раздел служит для быстрого анализа логов. Вы можете выявить сервис с наибольшим количеством ошибок за указанный период и изучить логи, которые в нём зарегистрированы с помощью Loki.

elma365-overview-dashboard-11

Раздел «Linkerd»

Если установлен сервис Linkerd, в этом разделе можно отслеживать состояние mesh-соединений определённого deployment. Важно следить за графиком Successful rate. При возникновении проблем количество успешных подключений будет снижаться. В этом случае проанализируйте работу Linkerd, включая проверку внутреннего сертификата и анализ логов сервиса.

На представленном графике зафиксирован момент снижения производительности. При этом возникло предупреждение: level=warning msg="unable to parse quantity's suffix (config.linkerd.io/proxy-memory-limit)". В этом случае проверьте конфигурационный файл Linkerd и исправьте ошибки в параметрах requests и limits.

elma365-overview-dashboard-12

Раздел «Kubernetes Events – Stats»

С помощью графиков в этом разделе можно отслеживать различные события в кластере и получать информацию о состоянии подов.

elma365-overview-dashboard-13

События, связанные с подами (Containers):

  • Image Pull Failed — невозможно скачать образ контейнера для запуска пода, например, если недоступен контейнерный регистр или отсутствует запрашиваемый образ;
  • Liveness Probe Failed — это событие появляется, если нарушена связь между подом и liveness probe, с помощью которого проверяется корректность работы пода;
  • Volume Mount Failed не удаётся смонтировать постоянный том (volume) или ресурс хранения. Такое поведение может возникнуть, если неправильно настроено хранилище либо есть проблемы с сетью или разрешениями;
  • Container OOM Killed — под завершил работу из-за нехватки памяти. Событие появляется, если под потребляет слишком много памяти и узел не может обеспечить требуемые ресурсы;
  • Container Crashed — аварийная остановка контейнера. Причиной может быть ошибка внутри контейнера или его некорректная работа;
  • Pod Evicted — под удалён из-за нехватки памяти или CPU. Событие появляется, если перегружается узел или под потребляет большое количество ресурсов.

События, связанные с планированием (Scheduling):

  • Scheduling Failed — это событие происходит, когда планировщик Kubernetes не может разместить под на узле из-за нехватки ресурсов или других ограничений.

События, связанные с системой (System):

  • System OOM — это событие фиксируется, когда не хватает памяти на системном уровне, например из-за высокой нагрузки на узел или недостаточных системных ресурсов.