Хронология событий
Резюме по инциденту
28.07.2022 с 14:31 до 21:40 МСК пользователи SaaS версии ELMA365
испытывали сложности с доступом к платформе ELMA365.
Мы приносим
свои извинения всем пользователям, кого затронул данный инцидент, и
хотим рассказать подробнее о случившемся и мерах предотвращения
повторения подобной ситуации в будущем.
Что произошло?
28 июля произошёл всплеск нагрузки на один из Кластеров ELMA365 SaaS.
Постоянно возрастающий объем данных пользователей и непрерывная
нагрузка со стороны клиентов привела в этот момент к тому, что кластер
PostgreSQL потерял контроль над использованием памяти, не смотря на
то, что вычислительная мощность была занята лишь наполовину, это
привело к падению.
Причины:
Для обеспечения доступности цен SaaS решения клиенты SaaS Standard
размещаются по несколько компаний в одном кластере. Это позволяет
оптимизировать стоимость «разделяемых» мощностей, поддержки БД, а
также удерживать цены на SaaS лицензии ELMA365 несмотря на повышение
стоимости IaaS решений у всех облачных провайдеров в России.
ELMA365 — это Low-code платформа с широким функционалом и
постоянно растущими возможностями кастомизации.
Каждый клиент
ELMA365 имеет уникальные процессы и управляет ими по-своему. Нагрузка
на платформу нелинейна и зависит от активности клиента. В архитектуру
кластера заложены колебания нагрузки на основе статистики по
средне-максимальным значениям. В случае инцидента 28.07 крайнее
допустимое значение было значительно превышено.
Меры для предотвращения повторения подобной ситуации в будущем: