Перейти к основному содержимому

Мониторинг и алерты

Мониторинг должен покрывать инфраструктуру, качество runtime и бизнес-эффект.

Инфраструктурные метрики

CPU / память / диск
latency и ошибки Redis
подключения и медленные запросы Postgres
частота рестартов контейнеров

Runtime-метрики

число сигналов за интервал
попытки исполнения и успешные ордера
error rate по стратегиям
latency API-ручек рынка

AI/ML метрики

доля AI-одобрений
распределение AI quality
latency/ошибки ML-инференса
drift распределения ML-скоров

Уровни алертов

Warning: деградация, но сервис работает
Critical: недоступность зависимости или длительный сбой исполнения

Реакция

Warning отправляйте в on-call канал.
Critical сопровождайте готовым rollback-планом.
Для каждого инцидента фиксируйте postmortem-действия.

Инфраструктурные метрики
Runtime-метрики
AI/ML метрики
Уровни алертов
Реакция