Перейти к основному содержимому

Мониторинг и алерты

Мониторинг должен покрывать инфраструктуру, качество runtime и бизнес-эффект.

Инфраструктурные метрики

  • CPU / память / диск
  • latency и ошибки Redis
  • подключения и медленные запросы Postgres
  • частота рестартов контейнеров

Runtime-метрики

  • число сигналов за интервал
  • попытки исполнения и успешные ордера
  • error rate по стратегиям
  • latency API-ручек рынка

AI/ML метрики

  • доля AI-одобрений
  • распределение AI quality
  • latency/ошибки ML-инференса
  • drift распределения ML-скоров

Уровни алертов

  • Warning: деградация, но сервис работает
  • Critical: недоступность зависимости или длительный сбой исполнения

Реакция

  • Warning отправляйте в on-call канал.
  • Critical сопровождайте готовым rollback-планом.
  • Для каждого инцидента фиксируйте postmortem-действия.