Мониторинг и алерты
Мониторинг должен покрывать инфраструктуру, качество runtime и бизнес-эффект.
Инфраструктурные метрики
- CPU / память / диск
- latency и ошибки Redis
- подключения и медленные запросы Postgres
- частота рестартов контейнеров
Runtime-метрики
- число сигналов за интервал
- попытки исполнения и успешные ордера
- error rate по стратегиям
- latency API-ручек рынка
AI/ML метрики
- доля AI-одобрений
- распределение AI quality
- latency/ошибки ML-инференса
- drift распределения ML-скоров
Уровни алертов
- Warning: деградация, но сервис работает
- Critical: недоступность зависимости или длительный сбой исполнения
Реакция
- Warning отправляйте в on-call канал.
- Critical сопровождайте готовым rollback-планом.
- Для каждого инцидента фиксируйте postmortem-действия.