Фестиваль РИТ++ 2017 завершён. Ждем вас на РИТ++ следующего года!

MathOps или математика в мониторингеЛогирование и мониторинг

Доклад принят в программу конференции
Павел Труханов
okmeter.io

Директор мониторинговой компании okmeter.io.

Тезисы

Мониторинг — это и cpu usage, iowait, load average, и времена ответа сайта и отдельных сервисов.

Тайминги ответа — среднее по всем запросам? Нет, подайте лучше медиану, а то и 99-перцентиль!

Но что такое перцентиль? Посмотрим в википедии и всё поймём! Не совсем.
Там тьма проблем, зачастую скрытых от наивных пытливых умов:
- При подсчете любой статистики от тысячи таймингов, будь-то среднее, перцентиль или что угодно, в любом случае теряются данные о распределении. Что нужно не терять и почему — зависит от решаемой задачи: когда и среднее сойдёт, а когда и перцентиль не поможет.
- Как это всё хранить и отображать на графиках? Для данных за неделю не хватит пикселей на вашем мониторе — как выбрать что оставить? А если много серверов ­— с каждого своя перцентиль?
- Вы, кажется, слышали, что за усреднение перцентилей выгоняют из приличного общества…

Когда со всем этим разобрались, то вы решили задать SLA на тайминги ответа сайта, допустим на 99-перцентиль. Не мало? Сколько 9-ок взять? 3, 5, 10? Что на самом деле происходит со временем ответа сервиса за пределами этих девяток?
Какое распределение у самих этих перцентилей? Насколько они шумные? Какая ошибка в минутных перцентилях накапливается за день, за неделю?
Может, есть что-то получше? Гистограммы! Но они не так гибки — надо заранее выставлять и угадать пороги.

В общем, если вам интересно знать, как сервисы _на самом деле_ ведут себя с точки зрения latency, то вам стоит прийти на мой доклад.

Отказоустойчивость
,
Распределенные системы
,
Логирование и мониторинг
,
Devops / другое
,
Выбор стратегии долгосрочного развития, KPI
,
Проектирование информационных систем
,
Внедрение и поддержка
,
Теории и техники анализа

Другие доклады секции Логирование и мониторинг