17 апреля 2018

Надежность World of Tanks Server и надежность оборудования

Надежность World of Tanks Server

Левон Авакян в своем докладе обещает рассказать, как выглядит World of Tanks Server (кластер кластеров) со всеми веб-сервисами, которые существуют вокруг. Какие узкие места с точки зрения отказоустойчивости есть внутри кластера, между кластерами, во взаимодействии с внешними веб-сервисами. Как в Wargaming решают возникающие проблемы технически, процессно, проектно.

Тонкая настройка балансировки нагрузки

Практически любой инженер примерно представляет, как организовать балансировку нагрузки. Николай Сивко из Okmeter.io планирует осветить такие пока не очень популярные аспекты, как:

  • политика повторных попыток (retries);
  • таймауты: connect/read/write/request timeout, tcp keep-alive;
  • backoff, circuit breaker: как не убить нижележащие серверы в момент аварии/перегрузки;
  • health checks;
  • outlier detection в балансировке.

Железо не подведет

Артём Артемьев из АО Первый хочет поговорить о том, как уменьшить вероятность поломки оборудования под нагрузкой, и рассказать о своем опыте. Недопустимо, чтобы «новый» сервер, взятый для задачи, работал плохо или не в полную силу. Правильная диагностика позволяет обеспечить исправность всех доступных серверов. Но как измерить здоровье «железяки», какие показатели правильные для CPU, памяти и устройств хранения.

Очевидные пути для проверки оборудования не подошли для пакетной работы, но экспериментальным путем в АО Первый добились того, что в работу отдаются только исправные машины, и Артём обещает нас этому научить.

Присоединяйтесь!

Если эта малая часть планируемых докладов уже кажется вам достаточно интересной, то направляйтесь на страницу бронирования. А в случае сомнений взгляните на видеозаписи прошлых выступлений (вся эксплуатация и DevOps одним плейлистом — очень удобно) или полистайте наш блог, например, на тему катастрофоустойчивости есть статья с прошлогоднего РИТ++.

Пряморукий DNS: делаем правильно

Лев Николаев из Макснет делится с сообществом своим ассортиментом граблей поэтапно. Во-первых, в вопросе создания резольвера. Почему в стандартной поставке почти любой операционной системы нет такого резольвера, который умел бы самостоятельно выполнять DNS-запросы от корневых серверов, совершенно непонятно. Но раз так, вот 5 вещей, которые нужно сделать в своем резольвере:

  1. Никаких форвардов к Яндексу или Google.
  2. SO_REUSEPORT
  3. Prefetch
  4. Expired
  5. DNSSEC

Далее задача усложняется и нужно держать зоны. И тут Лев совершенно категоричен: "Совмещать на одной машине резольвер и авторитетный сервер — это плохо". Такое же настроение и относительно софта, который не надо думать, что вы здесь выбираете, просто получите ответ: PowerDNS. И еще ряд моментов, начиная с некоторых мелочей жизни, типа той, что стоит перестать отвечать на ANY, и переосознания роли master/slave и заканчивая вдумчивой архитектурой, схема которой, кстати, приводится в статье.

До встречи 28 и 29 мая в Сколково!