Фестиваль РИТ++ 2016 завершён. Изучайте презентации, смотрите фотографии и ждите видео :)
Профессиональная конференция по эксплуатации и devops
Проходит в рамках фестиваля
Российские интернет-технологии
Разработать мало, надо ведь ещё грамотно поддерживать и развивать! Все темы, связанные с эксплуатацией веб-проектов: логгирование и мониторинг, технология виртуализации и контейнеризации, управление конфигурацией, непрерывное развёртывание и деплой, технологии отказоустойчивости и катастрофоустойчивости, управление в эксплуатации.
  • Bosun: современный мониторинг

    Доклад о Bosun (http://bosun.org) — мониторинге от StackExchange и его использовании в https://www.onetwotrip.com/ за 1,5 года.

    Строить мониторинг сложно, не работает подход "посадить людей смотреть на дашборды" либо обнаруживать аномалии во всех данных. Алерты должны соответствовать реальности и проверять сложные сценарии. В Bosun, как и во многих современных продуктах, метрики (данные) ортогональны правилам (коду) обнаружения алертов. Это позволяет гораздо быстрее создавать и настраивать правила, в том числе тестируя их на данных из прошлого. Вместо итераций в дни или недели теперь минуты.

    Workflow настройки мониторинга точно такой же, как у всех остальных разработчиков, причём они сами могут принимать участие без помощи админов, так же создавая оповещения, перенаправляя инциденты на себя. Таким образом принимая ответственность за то, что они выкатывают в продакшн.

    В Bosun продуманная схема данных, а также мощный язык их обработки, напоминающий R/pandas. В несколько строк пишутся map/reduce выражения, проверяющие соотношения, например, входящего трафика и загрузки бэкендов. Всё это после серьёзного, но благодарного труда, работает в динамической инфраструктуре и не срабатывает без повода, а если уж срабатывает, то к каждому инциденту можно приложить какой угодно контекст с состоянием (графиком параметров) системы, вычислением условий и ссылками на дашборды.

    MIT лицензия, продукт созданный в StackExchange для решения собственных задач, на мой взгляд, ориентирован на компании со средней+ инфраструктурой.

  • Prometheus: мониторинг микросервисных приложений

    Prometheus, в отличие от классических систем, даёт возможность легко поднять и поддерживать мониторинг быстро меняющихся и сложно организованных систем. Я расскажу об опыте внедрения, подводных камнях и неожиданном поведении, покажу способы быстрой конфигурации всей системы, включая уведомления и дашборды.

    В дополнение к классическим проблемам мониторинга монолитного приложения, микросервисы создают массу новой головной боли для мониторинга. Расположение сервисов постоянно меняется, часто появляются новые сервисы, меняются зависимости между ними, временные job'ы запускаются в случайном месте — пропадает понятие стабильной конфигурации. Пропадает понятие продакшна: в одной среде запущено множество версий одного сервиса — при деплое, для разных сегментов аудитории, для тестов и т.п. Разработчики же при виде такого счастья склонны быстро улучшать приложение, создавать много новых метрик, постоянно убивать старые и, несмотря на это, ожидать работающий мониторинг и реакции на новые проблемы.

    Prometheus построен по мотивам Google Borgmon и отлично решает эти проблемы, предоставляя инструменты для автоматического и быстрого ручного обновления конфигурации. Запустился новый сервер, новый сервис, новая версия — и они уже подключены в мониторинг. Остановились — их там нет, если не нужны. Пропала неактуальная метрика — алертинг умеет с этим жить.

    После этого доклада у вас будет понимание, насколько Prometheus подходит для использования в ваших системах.

  • Highload в ВУЗе: идеализм, расчётливый менеджмент или пустые надежды

    Highload — тот ещё секс в нашей жизни. Можно ли научить сексу заранее тех, кто не нюхал пороха?

    В своей работе я часто сталкиваюсь с бойцами от разработки, управления проектами, информационной безопасности и даже эксплуатации, возможно даже опытными, с медалями первой степени, но из другого рода продуктов, из "обычного софта" что ли... Эти ребята действительно уверены, что база данных всегда ответит их приложению быстро. Они с пеной у рта доказывают, что точки интеграции с elastic'ом защищать не нужно и можно делать синхронные вызовы к нему на входе в приложение. Они обижаются, когда их приложение падает. Недоумевают, почему разбираться с этим нужно вместе — ведь на тестовой все работало, а на машине у программера, вообще, все летало!!!

    И только с кровью и потом приходит понимание. Поскольку кровь и пот не только их, но и мои, я задумался: а можно ли ещё на этапе грудного вскармливания подмешать этих знаний в молодые умы? Чтоб уж, если не писали сразу с учётом боевой нагрузки, то хотя бы чтоб быстро понимали, как исправлять приложение.

    Как итог: новый спецкурс на Факультете информационных технологий в НГУ.
    Два года, два потока.
    Переписанная два раза программа, мысли переписать снова.
    Трудности с лабораторными стендами. Пошёл через облака — отдал своих кровных 5 000 за время, пока настраивал, и две пары лабораторной работы в Azure.
    Отказался от идеи показать для сравнения мир Microsoft с его release manager и desired state config.
    С удивлением включил в программу вопросы непрерывной интеграции, а думал говорить только про поставку.
    Мясо, нужно больше мяса, но нужны помощники, где взять опытных волонтеров со сбитыми костяшками.
    Мучения с погружением в кухню рецептов, как показать и дать потрогать, чтоб поняли, не имея опыта эксплуатации.
    Когда это даст эффект, если даст?

    Вопросы в темноте....

    P.S. И да, я рассказываю про ITIL и не считаю это лишним.

  • Ceph BlueStore — новый тип хранилища в Ceph

    - Что такое SDS (общие места для (почти) всех решений — масштабирование, абстрагирование от аппаратных ресурсов, управление с помощью политик, кластерные ФС);
    - Почему мы решили использовать SDS (нужно было объектное хранилище);
    - Почему решили использовать именно Ceph, а не другие открытые (GlusterFS, Swift...) или проприетарные (IBM Elastic Storage, Huawei OceanStor) решения;
    - Что еще умеет Ceph, кроме object storage (RBD, CephFS);
    - Как работает Ceph (со стороны сервера);
    - Что нового дает BlueStore по сравнению с классическим (поверх ФС);
    - Сравнение производительности (метрики тестов);
    - BlueStore — все еще tech preview;
    - Заключение. Ссылки, литература.

  • Движение по хрупкому дну

    Сегодня Интернет увлечен микросервисами, контейнерами и immutable-инфраструктурой. Очень сложно не поддаться искушению внедрить что-то подобное в компании, в которой вы работаете сейчас. Я попытаюсь отговорить вас использовать эти технологии во вред приложению, себе и бизнесу компании в целом. Я расскажу о типовом проекте, который был запущен в 20 странах за 4 месяца, проблемах, которые я встретил, и выводах, которые я сделал.

    - Почему микросервисы не спасут, а похоронят ваш проект.
    Я расскажу на основе собственного опыта, почему не стоит увлекаться микросервисами для небольших проектов, почему благие намерения — упрощение деплоя и увеличение числа деплоев, увеличение доступности и улучшение масштабирования ведут к отсутствию гибкости и критическому уменьшению стабильности системы.

    - Почему ваша система слишком сложна для своих задач.
    Я расскажу, почему не стоит усложнять систему, почему, скорее всего, ваша система слишком сложна для задач, которые она решает и почему вы не контролируете то, что происходит в системе. Я объясню, почему вы потратите все свое время на отладку сложной системы, вместо того чтобы решать задачи бизнеса.

    - Почему Docker используется неправильно.
    Будут предоставлены реальные примеры использования Docker для нового проекта и для портированного проекта, я объясню, с какими проблемами сталкиваются операторы при работе с Docker на живых примерах, объясню, почему вы, скорее всего, используете Docker неправильно, и предложу варианты, как этого избежать.

    - Почему immutable слишком статичен для вашей компании.
    Я расскажу про свой опыт работы с immutable и объясню, почему, на мой взгляд, переход к подобной инфраструктуре случается слишком рано. Расскажу, основываясь на реальном проекте, об одном из подходов с использованием облака, Chef, Packer и Terraform и о серьезных проблемах, которые возникали в процессе оперирования этим проектом.

    - Почему Agile, CI, CD и ChatOps не заработают для вашей компании.
    Я расскажу, почему автоматизация в стартовавших проектах скорее вредит, чем помогает, и про то, как восьмикратное увеличение количества деплоев не улучшило качество продукта, а даже наоборот; как изменилось поведение программистов с упрощением процесса деплоя, и почему ChatOps/NoOps — всего лишь приятная иллюзия.

  • Релиз инжиниринг Mail.ru, взгляд изнутри

    В нашей большой компании мы столкнулись с задачей выкладывания релизов наших проектов на несколько групп серверов по нескольким сотням машин.
    Мы решили разработать свой софт для удобного деплоя, поскольку задача, на мой взгляд, достаточно сложная, потому что каждая секунда при выкатке решает очень многое.
    Почему именно разработать что-то свое, а не использовать что-то готовое, например, Fabric или Capistrano?

    Все просто:
    1. Система должна быть написана на языке, на котором принято разрабатывать в компании.
    2. Все возникающие трудности и проблемы должны быть решены в кратчайшие сроки, нет времени ждать пока чья-то техподдержка прилетит на помощь на голубом вертолете :)
    3. Система должна быть безопасна, полностью с открытыми кодами для безопасников.
    4. Минимизированы зависимости от внешних модулей.

    Вкратце расскажу о том, как мы раскладываем front-end для наших проектов в Mail.ru Group в продакшн и на тестовые сервера.
    В частности, расскажу, как мы собираем версточный релиз.
    Расскажу о том, как его запаковать и как аккуратно раздать на несколько сотен серверов.
    Расскажу об архитектуре мониторинга системы обновлений, а также покажу, как выглядит наш дашборд, по которому мы понимаем, что все хорошо.

    Отвечу на все интересующие вас вопросы и дам несколько рекомендаций, которые помогут вам обойти подводные грабли, на которые наступали мы.

  • Кит на службе у человека: microPaaS Deis

    Всем, кто сталкивался с запуском веб-сервисов, хорошо знакомы вопросы, возникающие при выпуске нового продукта:
    - нужно создать вируталки/залить сервера;
    - нужно обеспечить мониторинг сервиса;
    - обеспечить zero-downtime обновление приложения;
    - ... ещё 100500 разных задач.
    Зачастую эти задачи решаются либо руками, либо различными связками систем управления конфигурацией и деплойментом.

    Мы нашли способ, значительно сокративший время на запуск новых приложений — веб-платформа Deis. Она построена на Docker и CoreOS и представляет собой легковесный PaaS, похожий на Heroku. Подходы, используемые при работе с Deis, облегчают внедрение CD/CI, уменьшают разрыв между dev/stage и production окружениями, уменьшают время на поддержку приложений.

    Мы поговорим о проблемах, перечисленных выше, о том, какой путь пройден нами до продакшна, и о том, какие проблемы Deis не решает.

    Доклад будет полезен как для Ops, которым хочется автоматизировать типичные задачи вокруг деплоя/обновления веб-сервиса, так и для Dev, которые могут увидеть потенциальную возможность ускорения доставки багфиксов/фич на бой.

  • Лучшие практики Continuous Delivery с Docker

    Потребность в отстроенном процессе Continuous Delivery встает перед каждым развивающимся highload-проектом. Чем больше серверов и составных приложений, чем выше динамика релизов, тем раньше проект сталкивается с данной потребностью, и тем острее она стоит.

    Многие команды эксплуатации смогли отстроить этот процесс, некоторые добились впечатляющих результатов, а некоторые — потерпели неудачу. Но все из них знают, что их процесс можно улучшить: сделать быстрее, надежнее, предсказуемее и удобнее.

    В этом докладе я хочу обобщить и систематизировать лучшие практики построения процесса Continuous Delivery с использованием актуальных Open Source технологий (Docker, Chef, Gitlab, Kubernetes), а также обозначить известные проблемы и потенциальные пути их решения.

    Будет предпринята попытка однозначно ответить на следующие практические вопросы:
    - Почему пора всем переходить на Docker? Как лучше собирать Docker-образы? Как лучше доставлять и хранить Docker-образы?
    - Как правильно построить процесс разработки Infrastructure as Code (IaC)?
    - Как оптимально интегрировать автоматическое и ручное тестирование в процесс Continuous Delivery?
    - Как перестать бояться регулярных выкатов новых версий и сделать этот процесс надежным?
    - Почему Continuous Delivery не заканчивается релизом новой версии и зачем нужен Kubernetes?

  • DC/OS — больше чем PaaS

    Доклад про ближайшее будущее в эксплуатации распределённых систем.
    Компания Mesosphere весной 2016 сделала свою платформу DC/OS (data center operation system) бесплатной и открытой. Платформа DC/OS унифицирует и упрощает процесс поставки и эксплуатации систем.

    Основными особенностями платформы являются:
    – переход от host centric к resource centric подходу для всех компонентов вашего проекта за счёт представления серверов как ресурсов для приложения (с помощью mesos и marathon);
    – наличие инструментов автоматического восстановления вашего проекта после аварии;
    – marketplace для приложений. Например, можно развернуть MySQL, Elasticsearch, Kafka или mongodb кластер, используя готовые скрипты развертывания. Процесс развертывания кастомизируется, в случае необходимости можно описать кастомные приложения и поправить скрипты существующих;
    – наличие API для интеграции в ваши системы CI/CD, мониторинга, и т.д.

    Основные компоненты DC/OS:
    – Apache Mesos — абстракция над датацентром, которая представляет сервера (физические и виртуальные) как ресурсы и распределяет эти ресурсы на основании данных о потребностях приложения;
    – Marathon — система распределённого запуска приложений (в т.ч. docker контейнеров), основной фишкой является возможность декларативного описания вашей системы. Вы можете описать, сколько ресурсов нужно вашему приложению, зависимости между приложениями, и в каком порядке производить деплой.

    Доклад разбит на три части:
    – Интро про DC/OS, сравнение с kubernetes и coreos стеком;
    – Рассказ про компоненты mesos и marathon, как их можно использовать с докером (и без!) уже сейчас;
    – Опыт Express 42. Мы построили CI/CD платформу для приложений, с использованием Mesos, Marathon, Docker и Jenkins 2.0.

  • Тошнит от колец: великая битва систем мониторинга, часть I

    В поисках Святого Грааля мы перепробовали почти все системы сбора и хранения метрик — от распределенных до не очень. Несмотря на то, что цели и задачи систем сбора и хранения метрик одинаковы и кажутся очень простыми, нам было очень непросто — доходило до того, что на графиках ничего толком не рисовалось в сложной ситуации.

    Уже отчаявшись, мы решили предпринять последнее усилие, вооружившись фактами. А именно: поскольку хранение и обработка time series информации является важнейшей задачей системы сбора и хранения метрик, мы решили измерить производительность, в первую очередь, подсистемы хранения. Для этого мы запаслись относительно недавно появившимися в ядре фреймворком eBPF, утилитой blktrace и визуализатором ее результатов iowatcher, утилитами atop и perf и другим инструментарием современного инженера по оптимизации производительности.

    В первой части мы сравним между собой популярные системы сбора и хранения метрик, обычно существующие в рамках одного узла: Graphite, RRDTool, InfluxDB, Prometheus, Zabbix.

  • ChatOps на практике. Организация работы команды сопровождения

    1. Взаимодействие с командой сопровождения через чаты — преимущества и проблемы.
    1.1. ChatOps — о чем это?
    1.2. Преимущества взаимодействия и постановки задач через чаты.
    1.3. Проблемы хаотичности взаимодействия.

    2. Интеграция процессов технической поддержки в ChatOps.
    2.1. Постановка задач.
    2.2. Мониторинг.
    2.3. Оперативное реагирование.

    3. Наш опыт доработки Telegram для интеграции с системами постановки задач, мониторингом и мониторингом самого взаимодействия.

  • smart balancing with nginx+lua

    В этом докладе я планирую осветить следующие проблемы:
    - Почему стандартных механизмов балансировки бывает недостаточно.
    - Как выбирать фундамент для решения, и какие принципы проектирования использовались.
    - Как формировались требования для решения, которое работает сейчас в продакшне и пропускает через себя ощутимое количество.

    Расскажу, как без помощи сторонних сессионных хранилищ и довольно за дёшево организовать "sticky balancing", и как это работает с точки зрения науки. Покажу пример отказоустойчивой геораспределённой системы, расскажу, что мониторить и как правильно это делать при помощи специального расширения для nginx и не только. Расскажу о том, как было организовано нагрузочное и функциональное тестирование конечного продукта. Также расскажу про полный жизненный цикл этого весьма критичного для инфраструктуры приложения.

    Поскольку мы живём в публичных облаках, я по ходу доклада расскажу, как мы тестировали и сравнивали AWS и GCP, а также про некоторые сугубо практические особенности организации in-house балансировки внутри публичного облака.

  • Event-based self-healing monitoring

    - AWS Lambda;
    - AWS SNS;
    - Self-healing;
    - СМС-ки не нужны;
    - Кронтаб не нужен.

  • Виртуализированные сетевые сервисы на line rate в серверном окружении

    Технологии NFV идут вперед и никого уже нельзя удивить тем, что сетевые сервисы вместо специализированного оборудования запускают на обычных серверах с хорошей пропускной способностью. Мир уже привык к тому, что на сервере можно обрабатывать 100 Гбит сетевого трафика. Однако эти числа характерны только тогда, когда запускают единственный сервис на сервере, например, только коммутацию пакетов (vSwitch), только NAT, только балансировку нагрузки и т.п. Сейчас же появляется потребность в запуске нескольких сервисов на одной машине, выстраивать сложные pipeline, которые учитывают различные сетевые функции, ACL, L2, L3, QoS, интегрированных с виртуальными машинами и контейнерами.

    Для этого в сообществах разрабатываются более сложные фреймворки по обработке сетевых сервисов, которые позволяют разбивать задачи на этапы (stage) — каждый со своей сложностью и временем обработки, автоматически распределять такие этапы по вычислительным мощностям, планировать обработку пакетов так, чтобы увеличить суммарную пропускную способность.

    В докладе будет представлен сравнительный обзор таких фреймворков: Intel DPDK Packet Framework, FD.io, Open Dataplane, Open Virtual Network (от проекта Open vSwtich). Будут представлены числовые характеристики и рекомендованные сценарии применения. Также будет освещена интеграция с системами виртуализации.

  • Мой маленький уютный PaaS

    Раньше PaaS системы казались чем-то сложным и недосягаемым. И немногие могли попытаться реализовать такую систему самостоятельно. Но стремительное развитие технологий снизило порог входа в мир PaaS. Появилось множество готовых продуктов. И более того, вы сами можете сделать свой PaaS.

    В своём докладе я поделюсь опытом проектирования и создания PaaS системы на базе docker, registrator, etcd, confd и ansible. Расскажу, почему я решил сделать его самостоятельно, а не взять готовый, поделюсь опытом реального использования этого продукта в production.

    Илья Беда
    bro.agency
  • Путь мониторинга 2.0: всё стало другим

    Обзор мониторинга в Grammarly, о котором я докладывал на прошлом RootConf'е.

    Почему мы опять решили всё изменить после перехода на докер, и как мы пришли к zipper-stack, go-carbon, carbon-c-relay (в том числе и бенчмарки альтернативных решений), как получать миллион уникальных метрик в секунду, как мы пришли к тому, что теги в условии безымянных инстансов необходимы, и как мы их сделали, как работает zipper-stack и, вообще, архитектура нашего текущего убер мониторинга.

Новости
31 мая 2016
Вопросы и ответы
Ответы на вопросы участников РИТ++.
26 мая 2016
F.A.Q.
Мы собрали всю информацию, которая может вам пригодиться на конференции, в одну большую новость, начиная от того, как добраться до конференции и где кушать, заканчивая вопросами бухгалтерии и командировочных.
25 мая 2016
Как добраться до фестиваля: расписание автобусов и схемы проезда
Фестиваль пройдет в Кампусе бизнес-школы Сколково. В статье - информация о том, как попасть на фестиваль: нашим автобусом, городской маршруткой или на автомобиле.
12 мая 2016
Пользовательские митапы и активности!
Ура! Каждый участник фестиваля РИТ++ или любой входящей в него конференции теперь может предложить сообществу свой собственный митап, доклад или встречу.
9 мая 2016
Лучшие практики Continuous Delivery с Docker
Секция "Непрерывное развёртывание и деплой" конференции по эксплуатации и devops RootConf 2016.
В этом году программа получилась замечательной.
Но в 2015 году было очень хорошо!
Отзывы от участников
Был первый раз. Понравилось абсолютно всё!!! Совершенству нет предела. На следующий год если не вдарит что-нить в голову и не сменю отрасль, обязательно захочу приехать.
Спасибо за то? что приглашаете интересных докладчиков. Первый раз был на RootConf - и мне очень понравились доклады и докладчики!
Понравилось обилие докладов и направлений, достаточно адекватная цена (включая вездеход)
Бесплатная гостиница - это круто)
В целом конференция очень понравилась, спасибо Вам большое! Дни были замечательные. Возможно и есть недостатки, но это все-таки ничто в сравнении с новыми знакомствами, общением и интереснейшими докладами!
Разнообразие докладов в это раз было особенно заметно. Приходилось быстро перемещаться. ) Вообще, все было весьма неплохо.
Очень качественная организация. Мне действительно есть с чем сравнивать.
Формат очень удачный, много полезной информации в очень дружественной атмосфере.
Информационные спонсоры