Пробные занятия. Бесплатно!
Приглашаем всех желающих посетить бесплатные пробные занятия по курсам МВА и профессиональной подготовки. Занятия проходят в реальных группах, никаких постановочных занятий. Ознакомиться с расписанием пробных занятий, выбрать заинтересовавшее и зарегистрироваться на него можно здесь


Автоматизация поиска и расследования проблем производительности крупных систем на примере социальной сети "Одноклассники"

Шарапов С.А.
Выпускник группы ITM-25b
Школы IT-менеджмента
РАНХиГС при Президенте РФ

Функционирование любой информационной системы невозможно без своевременного, компетентного технического обслуживания серверов. От качества сопровождения серверного оборудования напрямую зависит доступность данных, их сохранность и защищенность, а так же скорость доступа к ним. Особое значение для бесперебойной работы имеет мониторинг сервисов и компонентов сайта.

Тема моей работы «Автоматизация поиска и расследования проблем производительности крупных систем, на примере социальной сети «Одноклассники».

Количество активных аккаунтов в социальной сети «Одноклассники» превысило 150 млн. Ежедневная аудитория социальной сети составляет около 48 млн. человек. Т.е. сайт содержит и обрабатывает огромное количество информации. Инфраструктура «Одноклассников» состоит более чем из 7,5 тыс. серверов, 700 массивов данных и более 1000 сетевых устройств. В пике исходящий трафик превышает 700 гигабит в секунду.

Система мониторинга сервисов основана на оперативных данных в DWH и представлена набором из графиков. В связи с тем, что на графиках отображаются основные показатели работы сайта и сервисов в системе он-лайн, выявить конкретный сбой или ошибку в работе сервера/приложения сразу не представляется возможным. И, как следствие, приходится рассматривать различные варианты возникновения аномалии, т.е. расследовать проблему (инцидент).

Обычный алгоритм работы над инцидентом (проблемой) включает в себя:

  • обнаружение инцидента;
  • анализ и выяснение сути инцидента,
  • выяснение причины инцидента,
  • устранение инцидента.

Самым критичным для работы является этап выяснения сути инцидента. Зачастую этот этап занимает значительное время и требует высокой квалификации сотрудника, так как основные показатели работы сайта и сервисов представлены  195 графиками, а всего графиков более 100 тысяч. В среднем на исследование первоисточника проблемы затрачивается около 30 минут.

Целью данной работы является повышение качества мониторинга и уменьшение времени на расследование инцидентов, что в свою очередь способствует оптимизации процессов и устранению влияния человеческого фактора.

Задача проекта создать интеллектуальную систему мониторинга, которая может:

  • обнаруживать аномалии на графиках (в действительности, обнаруживать аномалии во временных рядах),
  • показывать причинно-следственную связь между найденными аномалиями,
  • создавать и понятным образом оформлять инциденты.

Для практического решения задачи система была разбита  на 4 модуля:

  • Детектор аномалий – это механизм, который сможет выявлять аномалии во временной последовательности.
  • Коллектор/агрегатор данных для анализа – это job’a (процесс), который выполняется на отдельном сервере. Все данные для анализа будут тянуться с сервера, на котором находится нужная для анализа таблица.
  • Визуализация проблемы – этот процесс делается на стандартном сервере, на котором строятся графики. Этот модуль также будет строить граф проблемы.
  • Связь с Jira – создания инцидента

Основной задачей данной работы является создание модуля детектора аномалий в числовых рядах и на базе этого модуля внедрение «умной» системы мониторинга в социальную сеть «Одноклассники».

Практическим результатом реализации данной дипломной работы является, то, что выработанный подход нашел одобрение и поддержку со стороны руководства компании и в настоящий момент   проходит испытания  под рабочим названием «smart monitoring», где я выполняю роль аналитика и менеджера проекта в одном лице.

В случае успешного функционирования, система будет внедрена во многие проекты MailRu Group (мой мир, icq, vk, mail.ru).

Рубрика: 
Сервис-менеджмент
Голосов пока нет
Школа IT-менеджмента Экономического факультета АНХ, 119571, Россия, г. Москва, проспект Вернадского, д. 82 корп. 2, офис 207, тел.: +7 (495) 933-96-00, Copyright @ 2008-2009