Приглашаем всех желающих посетить бесплатные пробные занятия по курсам МВА и профессиональной подготовки. Занятия проходят в реальных группах, никаких постановочных занятий. Ознакомиться с расписанием пробных занятий, выбрать заинтересовавшее и зарегистрироваться на него можно здесь
Автоматизация поиска и расследования проблем производительности крупных систем на примере социальной сети "Одноклассники"
Шарапов С.А.
Выпускник группы ITM-25b
Школы IT-менеджмента
РАНХиГС при Президенте РФ
Функционирование любой информационной системы невозможно без своевременного, компетентного технического обслуживания серверов. От качества сопровождения серверного оборудования напрямую зависит доступность данных, их сохранность и защищенность, а так же скорость доступа к ним. Особое значение для бесперебойной работы имеет мониторинг сервисов и компонентов сайта.
Тема моей работы «Автоматизация поиска и расследования проблем производительности крупных систем, на примере социальной сети «Одноклассники».
Количество активных аккаунтов в социальной сети «Одноклассники» превысило 150 млн. Ежедневная аудитория социальной сети составляет около 48 млн. человек. Т.е. сайт содержит и обрабатывает огромное количество информации. Инфраструктура «Одноклассников» состоит более чем из 7,5 тыс. серверов, 700 массивов данных и более 1000 сетевых устройств. В пике исходящий трафик превышает 700 гигабит в секунду.
Система мониторинга сервисов основана на оперативных данных в DWH и представлена набором из графиков. В связи с тем, что на графиках отображаются основные показатели работы сайта и сервисов в системе он-лайн, выявить конкретный сбой или ошибку в работе сервера/приложения сразу не представляется возможным. И, как следствие, приходится рассматривать различные варианты возникновения аномалии, т.е. расследовать проблему (инцидент).
Обычный алгоритм работы над инцидентом (проблемой) включает в себя:
- обнаружение инцидента;
- анализ и выяснение сути инцидента,
- выяснение причины инцидента,
- устранение инцидента.
Самым критичным для работы является этап выяснения сути инцидента. Зачастую этот этап занимает значительное время и требует высокой квалификации сотрудника, так как основные показатели работы сайта и сервисов представлены 195 графиками, а всего графиков более 100 тысяч. В среднем на исследование первоисточника проблемы затрачивается около 30 минут.
Целью данной работы является повышение качества мониторинга и уменьшение времени на расследование инцидентов, что в свою очередь способствует оптимизации процессов и устранению влияния человеческого фактора.
Задача проекта создать интеллектуальную систему мониторинга, которая может:
- обнаруживать аномалии на графиках (в действительности, обнаруживать аномалии во временных рядах),
- показывать причинно-следственную связь между найденными аномалиями,
- создавать и понятным образом оформлять инциденты.
Для практического решения задачи система была разбита на 4 модуля:
- Детектор аномалий – это механизм, который сможет выявлять аномалии во временной последовательности.
- Коллектор/агрегатор данных для анализа – это job’a (процесс), который выполняется на отдельном сервере. Все данные для анализа будут тянуться с сервера, на котором находится нужная для анализа таблица.
- Визуализация проблемы – этот процесс делается на стандартном сервере, на котором строятся графики. Этот модуль также будет строить граф проблемы.
- Связь с Jira – создания инцидента
Основной задачей данной работы является создание модуля детектора аномалий в числовых рядах и на базе этого модуля внедрение «умной» системы мониторинга в социальную сеть «Одноклассники».
Практическим результатом реализации данной дипломной работы является, то, что выработанный подход нашел одобрение и поддержку со стороны руководства компании и в настоящий момент проходит испытания под рабочим названием «smart monitoring», где я выполняю роль аналитика и менеджера проекта в одном лице.
В случае успешного функционирования, система будет внедрена во многие проекты MailRu Group (мой мир, icq, vk, mail.ru).
- Войдите на сайт для отправки комментариев