Пробные занятия. Бесплатно!
Приглашаем всех желающих посетить бесплатные пробные занятия по курсам МВА и профессиональной подготовки. Занятия проходят в реальных группах, никаких постановочных занятий. Ознакомиться с расписанием пробных занятий, выбрать заинтересовавшее и зарегистрироваться на него можно здесь


Повышения эффективности электронной торговли на основе интеллектуального анализа данных в реальном времени

Логинов Ф.Г.
Выпускник группы MBA CIO
Школа IT-менеджмента
РАНХиГС при Президенте РФ

ВВЕДЕНИЕ

Сегодня как никогда в мире большой популярностью пользуется электронная коммерция. Конкуренция уже сейчас очень высока, а с ростом рынка на 30-40% в год она станет еще выше. В условиях динамичной внешней среды и ужесточения конкуренции все более значительную роль начинают играть методы и модели экономического анализа, позволяющие оперативно реагировать на возникающие проблемы и имеющиеся возможности.

Задача данной работы состоит в том, чтобы спроектировать решение для сбора, хранения, real-time обработки и анализа больших данных для крупной ювелирной сети, работающей как в сфере прямых розничных продаж, так и в сфере электронной коммерции.

 

ТЕКУЩАЯ СИТУАЦИЯ

В настоящий момент у заказчика отсутствует какая-либо интегрированная аналитическая система. Вся бизнес-отчетность формируется вручную аналитиками каждого из подразделений.

 

ТРЕБОВАНИЯ К ПРОЕКТИРУЕМОЙ СИСТЕМЕ

После анализа сложившейся ситуации, а также проведения ряда интервью с заказчиком и спонсором были выявлены требования, которым должна удовлетворять система. Они приводятся далее в обобщённом виде:

  • необходимо, чтобы система предоставляла возможность загрузки, хранения и обработки данных из структурированных и неструктурированных источников в пакетном и потоковом режимах;
  • система должна легко горизонтально масштабироваться и хранить неограниченный объем загруженных оригинальных данных в исходном формате;
  • система должна предоставлять сотрудникам доступ к данным через SQL-подобный синтаксис;
  • сотрудник должен иметь возможность получить необходимою информацию о хранилище из метаданных;
  • необходимо обеспечить возможность разработки и применения моделей и методов машинного обучения, анализа графов и текстовой информации;
  • должна быть возможность установить задачу на запуск по расписанию или в зависимости от события;
  • система должна предоставить API для получения информации о своей работе.
  • Исходя из приведенных требований, после их анализа, уточнения и согласования был составлен перечень функциональных требований и разработана диаграмма вариантов использования, которая приводится на рисунке 1.

     

    Рисунок 1 – диаграмма вариантов использования системы

     

    МОДЕЛИРОВАНИЕ ЦЕЛЕВОЙ АРХИТЕКТУРЫ

    Исходя из описанных выше требований, было принято решение о разработке системы класса Big Data. В качестве платформы для пакетного анализа данных был выбран кластер Hadoop в составе дистрибутива от компании Hortonworks, так как это решение является бесплатным, открытым, свободно распространяемым и содержит все необходимые компоненты для удовлетворения требований, предъявленных системе. Для того, чтобы обеспечить возможность проведение интерактивного анализа и потоковой обработки данных было принято решение развернуть второй кластер с ApacheIgnite - высокопроизводительной, интегрированной платформой для распределенных вычислений в оперативной памяти и обработки крупномасштабных наборов данных в режиме реального времени.

    После проведения анализа доступных средств и инструментов, а также возможностей их интеграции, было решено строить систему основываясь на концепции лямбда-архитектуры, как наиболее современной гибкой, сбалансированной и подходящей как для пакетного, так и потокового анализа данных.

     

    Рисунок 2 – архитектура системы

     

    ПОДГОТОВКА РЕКОМЕНДАЦИЙ ПО ЗАКУПКЕ СЕРВЕРНОГО ОБОРУДОВАНИЯ

    Исходя из сетевой инфраструктуры Hadoop и Ignite, а также особенностей управления ресурсами в системах класса BigData с пакетной и потоковой обработкой данных, было принято решение о развертывании двух физических кластеров. Кроме того, возникла необходимость в сервере для ApacheKafka - распределенной системы обмена сообщениями. Консолидировав имеющийся опыт с рекомендациями поставщиков дистрибутивов Hadoop, а также учитывая специфику данных заказчика, было рассчитано необходимое серверное оборудование.

    Для кластера пакетной обработки из расчета 0.15 Тб в месяц в течение трех лет необходимо закупить:

     

    - DataNode: 3 x (12 Ядер, 256 Гб ОЗУ, 8*1 Тб SATA, 10 Гб LAN);

    - NameNode: 1 x (4 Ядер, 64 Гб ОЗУ, 1*1 Тб SATA, 10 Гб LAN).

    Для кластера интерактивной обработки из расчета 0.15 Тб в месяц в течение трех месяцев необходимо закупить:

    - DataNode: 3 x (28 Ядер, 1 Тб ОЗУ, 1*1 Тб SATA, 2x10 Гб LAN);

    - NameNode: 1 x (4 Ядер, 64 Гб ОЗУ, 1*1 Тб SATA, 10 Гб LAN).

    Серверное оборудование для Kafka:

    - Node: 1 x (8 Ядер, 256 Гб ОЗУ, 1 Тб SATA, 2x10 Гб LAN).

    Серверное оборудование для тестового стенда:

    - Node: 1 x (16 Ядер, 128 Гб ОЗУ, 4*1 Тб SATA, 1x10 Гб LAN).

    Результатом работ стала диаграмма развертывания, которая изображена на рисунке 3.

     

     

    Рисунок 3 - диаграмма развертывания системы

     

    ЗАКЛЮЧЕНИЕ

    Спроектированная система удовлетворяет всем потребностям заказчика, является горизонтально масштабируемой, отказоустойчивой и высокодоступной, отвечает всем современным требованиям к системам класса BigData.

    Голосов пока нет
    Школа IT-менеджмента Экономического факультета АНХ, 119571, Россия, г. Москва, проспект Вернадского, д. 82 корп. 2, офис 207, тел.: +7 (495) 933-96-00, Copyright @ 2008-2009