Приглашаем всех желающих посетить бесплатные пробные занятия по курсам МВА и профессиональной подготовки. Занятия проходят в реальных группах, никаких постановочных занятий. Ознакомиться с расписанием пробных занятий, выбрать заинтересовавшее и зарегистрироваться на него можно здесь
Повышения эффективности электронной торговли на основе интеллектуального анализа данных в реальном времени
Логинов Ф.Г.
Выпускник группы MBA CIO
Школа IT-менеджмента
РАНХиГС при Президенте РФ
ВВЕДЕНИЕ
Сегодня как никогда в мире большой популярностью пользуется электронная коммерция. Конкуренция уже сейчас очень высока, а с ростом рынка на 30-40% в год она станет еще выше. В условиях динамичной внешней среды и ужесточения конкуренции все более значительную роль начинают играть методы и модели экономического анализа, позволяющие оперативно реагировать на возникающие проблемы и имеющиеся возможности.
Задача данной работы состоит в том, чтобы спроектировать решение для сбора, хранения, real-time обработки и анализа больших данных для крупной ювелирной сети, работающей как в сфере прямых розничных продаж, так и в сфере электронной коммерции.
ТЕКУЩАЯ СИТУАЦИЯ
В настоящий момент у заказчика отсутствует какая-либо интегрированная аналитическая система. Вся бизнес-отчетность формируется вручную аналитиками каждого из подразделений.
ТРЕБОВАНИЯ К ПРОЕКТИРУЕМОЙ СИСТЕМЕ
После анализа сложившейся ситуации, а также проведения ряда интервью с заказчиком и спонсором были выявлены требования, которым должна удовлетворять система. Они приводятся далее в обобщённом виде:
Исходя из приведенных требований, после их анализа, уточнения и согласования был составлен перечень функциональных требований и разработана диаграмма вариантов использования, которая приводится на рисунке 1.
Рисунок 1 – диаграмма вариантов использования системы
МОДЕЛИРОВАНИЕ ЦЕЛЕВОЙ АРХИТЕКТУРЫ
Исходя из описанных выше требований, было принято решение о разработке системы класса Big Data. В качестве платформы для пакетного анализа данных был выбран кластер Hadoop в составе дистрибутива от компании Hortonworks, так как это решение является бесплатным, открытым, свободно распространяемым и содержит все необходимые компоненты для удовлетворения требований, предъявленных системе. Для того, чтобы обеспечить возможность проведение интерактивного анализа и потоковой обработки данных было принято решение развернуть второй кластер с ApacheIgnite - высокопроизводительной, интегрированной платформой для распределенных вычислений в оперативной памяти и обработки крупномасштабных наборов данных в режиме реального времени.
После проведения анализа доступных средств и инструментов, а также возможностей их интеграции, было решено строить систему основываясь на концепции лямбда-архитектуры, как наиболее современной гибкой, сбалансированной и подходящей как для пакетного, так и потокового анализа данных.
Рисунок 2 – архитектура системы
ПОДГОТОВКА РЕКОМЕНДАЦИЙ ПО ЗАКУПКЕ СЕРВЕРНОГО ОБОРУДОВАНИЯ
Исходя из сетевой инфраструктуры Hadoop и Ignite, а также особенностей управления ресурсами в системах класса BigData с пакетной и потоковой обработкой данных, было принято решение о развертывании двух физических кластеров. Кроме того, возникла необходимость в сервере для ApacheKafka - распределенной системы обмена сообщениями. Консолидировав имеющийся опыт с рекомендациями поставщиков дистрибутивов Hadoop, а также учитывая специфику данных заказчика, было рассчитано необходимое серверное оборудование.
Для кластера пакетной обработки из расчета 0.15 Тб в месяц в течение трех лет необходимо закупить:
- DataNode: 3 x (12 Ядер, 256 Гб ОЗУ, 8*1 Тб SATA, 10 Гб LAN);
- NameNode: 1 x (4 Ядер, 64 Гб ОЗУ, 1*1 Тб SATA, 10 Гб LAN).
Для кластера интерактивной обработки из расчета 0.15 Тб в месяц в течение трех месяцев необходимо закупить:
- DataNode: 3 x (28 Ядер, 1 Тб ОЗУ, 1*1 Тб SATA, 2x10 Гб LAN);
- NameNode: 1 x (4 Ядер, 64 Гб ОЗУ, 1*1 Тб SATA, 10 Гб LAN).
Серверное оборудование для Kafka:
- Node: 1 x (8 Ядер, 256 Гб ОЗУ, 1 Тб SATA, 2x10 Гб LAN).
Серверное оборудование для тестового стенда:
- Node: 1 x (16 Ядер, 128 Гб ОЗУ, 4*1 Тб SATA, 1x10 Гб LAN).
Результатом работ стала диаграмма развертывания, которая изображена на рисунке 3.
Рисунок 3 - диаграмма развертывания системы
ЗАКЛЮЧЕНИЕ
Спроектированная система удовлетворяет всем потребностям заказчика, является горизонтально масштабируемой, отказоустойчивой и высокодоступной, отвечает всем современным требованиям к системам класса BigData.
- Войдите на сайт для отправки комментариев