Приглашаем всех желающих посетить бесплатные пробные занятия по курсам МВА и профессиональной подготовки. Занятия проходят в реальных группах, никаких постановочных занятий. Ознакомиться с расписанием пробных занятий, выбрать заинтересовавшее и зарегистрироваться на него можно здесь
Методы интеллектуального анализа данных для выявления зависимостей и прогнозирования макроэкономических показателей
Бондаренко И.В.
Выпускник группы ITM-27
Школа IT-менеджмента
РАНХиГС при Президенте РФ
Задача интеллектуального анализа данных в данный момент является особенно актуальной, так как мы живем в эпоху данных. Одна только Нью-Йоркская фондовая биржа генерирует около 1 терабайта коммерческих данных в день.
Однако, сами по себе данные не несут в себе большой пользы, если не извлекать из них смысл. Именно этим и занимается интеллектуальный анализ данных – извлекает из данных пользу.
Обратимся к определению: Data Mining (рус., добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
В своей работе я погружусь в методы интеллектуального анализа данных и опробую их на практике. Таким образом, поставлены следующие задачи:
- освоить базовые навыки интеллектуального анализа данных
-выявить зависимости между различными показателями
-по данным 1998-2013гг, спрогнозировать средний курс доллара на 2014г, сравнить с реальным показателем
-провести сравнительный анализ существующих методик прогнозирования и выявления корреляций
-исследовать весь цикл работы с точки зрения менеджера: от поиска данных в Интернет до создания отчета с зависимостями показателей, и прогнозом значения одного из показателей. Выявить наиболее затратные по времени участки работы.
К составлению прогноза курса $ и к выявлению зависимостей между макроэкономическими показателями я отнесся как к проекту. Соответственно, необходимо было выявить основные риски, и как можно раньше свести их к минимуму.
Основным риском, безусловно, было получение очевидно необъективного прогноза курса доллара на 14г, что привело бы к переделыванию всей работы заново: от поиска данных в Интернет до анализа этих данных.
Из теории проектного управления следует, что риски необходимо снижать как можно раньше. Таким образом, задача прогнозирования была приоритетнее задачи выявления зависимостей между макроэкономическими показателями.
Прогноз строится следующим образом: данные из таблицы подавались на вход аналитической программе Weka. Программа выдавала математическую формулу, в которую подставлялись значения показателей за 14г. Если прогноз не устраивал – можно было удалять данные за некоторые годы (если они кажутся дисперсионными (не соответствующими общей картине)), либо удалять данные по целым показателям за все годы, если этот показатель кажется малозначимым.
Сначала в работу была взята найденная на англоязычном сайте таблица с макроэкономическими данными, в нее вручную добавлялись следующие показатели: средняя цена на нефть, золото, показатели инфляции. В полученную для прогноза формулу вошли показатели, смысл которых я, как непрофессиональный экономист, не понимал. Соответственно, оценить на адекватность формулу я не мог. Было принято решение отказаться от этой таблицы данных.
Были сделаны следующие выводы:
- при работе с данными не следует цепляться за промежуточный результат, всегда нужно быть готовым отказаться от проделанной работы и начать все заново
-лучше понимать предметную область, а также смысл показателей: иначе ими невозможно управлять
На следующем этапе была взята таблица с данными с сайта Росстата. Смысл всех показателей, в нее входящих, был понятен: ВВП, безработица, инвестиции в экономику, цены на нефть, инфляция. Данные были поданы на вход программе Weka, после чего была получена формула для курса $: цена на нефть в нее входила с положительным коэффициентом (чем больше цена на нефть – тем выше курс доллара). За счет этого, формула была оценена негативно, было принято решение удалить данные за один год – 1998. Выражаясь языком анализа данных, был удален «выброс» - сильно дисперсионное значение.
На новом наборе данных была получена следующая формула:
Наибольший вклад в формулу дает значение инвестиций в основной капитал, что вполне логично. Для 14г формула дала хороший результат: 33.5 рублей за 1$. В таблице он равен 38, за 13г = 31.8. Удалось угадать повышение, не был угадан масштаб. Все равно результат считаю хорошим.
Выявление зависимостей между показателями проводилось с помощью программы Weka, а также с помощью написанной программы (был подсчитан коэффициент корреляции Пирсона между показателями). В целом, результаты совпали. В результате был получен список пар показателей, которые максимально зависят друг от друга (коррелируют). Пример:
Цена_на_нефть<->объем_экспорта
ВВП <-> реальные_доходы_населения
Рождаемость<-> реальные_доходы_населения
Практическое применение выявления зависимостей между показателями следующее:
допустим, в коммерческой фирме есть аналогичная таблица разных показателей.
Каждый из показателей может быть целевым(продажи)\промежуточным(опоздания на работу), независимым(мощность железа)\зависимым(эффективность отдела программистов), управляемым(продажи напитков)\неуправляемым (погода).
Далее, если целевой атрибут (продажи) является зависимым и хорошо коррелирует с управляемым атрибутом (кол-во опозданий, железо) - следует улучшать эти атрибуты.
В данном примере (макроэкономические показатели): хотим выяснить, с чем больше всего коррелирует, например, рождаемость. Смотрим по таблице: с реальными доходами населения.
Допустим, рождаемость – целевой показатель. В паре рождаемость\реальные доходы, вероятно, рождаемость зависит от реальных доходов. Таким образом, чтобы поднять рождаемость – следует поднимать реальные доходы населения.
Итак, в ходе работы удалось попрактиковаться в анализе данных, получить приемлемый прогноз курса $ на 14г, также выявить основные зависимости между макроэкономическими показателями. С позиции менеджера: осознанно велось управление рисками, было оценено, что на поиск данных ушло больше времени, чем на их обработку. Следовательно, целесообразна отдача работы по поиску данных на аутсорс.
В целом, поставленные задачи были достигнуты.
- Войдите на сайт для отправки комментариев