Научная электронная библиотека
Монографии, изданные в издательстве Российской Академии Естествознания

1.5.1 Методика Data Mining

Одной из главных целей информационных систем является эффективная переработка данных в информацию или знания. Информация – это данные, которые организованы так, что они имеют значение и ценность для получателя (пользователя), который выводит заключения. Знания состоят из данных или информации, которые организованы и обработаны с целью передачи понимания, накопленного опыта, результатов обучения и экспертизы таким образом, что они могут использоваться для решения текущих проблем или выполнения действий.

Знаниями в информатике принято называть хранимую в компьютере информацию, формализованную в соответствии с определенными структурными правилами, которую компьютер может автономно использовать при решении проблем на основе логическоговывода. Такие знания содержат факты, понятия, теории, эвристические методы, процедуры и отношения.

В настоящее время знания признаны главным ресурсом организации. Во многих компаниях используется хранилище оперативных данных, обычно извлекаемых из неавтономных систем обработки транзакций в режиме онлайн (OLTP – online transaction processingоперативная обработка транзакций) и базирующихся на головных компьютерах (mainframe).

Целью хранилища данных является установление такого репозитария данных, который делает оперативные данные доступными в форме, которая приемлема для приложений в информационных системах поддержки решений.

OLAP (Online Analytical Processing – оперативная аналитическая обработка данных) – это информационный процесс, который дает возможность пользователю запрашивать систему, проводить анализ и т.д. в оперативном режиме (онлайн). Для обеспеченияOLAP необходимо работать с хранилищем данных (или многомерным хранилищем), а также с набором инструментальных средств, обычно с многомерными способностями. Этим средством может быть в первую очередь технология - средства добычи данных (Data Mining), а также инструментарий запросов, электронные таблицы, средства визуализации данных и др.

В основе концепции OLAP лежит принцип многомерного представления данных. Э. Кодд рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом, и определил общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик. Одновременный анализ по нескольким измерениям определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению.

Интеллектуальный анализ данныхData Mining - термин, используемый для описания открытия знаний в базах данных, выделения знаний, изыскания данных, исследования данных, обработки образцов данных, очистки и сбора данных; имеется сопутствующее программное обеспечение. Многие важные решения в почти любой области бизнеса и социальной сферыосновываются на анализе больших и сложных базах данных. Методы интеллектуального анализа данных тесно связаны с технологиями OLAP и технологиями построения хранилищ данных.

Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки. Некоторые программные инструменты для добычи данных включают интеллектуальные системы, которые поддерживают интеллектуальный поиск. Интеллектуальная добыча и анализ данных позволяет открыть информацию в хранилищах данных, когда запросы и отчеты не могут быть обнаружены.

Инструменты Data Mining находят образцы в данных и выводят из них правила. Эти образцы и правила могут быть использованы при принятии решений и прогнозировании результатов решений.

Пять типов информации может быть применено в Data Mining: ассоциации, последовательности, классификации, кластеры и прогнозирование.

Основными типами программных инструментариев, используемых в Data Mining,являются:

  • рассуждения на основе прецедентов;
  • нейронные вычисления;
  • интеллектуальные агенты;
  • другие средства: деревья решений, ролевая индукция, визуализация данных.

Были решены задачи малого бизнеса с использованием моделирования на искусственных нейронных сетях и деревьях решений в аналитической программной платформе Deductor для анализа экономических данных. В развитии экономики и бизнеса значительную роль играет информационная инфраструктура. Для качественного управления и успешного ведения дел лицу, принимающему решения (ЛПР) в настоящее время необходимо понимание важностиинформационно-интеллектуальных систем.

В настоящее время накоплен определенный опыт разработки и внедрения автоматизированных информационных систем в различных отраслях экономики. Резерв повышения эффективности таких систем заключается в увеличении уровня интеллектуализации этих систем, переходе к так называемым «интеллектуальным» экономическим системам, ориентированным на знания. Перспективные области экономики и бизнеса, где интеллектуальные системы наиболее эффективны: управление производством; производственное и внутрифирменное планирование и прогнозирование; управление маркетингом и сбытом; финансовый менеджмент; риск-менеджмент; банковская сфера; торговля; фондовый рынок.

Ужесточение конкуренции привело к тому, что в большинстве случаев у торговых компаний наценканезначительная,изадача увеличения оборотаприобретает важное значение. Для решения важных задач анализа, таких как прогнозирование спроса, оптимизация закупок, сегментация клиентов, стимулирования продаж - необходимо построение прогностических моделей, проведение кластеризации, нахождение нетривиальных зависимостей. Данные задачи решаются при помощи интеллектуальных методов анализаData Mining, использование которых позволяет строить модели поведения рынка, находить зависимость спроса от различных факторов, автоматически выявлять наиболее перспективных клиентов. Data Mining — это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для реализации. Data Mining осуществляет процесс анализа неструктурированных данных, направленный на поиск новой полезной информации, обычно представленной в форме ранее неизвестных отношений между данными. Data mining помогает найти скрытые ранее закономерности и отношения в данных для того, чтобы можно было принять более обоснованные решения.Задачи, решаемые методамиData Mining: классификация – это отнесение объектов (наблюдений, событий) к одному из заранее известных классов; кластеризация - это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов; регрессия, в том числе задачи прогнозирования; установление зависимости непрерывных выходных от входных переменных; ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными;последовательные шаблоны – установление закономерностей между связанными во времени событиями (если произойдет событие X, то спустя заданное время произойдет событие Y); анализ отклонений – выявление наиболее нехарактерных шаблонов.

В Deductor реализованы современные технологии анализа данных:

- Data Warehouse – хранилище данных;

- OLAP – многомерный анализ данных;

- Data Mining – «добыча» данных;

- Knowledge Discovery in Databases – обнаружение знаний в базах данных.


Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674