Опубликован: 22.04.2006 | Доступ: свободный | Студентов: 12941 / 2590 | Оценка: 4.27 / 3.83 | Длительность: 26:24:00
ISBN: 978-5-9556-0064-2
Лекция 1:

Что такое Data Mining?

Лекция 1: 1234 || Лекция 2 >

Сравнение статистики, машинного обучения и Data Mining

  • Статистика
    • Более, чем Data Mining, базируется на теории.
    • Более сосредотачивается на проверке гипотез.
  • Машинное обучение
    • Более эвристично.
    • Концентрируется на улучшении работы агентов обучения.
  • Data Mining.
    • Интеграция теории и эвристик.
    • Сконцентрирована на едином процессе анализа данных, включает очистку данных, обучение, интеграцию и визуализацию результатов.

Понятие Data Mining тесно связано с технологиями баз данных и понятием данные, которые будут подробно рассмотрены в следующей лекции.

Развитие технологии баз данных

1960-е гг.

В 1968 году была введена в эксплуатацию первая промышленная СУБД система IMS фирмы IBM.

1970-е гг.

В 1975 году появился первый стандарт ассоциации по языкам систем обработки данных - Conference on Data System Languages (CODASYL), определивший ряд фундаментальных понятий в теории систем баз данных, которые до сих пор являются основополагающими для сетевой модели данных. В дальнейшее развитие теории баз данных большой вклад был сделан американским математиком Э.Ф. Коддом, который является создателем реляционной модели данных.

1980-е гг.

В течение этого периода многие исследователи экспериментировали с новым подходом в направлениях структуризации баз данных и обеспечения к ним доступа. Целью этих поисков было получение реляционных прототипов для более простого моделирования данных. В результате, в 1985 году был создан язык, названный SQL. На сегодняшний день практически все СУБД обеспечивают данный интерфейс.

1990-е гг.

Появились специфичные типы данных - "графический образ", "документ", "звук", "карта". Типы данных для времени, интервалов времени, символьных строк с двухбайтовым представлением символов были добавлены в язык SQL. Появились технологии DataMining, хранилища данных, мультимедийные базы данных и web-базы данных.

Возникновение и развитие Data Mining обусловлено различными факторами, основными среди которых являются следующие [2]:

  • совершенствование аппаратного и программного обеспечения;
  • совершенствование технологий хранения и записи данных ;
  • накопление большого количества ретроспективных данных ;
  • совершенствование алгоритмов обработки информации.

Понятие Data Mining

Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей ( шаблонов информации) [3].

Технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro) - один из основателей этого направления:

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение.

Знания - совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д.

Использование знаний (knowledge deployment) означает действительное применение найденных знаний для достижения конкретных преимуществ (например, в конкурентной борьбе за рынок).

Приведем еще несколько определений понятия Data Mining.

Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.

Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).

Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).

В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных, кои могут быть выражены в форме, понятной человеку.

"Mining" по-английски означает "добыча полезных ископаемых", а поиск закономерностей в огромном количестве данных действительно сродни этому процессу.

Цель поиска закономерностей - представление данных в виде, отражающем искомые процессы. Построение моделей прогнозирования также является целью поиска закономерностей.

Лекция 1: 1234 || Лекция 2 >