Data Mining

: Информация
Опубликована: 05.04.2011 | Уровень: для всех | Стоимость: 3000.00 руб. | Длительность: 14 дней
Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.
Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.
Цель: Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining
Необходимые знания: Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации.

План занятий

ЗанятиеЗаголовок <<Дата изучения
-
Лекция 1
41 минута
-
Тест 1
15 минут
-
Лекция 2
44 минуты
Данные
В лекции подробно рассматривается понятие данных. Объясняется значение понятий объект и атрибут, выборка, зависимая и независимая переменная. Подробно обсуждаются типы шкал. Приводятся различные типы наборов данных. Кратко рассмотрены понятия базы данных и СУБД.
-
Тест 2
15 минут
-
Лекция 3
40 минут
Методы и стадии Data Mining
В лекции описаны стадии Data Mining и действия, выполняемые в рамках этих стадий. Рассмотрены известные классификации методов Data Mining. Приведена сравнительная характеристика некоторых методов, основанная на их свойствах.
-
Тест 3
15 минут
-
Лекция 4
44 минуты
Задачи Data Mining. Информация и знания
В лекции кратко описана основная суть задач Data Mining и их классификация. Подробно рассмотрены понятия "информация", "знания", а также дано сопоставление и сравнение этих понятий.
-
Тест 4
15 минут
-
Лекция 5
38 минут
-
Тест 5
15 минут
-
Лекция 6
42 минуты
Задачи Data Mining. Прогнозирование и визуализация
В лекции описана суть задачи прогнозирования. Рассмотрено понятие временного ряда, его компоненты, параметры прогнозирования, виды прогнозов. Кратко охарактеризована задача визуализации данных.
-
Тест 6
15 минут
-
Лекция 7
37 минут
-
Тест 7
15 минут
-
Лекция 8
42 минуты
Основы анализа данных
Лекция посвящена основам анализа данных, рассмотрены основные характеристики описательной статистики, кратко изложена суть корреляционного и регрессионного анализа. Приведены примеры решения задач в Microsoft Excel.
-
Тест 8
15 минут
-
Лекция 9
39 минут
Методы классификации и прогнозирования. Деревья решений
Описывается метод деревьев решений. Рассматриваются элементы дерева решения, процесс его построения. Приведены примеры деревьев, решающих задачу классификации. Даны алгоритмы конструирования деревьев решений CART и C4.5.
-
Тест 9
15 минут
-
Лекция 10
39 минут
-
Тест 10
15 минут
-
Лекция 11
48 минут
Методы классификации и прогнозирования. Нейронные сети
В лекции описывается метод нейронных сетей. Рассмотрены элементы и архитектура, процесс обучения и явление переобучения нейронной сети. Описана такая модель нейронной сети как персептрон. Приведен пример решения задачи при помощи аппарата нейронных сетей.
-
Тест 11
15 минут
-
Лекция 12
35 минут
Нейронные сети. Самоорганизующиеся карты Кохонена.
В лекции продолжается описание работы с нейронными сетями, в частности, рассматриваются классификации нейронных сетей. Описан процесс подготовки данных для обучения. Подробно рассмотрены самоорганизующиеся карты Кохонена, приведен пример решения задачи.
-
Тест 12
15 минут
-
Лекция 13
39 минут
Методы кластерного анализа. Иерархические методы
В лекции рассматриваются основы кластерного анализа, математические характеристики кластера. Описаны две группы иерархического кластерного анализа: агломеративные и дивизимные методы. Приведен пример иерархического кластерного анализа в SPSS.
-
Тест 13
15 минут
-
Лекция 14
35 минут
Методы кластерного анализа. Итеративные методы.
Рассмотрены итеративные методы на примере алгоритма k-средних. Изложена основа факторного анализа и итеративная кластеризация в SPSS. Описан процесс кластерного анализа. Приведен сравнительный анализ иерархических и неиерархических методов и некоторые новые алгоритмы.
-
Тест 14
15 минут
-
Лекция 15
46 минут
-
Тест 15
15 минут
-
Лекция 16
36 минут
Способы визуального представления данных. Методы визуализации
В лекции рассматриваются методы и средства визуального представления информации, в частности, способы представления информации в одно-, двух-, трехмерном измерениях, а также способы отображения информации в более чем трех измерениях. Описаны принципы качественной визуализации. Изложены основные тенденции в области визуализации.
-
Тест 16
15 минут
-
Лекция 17
45 минут
Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
В лекции рассматриваются такой тип информационных систем, как СППР, их типы и компоненты. Изложены основные идеи OLAP-технологии, архитектуры OLAP-серверов, интеграции Data Mining и OLAP. Описана технология хранилищ данных и преимущества их использования, в частности, для процесса Data Mining.
-
Тест 17
15 минут
-
Лекция 18
37 минут
-
Тест 18
15 минут
-
Лекция 19
37 минут
Процесс Data Mining. Очистка данных
Рассматриваются две классификации инструментов очистки и редактирования данных, основные функции инструментов очистки данных, классификация ошибок в данных, которые возникают в результате использования средств очистки данных.
-
Тест 19
15 минут
-
Лекция 20
51 минута
Процесс Data Mining. Построение и использование модели
В лекции рассматриваются этапы процесса Data Mining, связанные с построением, проверкой, оценкой, выбором и коррекцией моделей. Подробно исследуются понятия "модель" и "моделирование".
-
Тест 20
15 минут
-
Лекция 21
44 минуты
Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
В лекции процесс Data Mining рассматривается с точки зрения организационных факторов, а также в соответствии с известными методологиями CRISP и SEMMA. Кратко описываются стандарты, имеющие прямое и опосредованное отношение к Data Mining.
-
Тест 21
15 минут
-
Лекция 22
45 минут
-
Тест 22
15 минут
-
Лекция 23
51 минута
Инструменты Data Mining. SAS Enterprise Miner
В лекции рассматривается пакет SAS Enterprise Miner 5.1. Дан обзор программного продукта, описаны основные характеристики и технические требования пакета. Кратко описан подход SAS к созданию информационно-аналитических систем.
-
Тест 23
15 минут
-
Лекция 24
45 минут
-
Тест 24
15 минут
-
Лекция 25
49 минут
Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
В лекции рассмотрено два инструмента Data Mining. Первый из них - комплекс программных средств компании Cognos; описаны особенности методологии моделирования в системе. Второй инструмент - STATISTICA Data Miner, описаны средства анализа и схема работы.
-
Тест 25
15 минут
-
Лекция 26
42 минуты
-
Тест 26
15 минут
-
Лекция 27
33 минуты
Инструмент KXEN
Рассматривается программное обеспечение KXEN. Указываются отличия подхода KXEN от традиционного подхода Data Mining. Исследуются предпосылки создания системы KXEN и ее технические характеристики. Описаны ключевые компоненты системы KXEN. Разобрана технология IOLAP.
-
Тест 27
15 минут
-
Лекция 28
36 минут
Data Mining консалтинг
Рассмотрено понятие Data Mining-консалтинга, предоставления услуг по эффективному внедрению этой технологии. Описаны преимущества этого варианта. Изложена процедура работы консалтинговой компании SnowCactus с клиентом.
-
Тест 28
15 минут
-
5 часов
-