НОУ ИНТУИТ | Нейроинформатика. Лекция 2: Решение задач нейронными сетями

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 01.03.2007 | Доступ: свободный | Студентов: 1591 / 212 | Оценка: 4.58 / 4.39 | Длительность: 20:15:00

Тема: Искусственный интеллект и робототехника

Специальности: Программист

|

Вам нравится? Нравится 28 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Шаг алгоритма разбивается на два этапа:

1-й этап - для фиксированного набора ядер a₁,...,a_k ищем минимизирующее критерий качества D разбиение ${\rm{\{x}}^{\rm{p}}{\rm{\} = P}}_{\rm{1}} \cup {\rm{P}}_{\rm{2}} \cup ... \cup {\rm{P}}_{\rm{k}}$ ; оно дается решающим правилом: $x \in P_i$ , если d(x, a_i)<d(x, a_j) при ${\rm{i}} \ne {\rm{j}}$ , в том случае, когда для x минимум d(x,a) достигается при нескольких значениях i, выбор между ними может быть сделан произвольно;
2-й этап - для каждого P_i ( i=1,...,k ), полученного на первом этапе, ищется $a_I \in A$ , минимизирующее критерий качества (т.е. слагаемое в D для данного $i-D_i = \sum\limits_{x \in P_i}{d(x,a_i )}$

Начальные значения a₁,...,a_k, ${\rm{\{x}}^{\rm{p}}{\rm{\} = P}}_{\rm{1}} \cup {\rm{P}}_{\rm{2}} \cup ... \cup {\rm{P}}_{\rm{k}}$ выбираются произвольно, либо по какому-нибудь эвристическому правилу.

На каждом шаге и этапе алгоритма уменьшается критерий качества D, отсюда следует сходимость алгоритма - после конечного числа шагов разбиение ${\rm{\{x}}^{\rm{p}}{\rm{\} = P}}_{\rm{1}} \cup {\rm{P}}_{\rm{2}} \cup ... \cup {\rm{P}}_{\rm{k}}$ уже не меняется.

Если ядру a_i сопоставляется элемент сети, вычисляющий по входному сигналу x функцию d(x,a_i), то решающее правило для классификации дается интерпретатором "победитель забирает все": элемент x принадлежит классу P_i, если выходной сигнал i -го элемента d(x,a_i) меньше всех остальных

Единственная вычислительная сложность в алгоритме может состоять в поиске ядра по классу на втором этапе алгоритма, т.е. в поиске $a \in A$ , минимизирующего $D_i = \sum\limits_{x \in P_i}{d(x,a)}$

В связи с этим, в большинстве конкретных реализаций метода мера близости d выбирается такой, чтобы легко можно было найти a, минимизирующее D для данного P.

В простейшем случае пространство ядер A совпадает с пространством векторов x, а мера близости d(x,a) - положительно определенная квадратичная форма от x-a, например, квадрат евклидового расстояния или другая положительно определенная квадратичная форма. Тогда ядро a_i, минимизирующее D_i, есть центр тяжести класса P_i:

$a_i = \frac{1}{{|P_i |}}\sum\limits_{x \in P_i} x ,$

( 17)

где |P_i| - число элементов в P_i.

В этом случае также упрощается и решающее правило, разделяющее классы. Обозначим d(x,a) =(x-a,x-a), где (.,.) - билинейная форма (если d - квадрат евклидового расстояния между x и a, то (.,.) - обычное скалярное произведение). В силу билинейности

d(x,a)=(x-a,x-a)=(x,x)-2(x,a) +(a,a).

Чтобы сравнить d(x,a_i) для разных i и найти среди них минимальное, достаточно вычислить линейную неоднородную функцию от x:

d₁(x,a_i) = (a_i,a_i)-2(x,a_i).

Минимальное значение d(x,a_i) достигается при том же i, что и минимум d₁(x,a_i), поэтому решающее правило реализуется с помощью k сумматоров, вычисляющих d(x,a) и интерпретатора, выбирающего сумматор с минимальным выходным сигналом. Номер этого сумматора и есть номер класса, к которому относится x.

Пусть теперь мера близости - коэффициент корреляции между вектором данных и ядром класса:

$d(x,a) = r(x,a) = \sum\limits_j {\frac{{(x_j - M_x )(a_j - M_a )}}{{\sigma_x \sigma_a}}}$

где x_j ,a_j - координаты векторов, $M_x = \frac{1}{n}\sum\limits_j {x_j}$ (и аналогично M_a ), n - размерность пространства данных, $\sigma_x = \sqrt {\frac{1}{n}\sum\limits_j {(x_j - M_x )^2}}$ (и аналогично $\sigma_a$ ).

Предполагается, что данные предварительно обрабатываются (нормируются и центрируются) по правилу:

$x \to \frac{{x_j - M_x}}{{\sigma_x}} .$

Точно также нормированы и центрированы векторы ядер a. Поэтому все обрабатываемые векторы и ядра принадлежат сечению единичной евклидовой сферы ( ||x||=1 ) гиперплоскостью ( $\sum\limits_i {x_i} = 0$ ). В таком случае d(x,a) = (x,a) .

Задача поиска ядра для данного класса P имеет своим решением

$a_P = \sum\limits_{x \in P} x / \left \| \sum\limits_{x \in P} x \right\|$

( 18)

В описанных простейших случаях, когда ядро класса точно определяется как среднее арифметическое (или нормированное среднее арифметическое) элементов класса, а решающее правило основано на сравнении выходных сигналов линейных адаптивных сумматоров, нейронную сеть, реализующую метод динамических ядер, называют сетью Кохонена. В определении ядер a для сетей Кохонена входят суммы $\sum\limits_{x \in P} x$ . Это позволяет накапливать новые динамические ядра, обрабатывая по одному примеру и пересчитывая a_i после появления в P_i нового примера. Сходимость при такой модификации, однако, ухудшается.

Закончим раздел рассмотрением различных способов использования полученных классификаторов.

Базовый способ: для вектора данных xⁱ и каждого ядра a_i вычисляется y_i=d(x,a_i) (условимся считать, что правильному ядру отвечает максимум d, изменяя, если надо, знак d ); по правилу "победитель забирает все" строка ответов y_i преобразуется в строку, где только один элемент, соответствующий максимальному y_i, равен 1, остальные - нули. Эта строка и является результатом функционирования сети. По ней может быть определен номер класса (номер места, на котором стоит 1 ) и другие показатели.
Метод аккредитации: за слоем элементов базового метода, выдающих сигналы 0 или 1 по правилу "победитель забирает все" (далее называем его слоем базового интерпретатора), надстраивается еще один слой выходных сумматоров. С каждым ( i -м) классом ассоциируется q -мерный выходной вектор zⁱ с координатами zⁱ_j. Он может формироваться по-разному: от двоичного представления номера класса до вектора ядра класса. Вес связи, ведущей от i -го элемента слоя базового интерпретатора к j -му выходному сумматору определяется в точности как zⁱ_j. Если на этом i -м элементе базового интерпретатора получен сигнал 1, а на остальных - 0, то на выходных сумматорах будут получены числа zⁱ_j.
Нечеткая классификация. Пусть для вектора данных x обработан слоем элементов, вычисляющих y_i=d(x,a_i). Идея дальнейшей обработки состоит в том, чтобы выбрать из этого набора {y_i} несколько самых больших чисел и после нормировки объявить их значениями функций принадлежности к соответствующим классам. Предполагается, что к остальным классам объект наверняка не принадлежит. Для выбора семейства G наибольших y_i определим следующие числа:
$y_{\max} = \max \{y_i \} ,M_y = \frac{1}{k}\sum\limits_i {y_i ,s = (1 - \alpha )} M_y + \alpha y_{\max}$

где число $\alpha$ характеризует отклонение "уровня среза" s от среднего значения $\alpha \in {\rm{[ - 1}}{\rm{,1]}}$ , по умолчанию обычно принимается $\alpha =0$ .

Множество ${\rm{J = \{i|y}}_{\rm{i}} \in {\rm{G\}}}$ трактуется как совокупность номеров тех классов, к которым может принадлежать объект, а нормированные на единичную сумму неотрицательные величины

$f_i = \frac{{y_i - s}}{{\sum\limits_{j \in J}{(y_i - s)}}}$

(при $i \in J$ и f = 0 в противном случае)

интерпретируются как значения функций принадлежности этим классам.
Метод интерполяции надстраивается над нечеткой классификацией аналогично тому, как метод аккредитации связан с базовым способом. С каждым классом связывается q -мерный выходной вектор zⁱ. Строится слой из q выходных сумматоров, каждый из которых должен выдавать свою компоненту выходного вектора. Весовые коэффициенты связей, ведущих от того элемента нечеткого классификатора, который вычисляет f_i, к j -му выходному сумматору определяются как zⁱ_j. В итоге вектор выходных сигналов сети есть
$z = \sum\limits_i {f_i z^i}$

В отдельных случаях по смыслу задачи требуется нормировка f_i на единичную сумму квадратов или модулей.

Выбор одного из описанных четырех вариантов использования сети (или какого-нибудь другого) определяется нуждами пользователя. Предлагаемые четыре способа покрывают большую часть потребностей.

За пределами этой лекции остался наиболее универсальный способ обучения нейронных сетей методами гладкой оптимизации - минимизации функции оценки. Ему посвящена "Быстрое дифференцирование, двойственность и обратное распространение ошибки" .

Работа над лекцией была поддержана Красноярским краевым фондом науки, грант 6F0124.

Дальше >>

Авторизоваться

Нейроинформатика

Решение задач нейронными сетями

Вопросы и ответы