Московский государственный университет имени М.В.Ломоносова
Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1614 / 251 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00
Специальности: Математик
Лекция 5:

Нелинейный классификатор. Многослойный персептрон

< Лекция 4 || Лекция 5: 1234 || Лекция 6 >

5.4. Построение нейронной сети

Существует два подхода к задаче построения нейронной сети-классификатора. Первый подход заключается в построении сети, варьируя архитектуру. Данный метод основан на точной классификации прецедентов. Второй подход состоит в подборке параметров (весов и порогов) для сети с заданной архитектурой.

5.4.1 Алгоритм, основанный на точной классификации множества прецедентов. Опишем общую идею метода. За основу берется один нейрон. Далее наращиваем нейрон, пока не получим правильную классификацию всех прецедентов.



Рассмотрим более подробно алгоритм. Начинаем с одного нейрона n(X), называемого мастером. После его тренировки получаем разделение множества X на X^+ и X^-. Если X^+ содержит вектора из двух классов, то вводим новый узел n(X^+), называемый последователем.

Таким образом, на первом слое нейронов находится один мастер и несколько последователей. Никакие вектора из разных классов не имеют одинакового выхода из первого слоя.

X_1=\{y:y=f_1(x),x\in X\},
где f_1отображение, задаваемое первым слоем.

Аналогичным образом строим второй слой, третий слой и т.д.

Утверждение. При правильном выборе весов каждый очередной слой правильно классифицирует все вектора, которые правильно классифицировал мастер и еще хотя бы один вектор.

Таким образом, получаем архитектуру, имеющую конечное число слоев, правильно классифицирующие все прецеденты.

Нейроны первого слоя – это биссекторы, разделяющие пары. Второй слой – нейроны and, определяющие полиэдры. Третий слой – нейроны or, определяющие классы.

Основным недостатком данного метода является слишком большое количество нейронов.

5.4.2. Алгоритм, основанный на подборе весов для сети с заданной архитектурой. Идея данного метода состоит в том, чтобы ввести критерий в виде функции стоимости, которую необходимо минимизировать.

Пусть

  • L – число слоев в сети;
  • k_r – число нейронов в слое r, где r=1,2,\ldots,L ;
  • k_L – число выходных нейронов;
  • k_0=l – размер входа;
  • x(i)=(x_1(i),x_2(i),\ldots,x_{k_0}(i)) – входной вектор признаков;
  • y(i)=(y_1(i),y_2(i),\ldots,y_{k_L}(i)) a – выходной вектор, который должен быть правильно классифицирован.

Текущем состоянии сеть при обучении дает результат \widehat{y}(i) не совпадающий с y(i). Обозначим:

J=\sum_{i=1}^N\varepsilon(i)
где N – число прецедентов; \varepsilon(i) – ошибка на i -ом прецеденте;
\varepsilon(i)=\frac12\sum_{m=1}^{k_L}e_m^2(i)=\frac12\sum_{m=1}^{k_L}(y_m(i)-\widehat{y}_m(i))^2,
где i=1,2,\ldots,N. Jфункция всех синоптических весов и порогов. Таким образом, целью обучения является решение оптимизационной задачи:
J(W)\rightarrow\min,
где W – множество синоптических весов.


Пусть y_k^{r-1}выход k -ого нейрона (r-1) -ого слоя; W-j^r – весовой вектор (включая порог) j -ого нейрона в r -ом слое, т.е. W-j^r=(W_{j0}^r,W_{j1}^r,\ldots,W_{jk_{r-1}}^r), где k_{r-1} а – число нейронов в (r-1) -ом слое. Таким образом, J – разрывная функция M переменных, где

M=\sum_{r=1}^L k_{r-1}k_r
J разрывна, т.к. разрывна функция активации f:
f(x)=
\left\{
\begin{aligned}
& 1, x>0\\
& 0, x<0
\end{aligned}
\right.

< Лекция 4 || Лекция 5: 1234 || Лекция 6 >