Опубликован: 13.09.2006 | Уровень: специалист | Доступ: платный | ВУЗ: Новосибирский Государственный Университет
Лекция 9:

Радиальные нейронные сети

< Лекция 8 || Лекция 9: 123 || Лекция 10 >

Математические основы радиальных сетей

Математическую основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции образов в некоторое многомерное пространство могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью.

Если вектор радиальных функций в N - мерном входном пространстве обозначить \varphi(x), то это пространство является нелинейно \varphi - разделяемым на два пространственных класса X^+ и X^- тогда, когда существует такой вектор весов w, что

\begin{align*}
w^T \varphi(x) > 0, x \in X^+,\\
w^T \varphi(x) < 0, x \in X^-.
\end{align*}

Граница между этими классами определяется уравнением w^T\varphi(x)=0.

Доказано, что каждое множество образов, случайным образом размещенных в многомерном пространстве, является \varphi - разделяемым с вероятностью 1 при условии соответственно большой размерности этого пространства. На практике это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции \varphi(x), гарантирует решение задачи классификации при построении всего лишь двухслойной сети: скрытый слой должен реализовать вектор \varphi(x), а выходной слой может состоять из единственного линейного нейрона, который выполняет суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором w.

Простейшая нейронная сеть радиального типа функционирует по принципу многомерной интерполяции, состоящей в отображении p различных входных векторов x_i, i = 1,2,\ldots,p из входного N -мерного пространства во множество из p чисел d_i, i = 1,2,\ldots,p. Для реализации этого процесса необходимо использовать p скрытых нейронов радиального типа и задать такую функцию отображения F(x), для которой выполняется условие интерполяции

\begin{align*}
F(x_i) = d_i.
\end{align*}

Использование p скрытых нейронов, соединяемых связями с весами с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Рассмотрим радиальную сеть с одним выходом и p обучающими парами (x_i,d_i). Примем, что координаты каждого из p центров узлов сети определяются одним из векторов x_i, т.е. c_i=x_i. В этом случае взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов, которая в матричной форме имеет вид:

\begin{equation}
  \varphi \cdot w=d,
\end{equation} ( 1)

где \varphi_{ji}=(\|x_j-x_i\|) определяет радиальную функцию с центром в точке x_i с вынужденным вектором x_j, w=[w_1,w_2, \ldots, w_p]^T и d=[d_1,d_2, \ldots, d_p]^T.

Доказано, что для ряда радиальных функций в случае

x_1\neq
x_2\neq\ldots x_p
квадратная интерполяционная матрица \varphi является невырожденной и при этом неотрицательно определенной. Поэтому существует решение уравнения (1) в виде

\begin{equation}
W= \varphi^{-1}d,
\end{equation} ( 2)

что позволяет получить вектор весов выходного нейрона сети.

Теоретическое решение проблемы, представленное выражением (2), не может считаться абсолютно истинным по причине серьезного ограничения общих свойств сети, вытекающих из сделанных вначале допущений. При очень большом количестве обучающих выборок и равном ему количестве радиальных функций проблема с математической точки зрения становится бесконечной (плохо структурированной), поскольку количество уравнений начинает превышать число степеней свободы физического процесса, моделируемого уравнением (1). Это означает, что результатом такого чрезмерного количества весовых коэффициентов станет адаптация модели к разного рода шумам или нерегулярностям, сопровождающим обучающие выборки. Как следствие, интерполирующая эти данные гиперповерхность не будет гладкой, а обобщающие возможности останутся очень слабыми.

Чтобы их усилить, следует уменьшить количество радиальных функций и получить из избыточного объема данных дополнительную информацию для регуляризации задачи и улучшения ее обусловленности.

< Лекция 8 || Лекция 9: 123 || Лекция 10 >
Ирина Ткаченко
Ирина Ткаченко
Россия, Москва
Николай Ткаченко
Николай Ткаченко
Россия