Опубликован: 26.07.2006 | Доступ: свободный | Студентов: 2742 / 421 | Оценка: 4.00 / 3.77 | Длительность: 15:27:00
ISBN: 978-5-94774-818-5
Специальности: Программист, Математик
Лекция 12:

Нечеткие алгоритмы обучения

Обучение на основе условной нечеткой меры

Пусть X=\{x_{1}, \ldots ,x_{n}\} — множество причин (входов) и Y=\{y_{1}, \ldots ,y_{m}\} — множество результатов. Если hфункция из X в интервал [0,1], \(h(x_1 ) \leqslant
\;\ldots\; \leqslant h(x_n )\) и g_{x} — нечеткая мера на X, то

\int\limits_X {h(x)g_x ( \cdot )}  = \mathop {\max
}\limits_{i = 1,...,n} \;\min (h(x_i ),g_X (H_i )),
где H_{i}=\{x_{i}, \ldots ,x_{n}\}.

Задача состоит в оценке (уточнении) причин по нечеткой информации.

Пусть g_{Y} — нечеткая мера на Y, g_{Y} связана с g_{X} условной нечеткой мерой \sigma_{Y}(\cdot | x):

g_Y  = \int\limits_X {\sigma _Y ( \cdot |x)g_X }
.

Предполагается следующая интерпретация вводимых мер: g_{X} оценивает степень нечеткости утверждения "один из элементов X был причиной", \sigma_{Y}(A| x), A\subset Y оценивает степень нечеткости утверждения "один из элементов A является результатом благодаря причине x "; g_{Y}(\{y\}) характеризует степень нечеткости утверждения: " yдействительный результат".

Пусть \mu_{A}(y) описывает точность информации A, тогда по определению \(g_Y (A) = \int\limits_X {\mu _A (y)g_X }\).

Метод обучения должен соответствовать обязательному условию: при получении информации A нечеткая мера g_{X} меняется таким образом, чтобы g_{Y}(A) возрастала. Предположим, что g_{X}(\cdot) и \sigma_{Y}(
\cdot|x) удовлетворяют \lambda -правилу. Пусть \sigma_{Y}(A|x_{i}) является убывающей, тогда

g_Y (A) = \mathop  \vee \limits_{i = 1}^n \left[ {\sigma _Y
(A|x_i ) \wedge g_X (F_i )} \right],
где F_{i}=\{x_{1}, \ldots, x_{i}\}. При этих условиях существует l:
\begin{gathered}
  g_Y (A) = \sigma _Y (A|x_l ) \wedge g_X (F_l ), \\
  \sigma _Y (A|x_l ) \wedge g_X (F_l ) \geqslant \sigma _Y (A|x_{l - 1} )
\wedge g_X (F_{l - 1} ), \\
  \sigma _Y (A|x_l ) \wedge g_X (F_l ) > \sigma _Y (A|x_{l + 1} ) \wedge
g_X (F_{l + 1} ). \\
\end{gathered}

Обучение может быть осуществлено увеличением тех значений g_{i} ( i=1, \ldots ,n ) нечеткой меры g_{X}, которые увеличивают g_{Y}(A), и уменьшением тех значений g_{i} ( i=1, \ldots ,n ) меры g_{X}, которые не увеличивают g_{Y}(A). Можно показать, что на величину g_{Y}(A) влияют только такие g_{i}, что 1\le   i\le   l. Следовательно, нечеткий алгоритм обучения следующий:

\begin{gathered}
  g^i  = \alpha g^i  + (1 - \alpha )\sigma _Y (A|x_i );\quad \quad i =
1,\ldots,l; \\
  g^i  = \alpha g^i ;\quad \quad i = l + 1,\ldots,n. \\
\end{gathered}

Параметр \alpha\in[0,1] регулирует скорость обучения, т.е. скорость сходимости g^{i}. Чем меньше \alpha, тем сильнее изменяется g^{i}. В приведенном алгоритме нет необходимости увеличивать g^{i} больше, чем на \sigma_{Y}(A|x_{i}), так как большое увеличение g^{i} не влияет на g_{Y}(A). Приведем некоторые свойства модели обучения.

Свойство 1. Если повторно поступает одна и та же информация, то происходит следующее:

a. новое g^{i} больше старого g^{i} ( i=1, \ldots ,l ) и новое g^{i} меньше старого g^{i} ( i=l+1, \ldots ,n ), следовательно, новая мера g_{Y}(A) не меньше старой меры g_{Y}(A), и новая мера

g_Y (A) = \sigma _Y (A|x_k ) \wedge g_X (F_k ),\quad \quad
k \leqslant l;

b. при предположении \sigma_{Y}(A|x_{1}) > 
\sigma_{Y}(A|x_{2}), k<l, g^{1} сходится к \sigma_{Y}(A|x_{1}) и g^{i} сходится к 0 для i=2, \ldots ,n.

Свойство 2. Если поступает одна и та же информация повторно: \(h_A (y) = c\) для всех y, то \(\sigma _Y (A|x) = \int\limits_X {c\sigma _Y ( \cdot |x)}  = c,\quad
\sigma _Y (A) = c \wedge g_X(X)\).

Следовательно, l=n и g^{i} сходится к c для всех i.

Свойство 3. Предельное значение g^{i} не зависит от начального значения тогда, когда на вход повторно поступает одна и та же информация.

Пример. Рассмотрим модель глобального поиска экстремума неизвестной функции с несколькими локальными экстремумами. Для поиска глобального экстремума формируются критерии в виде некоторых функций:

x_{1} — оценивает число точек, проанализированных на предыдущих шагах;

x_{2} — оценивает среднее значение функции по результатам предыдущих шагов;

x_{3} — оценивает число точек, значение функции в которых принадлежит десятке лучших в своей области;

x_{4} — оценивает максимум по прошлым попыткам;

x_{5} — оценивает градиент функции.

В описанном случае g_{X} показывает степень важности подмножеств критериев и \sigma_{Y}(\{y_{j}\}|x_{i}) оценивает предположение о нахождении экстремума в блоке y_{j} в соответствии с критерием x_{i}. Например, \sigma_{Y}(\{y_{j}\}|x_{i}) может зависеть от числа ранее проанализированных точек в блоке y_{j}. Пусть входная информация A определяется формулой

\mu _A (y_j ) = \frac{{p_j  - \mathop {\min }\limits_k
\;p_k }}
{{\mathop {\max }\limits_k \;p_k  - \mathop {\min }\limits_k \;p_k }},
где p_{k}максимум анализируемой функции, найденный к рассматриваемому моменту в блоке y_{j}. Очевидно, что A сходится к максимизирующему множеству функции. На каждой итерации осуществляется следующее: проверяется заданное число новых точек; число этих точек выбирается пропорционально g_{Y}(\{y_{j}\}) ; в~каждой точке y_{j} вычисляется и нормализуется мера \sigma_{Y}(\cdot |x_{i} ); нормализуется g_{X} ; по \sigma_{Y} и \sigma_{X} вычисляется g_{Y}(\{y_{j}\}), а затем g_{Y}(A) ; посредством правил подкрепления корректируется g_{Y}(\{x_{i}\}). Затем выполняется новая итерация, и так до тех пор, пока не сойдется g_{Y}.

Владимир Власов
Владимир Власов

Зачем необходимы треугольные нормы и конормы? Как их использовать? Имеется ввиду, на практике.