Московский государственный университет имени М.В.Ломоносова
Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1613 / 248 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00
Специальности: Математик
Лекция 11:

Методы генерации признаков

11.2. Преобразование Карунена-Лоева

Пусть xвектор измерений образа. Целью преобразования является построение такого вектора признаков, что

E\left[y(i)y(j)\right]=0\text{ при } i\neq j.
т.е. чтобы признаки были взаимно некоррелированны.

Пусть

  • A – матрица базисных векторов,
  • y и x – вектора-столбцы.

Будем считать, что

y=A^T x

Обозначим R_y=E\left[yy^T\right], тогда

R_y=E\left[yy^T\right]=E\left[A^T xx^T A\right]=A^T R_x A,
где R_x – симметричная матрица и ее собственные вектора ортогональны.

Выберем в качестве a_i собственные вектора матрицы R_x. Тогда R_y – диагональная матрица, у которой на диагонали стоят собственные значения R_x:\lambda_i,\; i=0,1,\ldots,N-1. Таким образом

R_y=A^T\cdot R_x\cdot A= \Lambda.

Если R_x положительно определенная матрица, то собственные значения \lambda_i>0,\;i=0,1,\ldots,N-1.

Описанное преобразование называется преобразованием Карунена-Лоева. Оно имеет фундаментальное значение, т.к. оно приводит к построению некоррелированных признаков.

11.2.1. Свойства преобразования Карунена-Лоева

Пусть x=Ay или x=\sum_{i=0}^{N-1}y(i)a_i – разложение по базисным векторам.

Определим новый m -мерный вектор (m<N):

\widehat{x}=\sum_{i=0}^{m-1}y(i)a_i
где \widehat{x}проекция x на подпространство. Если мы аппроксимируем x с помощью \widehat{x}, то ошибка есть (выбираем те векторов, m для которых ошибка минимальна):
\begin{aligned}
&E\|x-\widehat{x}\|^2=E
\left[
\left\|
\sum_{i=0}^{N-1}y(i)a_i
\right\|^2
\right]
=E
\left[
\sum_i\sum_j(y(i)a_i^T)(y(i)a_i)
\right]=\\
&=\sum_{i=m}^{N-1}E
\left[
y^2(i)
\right]
=\sum_{i=m}^{N-1}a_i^T E
\left[
xx^T
\right]
a_i=\sum_{i=m}^{N-1}a_i^T\lambda_i a_i =\sum_{i=m}^{N-1}\lambda_i.
\end{aligned}

Тогда очевидно, что выбирать нужно m базисных векторов с максимальными собственными значениями.

Отметим еще раз соотношение преобразования Карунена-Лоева с методом селекции признаков. В методе селекции признаков в качестве критерия выступали дискриминантные свойства полученного вектора признаков. В преобразовании Карунера-Лоева в качестве критерия выступает наилучшее приближение исходных измерений.

11.2.2. Применение преобразования Карунена-Лоева к задаче классификации. В данном случае основная концепция заключается в том, что подпространство главных собственных значений может быть использовано для классификации.

Алгоритм:

  • для каждого класса \Omega_i строим корреляционную матрицу R_i,
  • выбираем m главных собственных значений и собственных векторов,
  • строим соответствующие матрицы A_i, у которых столбцы – значения собственных векторов.
  • неизвестный (пробный) вектор x классифицируем по правилу \left\|
A_j^T x
\right\| >
\left\|
A_i^T x
\right\|
при i\neq j, т.е. в ближайшее подпространство.

11.2.3. Декомпозиция сингулярных значений.

Пусть задана матрица A ранга r. Покажем, что существуют такие унитарные матрицы U_{N\times N} и V_{N\times N}, что

X=U\cdot
\begin{bmatrix}
\Lambda^{\frac12}&0\\
0&0
\end{bmatrix}
\cdot V^H,\;
Y=
\begin{bmatrix}
\Lambda^{\frac12}&0\\
0&0
\end{bmatrix}
=U^H\cdot X\cdot V,
где \Lambda_{r\times r}^{\frac12} – диагональная матрица с элементами \sqrt{\lambda_i} и \lambda_ir ненулевых собственных значений матрицы X^H X. Иначе существуют такие унитарные матрицы U_{N\times N} и V_{N\times N}, что преобразованная X путем U^H XV есть диагональная матрица. Следовательно
X=\sum_{i=0}^{r-1}\sqrt{\lambda_i}\cdot u_i\cdot \nu_i^H ( 11.2)
где u_i и \nu_i – первые r столбцов матриц U_{N\times N} и V_{N\times N} соответственно, т.е. u_i и \nu_iсобственные вектора матриц XX^H и X^HX соответственно.

Собственные значения \lambda_i называются сингулярными значениями матрицы X. Преобразование (11.2) – преобразование сингулярных значений или спектральное представление X.

Если X аппроксимировать следующим образом

\widehat{X}=\sum_{i=0}^{k-1}\sqrt{\lambda_i}\cdot u_i\cdot \nu_i^H, k\leq r-1,
то \widehat{X} есть сумма k одноранговых матриц и имеет ранг равный k. Можно показать, что квадратичная ошибка
\varepsilon^2=\sum_{m=0}^{N-1}\sum_{n=0}^{N-1}
\left|
X(m,n)-\widehat{X}(m,n)
\right|^2
является минимальной для всех k -ранговых матриц. Ошибка аппроксимации есть
\varepsilon^2=\sum_{i=k}^{r-1}\lambda_i,
следовательно, и в данном случае нужно выбирать максимальное \lambda_i.

Таким образом, \widehat{X} есть наилучшая аппроксимация в смысле нормы Фробениуса. Данная аппроксимация напоминает преобразование Карунена-Лоева.