Московский государственный университет имени М.В.Ломоносова
Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1614 / 251 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00
Специальности: Математик
Лекция 2:

Классификация на основе байесовской теории решений

< Лекция 1 || Лекция 2: 12345 || Лекция 3 >

2.4. Дискриминантные функции и поверхности решения

Минимизация риска и вероятности ошибки эквивалентны разделению пространства признаков на M областей. Если области R_i и R_j смежные, то они разделены поверхностью решения в многомерном пространстве. Для случая минимизации вероятности ошибки поверхность решения задается уравнением:

P(\Omega_i|x)-P(\Omega_j|x)=0
В данном уравнении приходится оперировать с вероятностями. Иногда вместо вероятностей удобнее работать с функцией от вероятности:
g_i(x)=f(P(\Omega_i|x)),
где функция f монотонно возрастает.

Определение. Функция g_i(x)=f(P(\Omega_i|x)) называется дискриминантной функцией.

Таким образом, поверхность решения будет задаваться уравнением:

g_i(x)-g_j(x)=0, \; i=1,2,\ldots,M \, , \; i\neq j.

Для задачи классификации по вероятности ошибки или риску не всегда удается вычислить вероятности. В этом случае бывает более предпочтительно вычислить разделяющую поверхность на основе другой функции стоимости. Такие подходы дают решения, субоптимальные по отношению к Байесовской классификации.

2.5. Байесовский классификатор для нормального распределения

Распределение Гаусса очень широко используется по причине вычислительного удобства и адекватности во многих случаях. Рассмотрим многомерную плотность нормального распределения N(\mu_i,\Sigma_i):

p(x|\Omega_i)=\frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}\cdot
\exp\left(-\frac12 \frac{(x-\mu_i)^T}{\Sigma_i(x-\mu_i)}\right),\; i=1,2,\ldots,M
где \mu_i=E[X] – математическое ожидание случайной величины x в классе \Omega_i, \Sigma_iматрица ковариации размерности l\times l для класса \Omega_i, \; \Sigma_i=E\lfloor(x-\mu_i)(x-\mu_i)^T\rfloor, |\Sigma_i|определитель матрицы ковариации. Здесь x, \mu_i – это вектора-столбцы, а x^T, \mu_i^T - вектора-строки.

5.1. Квадратичная поверхность решения. На основе этих данных необходимо построить байесовский классификатор. Рассмотрим логарифмическую дискриминантную функцию:

\begin{gathered}
g_i(x) = \ln (P(\Omega_i|x))= \\
=\ln (p(x|\Omega_i)P(\Omega_i))= \\
=\ln p(x|\Omega_i)+\ln P(\Omega_i)= \\
=-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) +\ln \frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}= \\
=-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) -\frac{l}{2} \ln(2\pi)-\frac12\ln |\Sigma_i| = \\
=-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) + C_i, \text{ где } C_i=-\frac{l}{2} \ln(2\pi)-\frac{1}{2} \ln |\Sigma_i|
\end{gathered}

Эта функция представляет собой квадратичную форму. Следовательно, разделяющая поверхность g_i(x)-g_j(x)=0 является гиперповерхностью второго порядка. Поэтому Байесовский классификатор является квадратичным классификатором.

Пример. Пусть l=2,\; \Sigma_i=
\begin{pmatrix}
\sigma_i^2 & 0 \\
0 & \sigma_i^2
\end{pmatrix}
. Тогда \frac{1}{\Sigma_i}=
\begin{pmatrix}
\frac{1}{\sigma_i^2} & 0 \\
0 & \frac{1}{\sigma_i^2}
\end{pmatrix}
.

g_i(x)=-\frac{1}{2\sigma_i^2}(x_1^2+x_2^2)+\frac{1}{\sigma_i^2}(\mu_{i1}x_1+\mu_{i2}x_2)-
\frac{1}{\sigma_i^2}(\mu_{i1}^2+\mu_{i2}^2)+\ln(P(\Omega_i))+C_i
Разделяющей поверхностью является коническое сечение.

Пример. Пусть

P(\Omega_1)=P(\Omega_2), \; \mu_1=(0,0), \; \mu_2=(1,0), \; \Sigma_1=
\begin{pmatrix}
0.1 & 0 \\
0 & 0.15
\end{pmatrix},
\Sigma_2=
\begin{pmatrix}
0.2 & 0 \\
0 & 0.25
\end{pmatrix}.
Тогда
\frac{1}{\Sigma_1}=
\begin{pmatrix}
10 & 0 \\
0 & 20/3
\end{pmatrix}
,\;
\frac{1}{\Sigma_2}=
\begin{pmatrix}
5 & 0 \\
0 & 4
\end{pmatrix}.
Найдем поверхность решения.
\begin{gathered}
g_1(x)=-\frac12(x_1,x_2)
\begin{pmatrix}
10 & 0 \\
0 & 20/3
\end{pmatrix}
\begin{pmatrix}
x_1 \\
x_2
\end{pmatrix}

+\ln P(\Omega_1)-\ln(2\pi)+\frac12\ln\frac{200}{3}= \\
=\left(10x_1^2+\frac{20}{3}x_2^2\right)+\ln P-\ln(2\pi)+\frac12\ln\frac{200}{3} \\
g_2(x)=-\frac12(x_1-1,x_2)
\begin{pmatrix}
5 & 0 \\
0 & 4
\end{pmatrix}
\begin{pmatrix}
x_1-1 \\
x_2
\end{pmatrix}
+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 = \\
=-\frac12(5(x_1-1)^2+4x_2^2)+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 \\
g_1(x)-g_2(x)=-\frac12
\left(10x_1^2+\frac{20}{3}x_2^2-5(x_1-1)^2-4x_2^2\right)
+\frac12\left(\ln\frac{200}{3}-\ln 20\right)= \\
=-\frac12\left(5(x_1+1)^2+\frac83 x_2^2\right)+5+\frac12\ln\frac{10}{3}
\end{gathered}

Т.к. g_1(x)-g_2(x)=0, то -\frac12\left(5(x_1+1)^2+\frac83 x_2^2\right)+5+\frac12\ln\frac{10}{3}=0

\begin{gathered}
5(x_1+1)^2+\frac83 x_2^2=10+\ln\frac{10}{3} \\
\frac{(x_1+1)^2}{8/3}+\frac{x_2^2}{5}=\frac{3}{40}\left(10+\ln\frac{10}{3}\right) \\
\frac{(x_1+1)^2}{\left(2\sqrt{2/3}\right)^2}+\frac{x_2^2}{\left(\sqrt{5}\right)^2}=\frac{3}{40}\left(10+\ln\frac{10}{3}\right)
\end{gathered}
эллипс центром в точке (-1,0).


Пример. Пусть

P(\Omega_1)=P(\Omega_2), \; \mu_1=(0,0), \; \mu_2=(1,0), \; \Sigma_1=
\begin{pmatrix}
0.1 & 0 \\
0 & 0.15
\end{pmatrix},
\Sigma_2=
\begin{pmatrix}
0.15 & 0 \\
0 & 0.1
\end{pmatrix}.
Тогда
\frac{1}{\Sigma_1}=
\begin{pmatrix}
10 & 0 \\
0 & 20/3
\end{pmatrix}
,\;
\frac{1}{\Sigma_2}=
\begin{pmatrix}
20/3 & 0 \\
0 & 10
\end{pmatrix}.
.Найдем поверхность решения.

Из предыдущего примера:

\begin{gathered}
g_1(x)=-\frac12\left(5(x_1-1)^2+4x_2^2\right)+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 \\
g_2(x)=-\frac12(x_1-1,x_2)
\begin{pmatrix}
10/3 & 0 \\
0 & 10
\end{pmatrix}
\begin{pmatrix}
x_1-1 \\
x_2
\end{pmatrix}
+\ln P(\Omega_2)+\frac12\ln\frac{200}{3} \\
g_1(x)-g_2(x)=-\frac12\left(10x_1^2+\frac{20}{3}x_2^2-\frac{20}{3}(x_1-1)^2-10x_2^2\right)=\\
=-\frac12\left(\frac{10}{3}x_1^2-\frac{10}{3}x_2^2+\frac{40}{3}x_1-\frac{20}{3}\right)=\\
=-\frac12\cdot\frac{10}{3}(x_1^2-x_2^2+4x_1-2)=-\frac53\left((x_1+2)^2-x_2^2-6\right)
\end{gathered}
Т.к. g_1(x)-g_2(x)=0, то -\frac53\left((x_1+2)^2-x_2^2-6\right)=0 (x_1+2)^2-x_2^2 =6 – гипербола с центром в точке (-2,0)


5.2. Линейная поверхность решения. Условие остается тем же:

p(x|\Omega_i)=\frac{1}{(2\pi)^{1\!/2}\cdot|\Sigma_i|}\cdot
\exp\left(-\frac12\frac{x-\mu_i}{\Sigma}(x-\mu_i)^T\right),\; i=1,2,\ldots,M.

В предыдущем пункте мы получили квадратичную форму:

\begin{gathered}
h_i(x)=\ln\left(p(x|\Omega_i)P(\Omega_i)\right)=\\
=\ln p(p(x|\Omega_i)+\ln P(\Omega_i)=\\
=-\frac12\frac{x-\mu_i}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_1)+C_i,\text{ где } C_i=\ln\frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}
\end{gathered}.

Пусть \Sigma_i=\Sigma_j, тогда

\begin{gathered}
h_i(x)=-\frac12\left[\frac{x}{\Sigma_i}x^T-\frac{\mu_i}{\Sigma_i}x^T-\frac{x}{\Sigma_i}\mu_i^T+\frac{\mu_i}{\Sigma_i}\mu_i^T\right]+\ln P(\Omega_i)+C_i= \\
=-\frac12\left[\frac{x}{\Sigma_i}x^T-2\frac{\mu_i}{\Sigma_i}x^T+\frac{\mu_i}{\Sigma_i}\mu_i^T\right]+\ln P(\Omega_i)+C_i=\\
=-\frac12\left[K_i(x)-2W_i x^T+W_i\mu_i^T\right]+\ln P(\Sigma_i)+C_i=\\
=-\frac12 K_i(x)+L_i(x)+C_i, \text{ где } L_i(x)=W_i x^T+W_{i0};\; W_i=\frac{\mu_i}{\Sigma_i};\\
W_{i0}=\ln P(\sigma_i\mu_i^T)
\end{gathered}

При \Sigma_i=\Sigma_j можно сравнивать только L_i(x) и L_j(x). Таким образом, при \Sigma_i=\Sigma_j мы получили линейную поверхность решения.

5.2.1. Линейная поверхность решения с диагональной матрицей ковариации. Рассмотрим случай, когда матрица диагональная с одинаковыми элементами: \Sigma=
\begin{pmatrix}
\sigma^2 & 0 \\
0 & \sigma^2
\end{pmatrix}
. Тогда L_i(x) имеет вид: L_i(x)=\frac{1}{\sigma^2}\mu_i^T x+W_{i0} ;

L_{ij}(x)=L_i(x)-L_j(x)=W^T(x-x_0)=0,
где
W=\mu_i-\mu_j,\;x_0=\frac12(\mu_i+\mu_j)-\sigma^2\frac{\mu_i-\mu_j}{\|\mu_i-\mu_j\|^2}\ln\frac{P(\Omega_i)}{P(\Omega_j)}
В данном случае под нормой понимается евклидова норма. Поверхностью решения является гиперплоскость, проходящая через точку x_0.

Если P(\Omega_i)=P(\Omega_j), то x_0 – это середина вектора \overline{\mu_i\mu_j}.

Т.к. L_{ij}(x)=0, то W^T(x-x_o)=(\mu_i-\mu_j)^T(x-x_0)=0. Следовательно, поверхность решения ортогональна \overline{\mu_i,\mu_j}.

Пример. Рассмотрим пример разделяющей поверхности решения для двухклассовой задачи с нормальным распределением. Поверхность решения лежит ближе к \mu_i, если P(\Omega_i)<P(\Omega_j). Соответственно, поверхность решения лежит ближе к \mu_j, если P(\Omega_i)>P(\Omega_j). Также, если \sigma^2 мало по отношению к \|\mu_i-\mu_j\|, то положение поверхности решения не очень чувствительно к изменению P(\Omega_i) и P(\Omega_j). Последнее справедливо, т.к. вектора лежат в малых окрестностях \mu_i и \mu_j, поэтому изменение гиперплоскости их затрагивает не сильно. В центре изображен случай малого, а справа случай большого \sigma^2.

5.2.2. Линейная поверхность решения с недиагональной матрицей ковариации. В этом случае уравнение:

L_{ij}(x)=L_i(x)-L_j(x)=W^T(x-x_0)=0
будет иметь несколько иные параметры:
W=\frac{\mu_i-\mu_j}{\Sigma}\text{ и }x_0=\frac12(\mu_i+\mu_j)-\frac{\mu_i-\mu_j}{\|\mu_i-\mu_j\|_{\Sigma^{-1}}^2}
В данном случае под нормой понимается так называемая \Sigma^{-1} норма x, которая имеет вид: \|x\|_{\Sigma^{-1}}=(x^T\Sigma^{-1}x)^{1\!/2}. Для такой нормы поверхность решения не ортогональна вектору \overline{\mu_i\mu_j}, Но она ортогональна его образу при преобразовании \Signa^{-1}(\mu_i-\mu_j).

< Лекция 1 || Лекция 2: 12345 || Лекция 3 >