НОУ ИНТУИТ | Математические методы распознавания образов. Лекция 2: Классификация на основе байесовской теории решений

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Твой путь к знаниям!

Московский государственный университет имени М.В.Ломоносова

Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1614 / 251 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00

Специальности: Математик

Теги: beta, IWR, recognition, алгоритмы, базисными векторами, выпуклая оболочка, выходной нейрон, направляющий вектор, обучение, поиск, полиэдр, пространство признаков, процедуры, разработка, сложность, собственный вектор, теория, эмпирический риск

|

Вам нравится? Нравится 22 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

2.4. Дискриминантные функции и поверхности решения

Минимизация риска и вероятности ошибки эквивалентны разделению пространства признаков на областей. Если области R_i и R_j смежные, то они разделены поверхностью решения в многомерном пространстве. Для случая минимизации вероятности ошибки поверхность решения задается уравнением:

$P(\Omega_i|x)-P(\Omega_j|x)=0$

В данном уравнении приходится оперировать с вероятностями. Иногда вместо вероятностей удобнее работать с функцией от вероятности:

$g_i(x)=f(P(\Omega_i|x)),$

где функция

монотонно возрастает.

Определение. Функция $g_i(x)=f(P(\Omega_i|x))$ называется дискриминантной функцией.

Таким образом, поверхность решения будет задаваться уравнением:

$g_i(x)-g_j(x)=0, \; i=1,2,\ldots,M \, , \; i\neq j.$

Для задачи классификации по вероятности ошибки или риску не всегда удается вычислить вероятности. В этом случае бывает более предпочтительно вычислить разделяющую поверхность на основе другой функции стоимости. Такие подходы дают решения, субоптимальные по отношению к Байесовской классификации.

2.5. Байесовский классификатор для нормального распределения

Распределение Гаусса очень широко используется по причине вычислительного удобства и адекватности во многих случаях. Рассмотрим многомерную плотность нормального распределения $N(\mu_i,\Sigma_i)$ :

$p(x|\Omega_i)=\frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}\cdot \exp\left(-\frac12 \frac{(x-\mu_i)^T}{\Sigma_i(x-\mu_i)}\right),\; i=1,2,\ldots,M$

где $\mu_i=E[X]$ – математическое ожидание случайной величины

в классе $\Omega_i$ , $\Sigma_i$ – матрица ковариации размерности $l\times l$ для класса $\Omega_i, \; \Sigma_i=E\lfloor(x-\mu_i)(x-\mu_i)^T\rfloor$ , $|\Sigma_i|$ – определитель матрицы ковариации. Здесь $x, \mu_i$ – это вектора-столбцы, а $x^T, \mu_i^T$ - вектора-строки.

5.1. Квадратичная поверхность решения. На основе этих данных необходимо построить байесовский классификатор. Рассмотрим логарифмическую дискриминантную функцию:

$\begin{gathered} g_i(x) = \ln (P(\Omega_i|x))= \\ =\ln (p(x|\Omega_i)P(\Omega_i))= \\ =\ln p(x|\Omega_i)+\ln P(\Omega_i)= \\ =-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) +\ln \frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}}= \\ =-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) -\frac{l}{2} \ln(2\pi)-\frac12\ln |\Sigma_i| = \\ =-\frac{1}{2} \frac{(x-\mu_i)}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_i) + C_i, \text{ где } C_i=-\frac{l}{2} \ln(2\pi)-\frac{1}{2} \ln |\Sigma_i| \end{gathered}$

Эта функция представляет собой квадратичную форму. Следовательно, разделяющая поверхность g_i(x)-g_j(x)=0 является гиперповерхностью второго порядка. Поэтому Байесовский классификатор является квадратичным классификатором.

Пример. Пусть $l=2,\; \Sigma_i= \begin{pmatrix} \sigma_i^2 & 0 \\ 0 & \sigma_i^2 \end{pmatrix}$ . Тогда $\frac{1}{\Sigma_i}= \begin{pmatrix} \frac{1}{\sigma_i^2} & 0 \\ 0 & \frac{1}{\sigma_i^2} \end{pmatrix}$ .

$g_i(x)=-\frac{1}{2\sigma_i^2}(x_1^2+x_2^2)+\frac{1}{\sigma_i^2}(\mu_{i1}x_1+\mu_{i2}x_2)- \frac{1}{\sigma_i^2}(\mu_{i1}^2+\mu_{i2}^2)+\ln(P(\Omega_i))+C_i$

Разделяющей поверхностью является коническое сечение.

Пример. Пусть

$P(\Omega_1)=P(\Omega_2), \; \mu_1=(0,0), \; \mu_2=(1,0), \; \Sigma_1= \begin{pmatrix} 0.1 & 0 \\ 0 & 0.15 \end{pmatrix}, \Sigma_2= \begin{pmatrix} 0.2 & 0 \\ 0 & 0.25 \end{pmatrix}.$

Тогда

$\frac{1}{\Sigma_1}= \begin{pmatrix} 10 & 0 \\ 0 & 20/3 \end{pmatrix} ,\; \frac{1}{\Sigma_2}= \begin{pmatrix} 5 & 0 \\ 0 & 4 \end{pmatrix}.$

Найдем поверхность решения.

$\begin{gathered} g_1(x)=-\frac12(x_1,x_2) \begin{pmatrix} 10 & 0 \\ 0 & 20/3 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} +\ln P(\Omega_1)-\ln(2\pi)+\frac12\ln\frac{200}{3}= \\ =\left(10x_1^2+\frac{20}{3}x_2^2\right)+\ln P-\ln(2\pi)+\frac12\ln\frac{200}{3} \\ g_2(x)=-\frac12(x_1-1,x_2) \begin{pmatrix} 5 & 0 \\ 0 & 4 \end{pmatrix} \begin{pmatrix} x_1-1 \\ x_2 \end{pmatrix} +\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 = \\ =-\frac12(5(x_1-1)^2+4x_2^2)+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 \\ g_1(x)-g_2(x)=-\frac12 \left(10x_1^2+\frac{20}{3}x_2^2-5(x_1-1)^2-4x_2^2\right) +\frac12\left(\ln\frac{200}{3}-\ln 20\right)= \\ =-\frac12\left(5(x_1+1)^2+\frac83 x_2^2\right)+5+\frac12\ln\frac{10}{3} \end{gathered}$

Т.к. g_1(x)-g_2(x)=0 , то $-\frac12\left(5(x_1+1)^2+\frac83 x_2^2\right)+5+\frac12\ln\frac{10}{3}=0$

$\begin{gathered} 5(x_1+1)^2+\frac83 x_2^2=10+\ln\frac{10}{3} \\ \frac{(x_1+1)^2}{8/3}+\frac{x_2^2}{5}=\frac{3}{40}\left(10+\ln\frac{10}{3}\right) \\ \frac{(x_1+1)^2}{\left(2\sqrt{2/3}\right)^2}+\frac{x_2^2}{\left(\sqrt{5}\right)^2}=\frac{3}{40}\left(10+\ln\frac{10}{3}\right) \end{gathered}$

– эллипс центром в точке (-1,0)

.

Пример. Пусть

$P(\Omega_1)=P(\Omega_2), \; \mu_1=(0,0), \; \mu_2=(1,0), \; \Sigma_1= \begin{pmatrix} 0.1 & 0 \\ 0 & 0.15 \end{pmatrix}, \Sigma_2= \begin{pmatrix} 0.15 & 0 \\ 0 & 0.1 \end{pmatrix}.$

Тогда

$\frac{1}{\Sigma_1}= \begin{pmatrix} 10 & 0 \\ 0 & 20/3 \end{pmatrix} ,\; \frac{1}{\Sigma_2}= \begin{pmatrix} 20/3 & 0 \\ 0 & 10 \end{pmatrix}.$

.Найдем поверхность решения.

Из предыдущего примера:

$\begin{gathered} g_1(x)=-\frac12\left(5(x_1-1)^2+4x_2^2\right)+\ln P(\Omega_2)-\ln(2\pi)+\frac12\ln 20 \\ g_2(x)=-\frac12(x_1-1,x_2) \begin{pmatrix} 10/3 & 0 \\ 0 & 10 \end{pmatrix} \begin{pmatrix} x_1-1 \\ x_2 \end{pmatrix} +\ln P(\Omega_2)+\frac12\ln\frac{200}{3} \\ g_1(x)-g_2(x)=-\frac12\left(10x_1^2+\frac{20}{3}x_2^2-\frac{20}{3}(x_1-1)^2-10x_2^2\right)=\\ =-\frac12\left(\frac{10}{3}x_1^2-\frac{10}{3}x_2^2+\frac{40}{3}x_1-\frac{20}{3}\right)=\\ =-\frac12\cdot\frac{10}{3}(x_1^2-x_2^2+4x_1-2)=-\frac53\left((x_1+2)^2-x_2^2-6\right) \end{gathered}$

Т.к.

, то $-\frac53\left((x_1+2)^2-x_2^2-6\right)=0$

=6 – гипербола с центром в точке (-2,0)

5.2. Линейная поверхность решения. Условие остается тем же:

$p(x|\Omega_i)=\frac{1}{(2\pi)^{1\!/2}\cdot|\Sigma_i|}\cdot \exp\left(-\frac12\frac{x-\mu_i}{\Sigma}(x-\mu_i)^T\right),\; i=1,2,\ldots,M.$

В предыдущем пункте мы получили квадратичную форму:

$\begin{gathered} h_i(x)=\ln\left(p(x|\Omega_i)P(\Omega_i)\right)=\\ =\ln p(p(x|\Omega_i)+\ln P(\Omega_i)=\\ =-\frac12\frac{x-\mu_i}{\Sigma_i}(x-\mu_i)^T+\ln P(\Omega_1)+C_i,\text{ где } C_i=\ln\frac{1}{(2\pi)^{1\!/2}|\Sigma_i|^{1\!/2}} \end{gathered}.$

Пусть $\Sigma_i=\Sigma_j$ , тогда

$\begin{gathered} h_i(x)=-\frac12\left[\frac{x}{\Sigma_i}x^T-\frac{\mu_i}{\Sigma_i}x^T-\frac{x}{\Sigma_i}\mu_i^T+\frac{\mu_i}{\Sigma_i}\mu_i^T\right]+\ln P(\Omega_i)+C_i= \\ =-\frac12\left[\frac{x}{\Sigma_i}x^T-2\frac{\mu_i}{\Sigma_i}x^T+\frac{\mu_i}{\Sigma_i}\mu_i^T\right]+\ln P(\Omega_i)+C_i=\\ =-\frac12\left[K_i(x)-2W_i x^T+W_i\mu_i^T\right]+\ln P(\Sigma_i)+C_i=\\ =-\frac12 K_i(x)+L_i(x)+C_i, \text{ где } L_i(x)=W_i x^T+W_{i0};\; W_i=\frac{\mu_i}{\Sigma_i};\\ W_{i0}=\ln P(\sigma_i\mu_i^T) \end{gathered}$

При $\Sigma_i=\Sigma_j$ можно сравнивать только L_i(x) и L_j(x) . Таким образом, при $\Sigma_i=\Sigma_j$ мы получили линейную поверхность решения.

5.2.1. Линейная поверхность решения с диагональной матрицей ковариации. Рассмотрим случай, когда матрица диагональная с одинаковыми элементами: $\Sigma= \begin{pmatrix} \sigma^2 & 0 \\ 0 & \sigma^2 \end{pmatrix}$ . Тогда L_i(x) имеет вид: $L_i(x)=\frac{1}{\sigma^2}\mu_i^T x+W_{i0}$ ;

$L_{ij}(x)=L_i(x)-L_j(x)=W^T(x-x_0)=0,$

где

$W=\mu_i-\mu_j,\;x_0=\frac12(\mu_i+\mu_j)-\sigma^2\frac{\mu_i-\mu_j}{\|\mu_i-\mu_j\|^2}\ln\frac{P(\Omega_i)}{P(\Omega_j)}$

В данном случае под нормой понимается евклидова норма. Поверхностью решения является гиперплоскость, проходящая через точку x_0

.

Если $P(\Omega_i)=P(\Omega_j)$ , то x_0 – это середина вектора $\overline{\mu_i\mu_j}$ .

Т.к. $L_{ij}(x)=0$ , то $W^T(x-x_o)=(\mu_i-\mu_j)^T(x-x_0)=0$ . Следовательно, поверхность решения ортогональна $\overline{\mu_i,\mu_j}$ .

Пример. Рассмотрим пример разделяющей поверхности решения для двухклассовой задачи с нормальным распределением. Поверхность решения лежит ближе к $\mu_i$ , если $P(\Omega_i)<P(\Omega_j)$ . Соответственно, поверхность решения лежит ближе к $\mu_j$ , если $P(\Omega_i)>P(\Omega_j)$ . Также, если $\sigma^2$ мало по отношению к $\|\mu_i-\mu_j\|$ , то положение поверхности решения не очень чувствительно к изменению $P(\Omega_i)$ и $P(\Omega_j)$ . Последнее справедливо, т.к. вектора лежат в малых окрестностях $\mu_i$ и $\mu_j$ , поэтому изменение гиперплоскости их затрагивает не сильно. В центре изображен случай малого, а справа случай большого $\sigma^2$ .

5.2.2. Линейная поверхность решения с недиагональной матрицей ковариации. В этом случае уравнение:

$L_{ij}(x)=L_i(x)-L_j(x)=W^T(x-x_0)=0$

будет иметь несколько иные параметры:

$W=\frac{\mu_i-\mu_j}{\Sigma}\text{ и }x_0=\frac12(\mu_i+\mu_j)-\frac{\mu_i-\mu_j}{\|\mu_i-\mu_j\|_{\Sigma^{-1}}^2}$

В данном случае под нормой понимается так называемая $\Sigma^{-1}$ норма

, которая имеет вид: $\|x\|_{\Sigma^{-1}}=(x^T\Sigma^{-1}x)^{1\!/2}$ . Для такой нормы поверхность решения не ортогональна вектору $\overline{\mu_i\mu_j}$ , Но она ортогональна его образу при преобразовании $\Signa^{-1}(\mu_i-\mu_j)$ .

Дальше >>

Авторизоваться

Математические методы распознавания образов

Классификация на основе байесовской теории решений

2.4. Дискриминантные функции и поверхности решения

2.5. Байесовский классификатор для нормального распределения

Вопросы и ответы