Московский государственный университет имени М.В.Ломоносова
Опубликован: 30.04.2008 | Доступ: свободный | Студентов: 1613 / 248 | Оценка: 4.24 / 3.92 | Длительность: 14:56:00
Специальности: Математик
Лекция 8:

Классификация на основе сравнения с эталоном

< Лекция 7 || Лекция 8: 12 || Лекция 9 >

8.3. Задача сравнения речевых команд


В обработке речи можно выделить следующие основные направления:

  • Распознавание отдельных слов (IWR – Isolated Word Recognition),
  • Распознавание слитной речи (CSR – Continuous Speech Recognition).
  • CDR – Speaker Dependent Recognition,
  • SIR – Speaker Independent Recognition.

Ядром IWR-систем является совокупность эталонов и мера. Отрезок сигнала (см. рис.) [0,T] разбивается на сегменты, т.е. сигнал квантуется (с перекрытием). С каждым сегментом связывается вектор коэффициентов Фурье.

Обработка звука происходит в два этапа.

Первый этап. Строим цепочку r(i), \def\I{\mathop{I}}
i=1,\ldots,\I\limits^{.}
– разговорные сегменты. Далее строим преобразование Фурье с разбиением на t_f=512 отрезков. Обозначим через x_i(n), n=0,\ldots,511 – отчеты для i -ого сегмента, \def\I{\mathop{I}}
i=1,\ldots,\I\limits^{.}
. Тогда

X_i(m)=\frac{1}{\sqrt{512}}\sum_{n=0}^{511}x_i(n)\cdot\exp\left(-j\frac{2\pi}{512}\right),\; m=0,\ldots,511.

Рассмотрим первые l,\;l\ll t_f (пусть l\approx 50 ), коэффициентов Фурье в качестве вектора признаков:

\def\I{\mathop{I}}
r(i)=
\left[
\begin{gathered}
X_i(0) \\
X_i(1) \\
\vdots \\
X_i(l-1)
\end{gathered}
\right],
\;l=1,\ldots,\I\limits^{.}

Второй этап. Определяем ограничения в графе соответствия сегментов эталонной и тестируемой команд.


Глобальные ограничения – ограничения поля для оптимального маршрута, например, |i-j|\leq k (рис. слева).

Локальные ограничения – монотонность на сети маршрутов (рис. справа).

Ограничения конечной точки.

Стоимость d – Евклидово расстояние между r(i_k),t(j_k):

d(i_k,j_k|i_{k-1},j_{k-1})=\|r(i_k)-t(j_k)\|=d(i_k,j_k).

Таким образом, и эта задача также сводится к поиску кратчайшего пути на графе.

8.4. Динамическое программирование


Задача поиска кратчайшего пути на графе может быть решена методом динамического программирования. Пусть (i_0,j_0) – начальный узел (отправной город), (i_f,j_f)конечный узел (город – пункт назначения). Тогда задача состоит в поиске оптимального маршрута через промежуточные узлы (города):

(i_0,j_0)\xrightarrow{opt}(i_f,j_f)

Пусть (i,j) – промежуточный узел. Тогда по принципу оптимальности Беллмана имеем

(i_0,j_0)\xrightarrow{opt}(i_f,j_f)=
\left((i_0,j_0)\xrightarrow{opt}(i,j)\right)\oplus
\left((i,j)\xrightarrow{opt}(i_f,j_f)\right),
причем D_{\min}(i_k,j_k)=\min_{(i_{k-1},j_{k-1})}
\left[
D_{\min}(i_{k-1},j_{k-1})+d(i_k,j_k|i_{k-1},j_{k-1})
\right].

< Лекция 7 || Лекция 8: 12 || Лекция 9 >