Опубликован: 14.12.2009 | Доступ: свободный | Студентов: 1803 / 324 | Оценка: 4.28 / 4.12 | Длительность: 17:36:00
ISBN: 978-5-9963-0249-9
Лекция 6:

Распознавание образов и особенности живого восприятия

< Лекция 5 || Лекция 6: 12 || Лекция 7 >
Аннотация: Мы хотим прийти к пониманию феномена мышления, идя от задач поведения и восприятия, т. е. от задач, для решения которых возник и эволюционно развивался мозг. В предыдущих лекциях мы говорили о поведении. Теперь посмотрим, что дает для понимания феномена мышления задача восприятия. Мы рассмотрим некоторые принципы "интеллектуального" восприятия, конкретизирующиеся на примере решения задачи автоматического чтения рукописных символов. Практическая ориентация не привела, как это часто бывает, к упрощению и выхолащиванию проблемы восприятия. Наоборот, для получения работоспособного решения потребовалось введение "интеллектуальных" составляющих, ориентированных на распознавание "с пониманием".

Распознавание образов

С самого начала развития кибернетики машинное восприятие изображений чаще всего выбиралось для исследования и моделирования интеллекта и, в частности, таких очевидных составляющих мышления, как построение системы обобщенных знаний о среде и использование этих знаний в процессе принятия решений. Восприятие зрительной информации представлялось наиболее удобным для моделирования и в то же время наиболее практически значимым.

Сразу было ясно, что для полного решения задачи машинного зрительного восприятия необходимо "интеллектуальное" распознавание, или распознавание "с пониманием". Часто даже пытались сводить мышление к восприятию, попросту ставя между ними знак тождества. В дальнейшем мы увидим, что мышление и восприятие неразрывно связаны, но это далеко не одно и то же. Поэтому исследования живого восприятия (в первую очередь зрительного), безусловно, полезны для понимания процесса мышления, но проблему в целом далеко не решают. В то же время практическая ориентация работ в области автоматического анализа зрительной информации и стремление к технической реализуемости привели к серьезной трансформации проблемы. Оказалось практически почти вынужденным упрощенное рассмотрение процесса восприятия путем сведения его к классификации по признакам простых объектов, рассматриваемых по отдельности. Это направление стало называться "Распознавание образов".

Распознавание образов к направлению "Искусственный интеллект" (ИИ) чаще всего не относили, поскольку в отличие от задач ИИ в распознавании образов появился хорошо разработанный математический аппарат, и для не очень сложных объектов, оказалось возможным строить практически работающие системы распознавания (классификации). В результате традиционное распознавание образов, с одной стороны, не решает задачу машинного анализа сложных изображений и, с другой стороны, не является серьезным инструментом для моделирования интеллекта. Рассмотрим связанные с этим вопросы более подробно.

Для любого распознавания нужны эталоны или модели классов распознаваемых объектов. Классификация методов распознавания возможна по типам используемых эталонов или, что почти то же самое, по способу представления объектов на входе распознающей системы. В большинстве систем распознавания изображений обычно применяются растровый, признаковый или структурный методы.

Растровому подходу соответствуют эталоны, являющиеся изображениями либо какими-то препаратами изображений. При распознавании представленное в виде точечного растра входное изображение сопоставляется точка в точку со всеми эталонными и определяется, с каким из эталонов изображение совпадает лучше, например, имеет больше общих точек. Входное и эталонное изображения должны быть одного размера и одной ориентации. Например, в так называемых multifont-OCR (многошрифтовых распознавателях печатного текста) это достигается построением разных эталонов не только для разных шрифтов, но и для разных размеров символов (кеглей) в пределах одного шрифта. Распознавание таким способом рукописных символов невозможно ввиду их слишком большой вариабельности по форме, размеру и ориентации.

Возможен также вариант использования растрового распознавания с приведением входного изображения к стандартным размерам и ориентации. В этом случае распознавание рукописных символов растровым методом становится возможным после кластеризации каждого распознаваемого класса и создания отдельного растрового эталона для каждого кластера.

В общем случае получение инвариантности по отношению к размерам, форме и ориентации распознаваемых по растру объектов является сложной, а часто и неразрешимой проблемой. Другую проблему порождает необходимость выделения из изображения его фрагмента, относящегося к отдельному объекту. Эта проблема является общей для всех классических методов распознавания образов.

В подавляющем большинстве систем распознавания и, в частности, в существующих omnifont -системах оптического чтения основным является признаковый метод. При признаковом подходе эталоны строятся с использованием выделяемых на изображении признаков. Изображение на входе распознающей системы представляется вектором признаков. В качестве признаков может рассматриваться все что угодно - любые характеристики распознаваемых объектов. Признаки должны быть инвариантны к ориентации, размеру и вариациям формы объектов. Желательно также, чтобы векторы признаков, относящиеся к разным объектам одного класса, принадлежали выпуклой компактной области пространства признаков. Пространство признаков должно быть фиксировано и одинаково для всех распознаваемых объектов. Алфавит признаков придумывается разработчиком системы. Качество распознавания во многом зависит от того, насколько удачно придуман алфавит признаков. Какого-либо общего способа автоматического построения оптимального алфавита признаков не существует.

Распознавание состоит в априорном получении полного вектора признаков для любого выделенного на изображении отдельного распознаваемого объекта и лишь затем в определении того, какому из эталонов этот вектор соответствует. Эталоны чаще всего строятся как статистические либо как геометрические объекты. В первом случае обучение может состоять, например, в получении матрицы частот появления каждого признака в каждом классе объектов, а распознавание - в определении вероятностей принадлежности вектора признаков каждому из эталонов.

При геометрическом подходе результатом обучения чаще всего является разбиение пространства признаков на области, соответствующие разным классам распознаваемых объектов, а распознавание состоит в определении того, в какую из этих областей попадает соответствующий распознаваемому объекту входной вектор признаков. Затруднения при отнесении входного вектора признаков к какой-либо области могут возникать в случае пересечения областей, а также если области, соответствующие отдельным распознаваемым классам, не выпуклы и так расположены в пространстве признаков, что распознаваемый класс от других классов одной гиперплоскостью, не отделяется. Эти проблемы решаются чаще всего эвристически, например, за счет вычисления и сравнения расстояний (необязательно евклидовых) в пространстве признаков от экзаменуемого объекта до центров тяжести подмножеств обучающей выборки, соответствующих разным классам. Возможны и более радикальные меры, например, изменение алфавита признаков или кластеризация обучающей выборки, или то и другое одновременно.

Структурному подходу соответствуют эталонные описания, строящиеся в терминах структурных частей объектов и пространственных отношений между ними. Структурные элементы выделяются, как правило, на контуре или на "скелете" объекта. Чаще всего структурное описание может быть представлено графом, включающим структурные элементы и отношения между ними. При распознавании строится структурное описание входного объекта. Это описание сопоставляется со всеми структурными эталонами, например, отыскивается изоморфизм графов.

Растровый и структурный методы иногда сводят к признаковому подходу, рассматривая в первом случае в качестве признаков точки изображения, а во втором - структурные элементы и отношения между ними. Сразу заметим, что между этими методами есть очень важное принципиальное различие. Растровый метод обладает свойством целостности. Структурный метод может обладать свойством целостности. Признаковый метод свойством целостности не обладает.

Что такое целостность, и какую роль она играет при восприятии?

Классическое распознавание образов обычно организуется как последовательный процесс, разворачивающийся "снизу вверх" (от изображения к пониманию) при отсутствии управления восприятием с верхних понятийных уровней. Этапу распознавания предшествует этап получения априорного описания входного изображения. Операции выделения элементов этого описания, например, признаков, или структурных элементов, выполняются на изображении локально, части изображения получают независимую интерпретацию, то есть отсутствует целостное восприятие, что в общем случае может приводить к ошибкам - рассматриваемый изолированно фрагмент изображения часто можно интерпретировать совершенно по-разному в зависимости от гипотезы восприятия, т. е. от того, какой целостный объект предполагается увидеть.

Во-вторых, традиционные подходы ориентированы на распознавание (классификацию) объектов, рассматриваемых по отдельности. Этапу собственно распознавания должен предшествовать этап сегментации (разбиения) изображения на части, соответствующие изображениям отдельных распознаваемых объектов. Методы априорной сегментации обычно используют специфические свойства входного изображения. Общего решения задачи предварительной сегментации не существует. За исключением самых простых случаев, критерий разделения не может быть сформулирован в терминах локальных свойств самого изображения, т. е. до его распознавания.

Строчный, даже рукописный текст не является самым сложным случаем, но и для таких изображений выделение строк, слов и отдельных символов в словах может оказаться серьезной проблемой. Практическое решение этой проблемы часто основывается на переборе вариантов сегментации, и это совершенно не похоже на то, что делает мозг человека или животного в процессе целостного целенаправленного зрительного восприятия. Вспомним сказанное Сеченовым: "Мы не слышим и видим, а слушаем и смотрим". Для такого активного восприятия необходимы целостные представления объектов всех уровней - от отдельных частей до полных сцен - и интерпретация частей только в составе целого.

Таким образом, недостатки большинства традиционных подходов и в первую очередь признакового подхода - это отсутствие целостности восприятия, отсутствие целенаправленности и последовательная однонаправленная организация процесса "снизу вверх", или от изображения к "пониманию".

Распознавание возможно также с использованием окутанных чуть ли не мистическим туманом искусственных или формальных распознающих нейронных сетей (РНС). Иногда их рассматривают даже как какой-то аналог мозга. В последнее время в текстах просто пишут "нейронные сети", опуская прилагательные "искусственный" или "формальный". На самом деле РНС - это чаще всего просто признаковый классификатор, строящий разделяющие гиперплоскости в пространстве признаков.

Используемый в этих сетях формальный нейрон - это сумматор с пороговым элементом, подсчитывающий сумму произведений значений признаков на некоторые коэффициенты, являющиеся не чем иным, как коэффициентами уравнения разделяющей гиперплоскости в пространстве признаков. Если сумма меньше порога, то вектор признаков находится по одну сторону от разделяющей плоскости, если больше - по другую. Вот и все. Кроме построения разделяющих гиперплоскостей и классификации по признакам, никаких чудес.

Введение в формальном нейроне вместо порогового скачка от - 1 к 1 плавного (дифференцируемого), чаще всего сигмаобразного перехода ничего принципиально не меняет, а лишь позволяет использовать градиентные алгоритмы обучения сети, то есть нахождения коэффициентов в уравнениях разделяющих плоскостей, и делать "размазывание" разделяющей границы, присваивая результату распознавания, то есть работе формального нейрона вблизи границы, оценку, например, в диапазоне от 0 до 1. Эта оценка в определенной степени может отражать "уверенность" системы в отнесении входного вектора к той или иной из разделяемых областей пространства признаков. В то же время эта оценка, строго говоря, не является ни вероятностью, ни расстоянием до разделяющей плоскости.

Сеть из формальных нейронов может также аппроксимировать плоскостями нелинейные разделяющие поверхности и объединять по результату несвязанные области пространства признаков. Это и делается в многослойных сетях.

Во всех случаях признаковая распознающая формальная нейронная сеть (ПРНС) - это признаковый классификатор, строящий разделяющие гиперплоскости и выделяющий области в фиксированном пространстве признаков (характеристик). Никаких других задач ПРНС решать не может, причем задачу распознавания ПРНС решает не лучше обычных признаковых распознавателей, использующих аналитические методы.

Кроме того, помимо признаковых распознавателей на формальных нейронах могут строиться растровые, в том числе ансамблевые распознаватели. В этом случае сохраняются все отмеченные недостатки растровых распознавателей. Правда, могут быть и некоторые преимущества, о которых мы еще будем говорить в дальнейшем.

Во избежание недоразумений следует заметить, что на формальных нейронах в принципе можно построить универсальный компьютер, с использованием как разделяющих плоскостей в пространстве переменных, так и легко реализуемых на формальных нейронах логических функций И, ИЛИ и НЕ, однако таких компьютеров никто не строит и обсуждение связанных с этим вопросов выходит за рамки рассматриваемых проблем. Нейрокомпьюторами обычно называют либо просто нейронный распознаватель, либо специальные системы, решающие задачи, близкие распознаванию образов и фактически использующие распознавание на основе построения разделяющих гиперплоскостей в пространстве признаков или на основе сравнения растра с эталоном.

Выше уже отмечалось, что для моделирования мышления очень важно, а может быть, и необходимо понять, как работают нейронные механизмы живого мозга. В связи с этим возникает вопрос: а не являются ли формальные распознающие нейронные сети если и не решением проблемы моделирования нейронных механизмов мозга, то хотя бы важным шагом в этом направлении? К сожалению, ответ должен быть отрицательным. В отличие от активной живой нейронной сети РИС - это пассивный признаковый или растровый классификатор со всеми недостатками традиционных классификаторов. Аргументы, на основании которых сделан этот вывод, более подробно мы рассмотрим в дальнейшем.

Итак, традиционные, в первую очередь признаковые, системы распознавания, основывающиеся на последовательной организации процесса распознавания и классификации объектов, рассматриваемых по отдельности, эффективно решать задачи восприятия сложной зрительной информации не могут, главным образом по причине отсутствия целостности и целенаправленности восприятия, отсутствия целостности в описаниях (эталонах) распознаваемых объектов и последовательной организации процесса распознавания. По этой же причине такие системы распознавания образов мало что дают для понимания живого зрительного восприятия и процесса мышления.

< Лекция 5 || Лекция 6: 12 || Лекция 7 >
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?

 

Павел Калистратов
Павел Калистратов
Россия, Кемерово
Никита Караваев
Никита Караваев
Россия, Киров, Вятский государственный гуманитарный университет, 2006