Опубликован: 14.12.2009 | Уровень: специалист | Доступ: платный
Лекция 6:

Распознавание образов и особенности живого восприятия

< Лекция 5 || Лекция 6: 12 || Лекция 7 >

Психология машинного зрения

В этом разделе ваше внимание будет привлечено к некоторым аспектам живого восприятия. Предполагается, что для построения практически эффективной системы машинного восприятия недостаточно изобретение изощренных алгоритмов классификации отдельных объектов. Необходима организация целостного, целенаправленного, управляемого контекстом процесса восприятия, то есть восприятия "с пониманием".

Название раздела рассчитано на то, чтобы рождать у специалистов ассоциации с популярной в 80-е годы книгой "Психология машинного зрения". Интерес к этому сборнику был связан в первую очередь с именами Патрика Уинстона и Марвина Минского. Их работы, как, впрочем, и большинство других работ сборника, объединяет убежденность в том, что эффективное машинное восприятие с необходимостью должно обладать многими свойствами живого восприятия, и в первую очередь целенаправленностью.

Работы М. Минского и П. Уинстона стали определенным шагом от традиционного распознавания образов к созданию теории машинного зрительного восприятия сложных изображений. Минский выдвинул теорию фреймов, содержащую предположения о том, как строится и функционирует иерархическая структурная зрительная модель мира. Модель Минского, к сожалению, не работала и работать не могла, поскольку она была в значительной степени качественной. Тем не менее пользу для общего понимания процесса восприятия среды с использованием идей структурности и целостности эта модель, безусловно, принесла. К сожалению, в экспериментальном плане ее никто серьезно не развивал, а в теоретическом плане ее не развивал и сам Минский.

П. Уинстон обратил внимание на необходимость реализации целенаправленного процесса машинного восприятия. Цель должна управлять работой всех процедур, в том числе и процедур нижнего уровня, то есть предварительной обработки и выделения признаков. Должна существовать возможность на любой стадии процесса в зависимости от получаемого результата возвращаться к его началу для уточнения результатов работы процедур предшествующих уровней. Такие системы Уинстон предложил называть гетерархическими. У Уинстона, так же как и у Минского, до решения практических задач дело не дошло, хотя в 80-е годы прошлого века вычислительные мощности больших ЭВМ позволяли начать решать подобные задачи.

Безусловный интерес для теории восприятия представляет высказанный М.М. Бонгардом принцип имитации. По этому принципу, относящемуся еще к концу 60-х годов, в основе задачи узнавания (распознавания) должна лежать умозрительная имитация устройства, строящего объекты распознавания. От принципа имитации уже напрашивается переход к рассматриваемым ниже принципам структурности, целостности и отображаемости.

Представляется, что общее решение задачи машинного восприятия изображений должно основываться на организации процесса с включением таких составляющих, как целостность восприятия, целенаправленность и предвидение (гипотеза), то есть моментов, характеризующих наше сегодняшнее представление о процессе зрительного восприятия человека. Естественно, что кроме этого должны максимально использоваться контекст восприятия и знания о среде (максимально полная семантическая модель среды).

Важнейшим аспектом восприятия является предвидение на основе иерархичной модели мира и многоуровневого процесса восприятия. В знакомой среде и знакомых ситуациях восприятие идет на уровнях обобщений (общее-частное) и укрупнений (целое-часть) и состоит в подтверждении предвидения на этих уровнях. Обращение к уровню детального восприятия происходит только по мере поведенческой необходимости или при рассогласовании предвидения и реального входа.

Мы уже говорили об известном в физиологии принципе акцептора действия. Напомним, что этот принцип состоит в том, что в нервной системе всегда (непрерывно) при любом действии стоится модель ожидаемой обратной афферентации, поступающей от результата действия. Рассогласование модели и реальной обратной афферентации вызывает ориентировочно-исследовательскую реакцию. (В качестве примера можно вспомнить ощущения, возникающие при входе на неподвижный эскалатор метро.) Все это очень похоже на то, что происходит и при "чистом" восприятии, то есть при восприятии информации, не связанном с действием. Может быть, полезным было бы введение термина "акцептор восприятия".

В акте зрительного восприятия на всех этапах и всех уровнях восприятия тесно переплетаются и взаимодействуют два процесса, которые можно обозначить как процессы "сверху вниз" (от понимания к изображению) и "снизу вверх" (от изображения к пониманию).

Важнейший момент восприятия - это формирование гипотезы о содержании изображения. Гипотеза возникает при взаимодействии процесса "сверху вниз", разворачивающегося на основе модели среды, модели текущей ситуации и текущего результата восприятия, и процесса "снизу вверх", основанного на непосредственном грубом, в первую очередь признаковом, восприятии.

Далее происходит подтверждение гипотезы или уточнение восприятия. На этом этапе также взаимодействуют оба процесса - операции над информацией из модели и операции на изображении. При этом в рамках текущей гипотезы с использованием модели среды и информации о контексте восприятия осуществляется целенаправленный поиск, включающий сегментацию изображения на искомые в соответствии с гипотезой части и совместную интерпретацию выделяемых частей.

Важнейшим аспектом восприятия является его целостность: результаты локальных операций интерпретируются только совместно в процессе интерпретации целостных фрагментов и всего изображения в целом. Используемая при восприятии целостная модель должна быть структурной, полной и отображаемой. Последнее означает, что должна существовать возможность мысленно представить себе объект по его модели.

Используемая при восприятии модель проблемной среды должна включать иерархию целостных представлений. Применительно к задаче автоматического восприятия изображений можно сказать следующее. Помимо совместной интерпретации элементов изображения в составе распознаваемых объектов, принцип целостности восприятия предполагает также интерпретацию самих распознаваемых объектов в составе более крупных целостных образований - конструкций, отображающих те взаимосвязи из внешней задачи, в которых участвуют распознаваемые объекты. Эти взаимосвязи образуют внешний контекст распознавания. Использование внешнего контекста распознавания позволяет не только правильно интерпретировать те объекты, изображения которых допускают при их отдельном восприятии неоднозначную интерпретацию, но и повысить надежность распознавания всех объектов, задействованных в той или иной семантической конструкции, за счет их целенаправленной и совместной интерпретации.

Таким образом, в соответствии с принципом целостности восприятия в общем случае можно говорить об иерархии уровней интерпретации элементов распознаваемого изображения: от интерпретации в составе самих распознаваемых объектов до интерпретации в составе наиболее крупных семантических конструкций, представленных на данном изображении.

Очевидно, что в общем случае чем выше уровень интерпретации, то есть чем крупнее те целостные образования и конструкции, задающие внешний контекст, в составе которых осуществляется интерпретация тех или иных элементов входного изображения, тем выше надежность распознавания этого изображения.

Такая организация процесса распознавания в системе машинного зрения необходима, если мы хотим получить действительно эффективное решение сложных практических задач. Естественно, машинное зрительное восприятие не может пока еще соревноваться со зрительным восприятием человека. Главная причина состоит в том, что мы не умеем строить и использовать полную машинную семантическую модель среды восприятия. Однако для повышения эффективности систем машинного зрения и, в частности, систем машинного чтения отмеченные выше принципы двунаправленности (от изображения к модели и от модели к изображению), предвидения, формирующего гипотезу, целостности, целенаправленности и максимального использования информации о проблемной среде в определенной степени реализовать не только можно, но и необходимо.

Эти принципы настолько, насколько это оказалось возможным, реализованы в пакете программ Графит, в программах FineReader -рукопись и FormReader - для распознавания рукописных символов. Эти же принципы частично реализованы в программе FineReader, предназначенной для распознавания печатных текстов. Пакет Графит был разработан в НИЦЭВТ в 80-е годы, программы FineReader и FormReader - в компании ABBYY.

< Лекция 5 || Лекция 6: 12 || Лекция 7 >
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?

 

алексей оглы
алексей оглы
Россия
рафич Салахиев
рафич Салахиев
Россия