Московский государственный технологический университет «Станкин»
Опубликован: 18.05.2005 | Доступ: свободный | Студентов: 4084 / 505 | Оценка: 3.93 / 3.84 | Длительность: 11:45:00
ISBN: 978-5-9556-0024-6
Специальности: Программист
Лекция 4:

Распознавание изображений

< Лекция 3 || Лекция 4: 12 || Лекция 5 >

Распознавание по методу аналогий.

Этот метод очень хорошо знаком студентам (знание решения аналогичной задачи помогает в решении текущей задачи).

Рассмотрим этот метод на примере задачи П. Уинстона [ 1.4 ] по поиску геометрических аналогий, представленном на рис. 4.4. Среди фигур второго ряда требуется выбрать X \in  \{ 1, 2, 3, 4, 5\} такое, что A так соотносится с B, как C соотносится с X, и такое, которое лучше всего при этом подходит. Для решения задачи необходимо понять, в чем разница между фигурами A и B (наличие/отсутствие жирной точки), и после этого ясно, что лучше всего для C подходит X=3.

Решение таких задач предполагает описание изображения и преобразования (отношения между фигурами на изображениях), а также описание изменения отдельных фигур, составление правил и оценка изменений.

Задача поиска геометрических аналогий

Рис. 4.4. Задача поиска геометрических аналогий

В качестве примера запишем три правила, показывающие, каким образом одно изображение (исходное) становится результирующим ( рис. 4.5).

Правило 1 (исходное изображение): k выше m, k выше n, n внутри m

Правило 2 (результир. изображение): n слева m

Правило 3 (масшабирование, повороты):

k исчезло

m изменение масштаба 1:1, вращение 00

n изменение масштаба 1:2, вращение 00

Правила преобразования

Рис. 4.5. Правила преобразования

Отметим важные моменты при таких преобразованиях. В исходном и результирующем изображениях допускаются отношения ВЫШЕ, ВНУТРИ, СЛЕВА, В результате преобразования изображение может стать МЕНЬШЕ, БОЛЬШЕ, испытать ПОВОРОТ или ВРАЩЕНИЕ, ОТРАЖЕНИЕ, УДАЛЕНИЕ, ДОБАВЛЕНИЕ. Написание правил лучше всего начинать с проведения диагональных линий через центры фигур. Лишние отношения (СПРАВА ОТ и СЛЕВА ОТ, ВЫШЕ и НИЖЕ, ИЗНУТРИ и СНАРУЖИ,) использовать не рекомендуется.

Теперь задачи распознавания мы можем решать достаточно просто, записав для отношений правила 1, 2, 3 и проведя сопоставление, например так, как это сделано для следующей задачи: найти X такое, что A => B, как C => X ( рис. 4.6).

Пример задачи распознавания по аналогии

Рис. 4.6. Пример задачи распознавания по аналогии
Правило 1 Правило 2 Правило 3 Результат
A => B k выше m k слева m k, m масштаб 1:1 поворот 00
C => 1 x выше y y выше x x, y масштаб 1:1 поворот 00
C => 2 x выше y y слева x x, y масштаб 1:1 поворот 00
C => 3 x выше y x слева y x, y масштаб 1:1 поворот 00 Сопоставление успешно

Дополнительно следует отметить, что разные виды преобразований могут иметь различные веса, например, исчезновению фигуры целесообразно назначить больший вес, чем преобразованию масштаба; а вращение фигуры может иметь меньший вес, чем отражение. С этими особенностями можно будет познакомиться в упражнениях к данной лекции.

Методы распознавания по аналогии могут быть эффективнее, если используется обучение. Различают обучение с учителем, обучение по образцу (эталону) и др. виды обучения [ 1.1 ] , [ 1.4 ] . Суть идеи такова. Программе распознавания предъявляется объект, например, арка. Программа создает внутреннюю модель:

(арка       
 (компонент1 (назначение (опора))    
      (тип (брусок)))
 (компонент2 (назначение (опора))   
      (тип (брусок)))
   (компонент3 (назначение (перекладина))   
      (тип (брусок))
      (поддерживается (компонент1), (компонент2)))

После этого предъявляется другой объект и говорится, что это тоже арка. Программа вынуждена дополнить свою внутреннюю модель:

(арка       
   (компонент1 (назначение (опора))    
  (тип (брусок)))
   (компонент2 (назначение (опора))    
  (тип (брусок)))
   (компонент3 (назначение (перекладина))    
      (тип (брусок)   или (клин) )
      (поддерживается (компонент1), (компонент2)))

После такого обучения система распознавания будет узнавать в качестве арки как первый, так и второй объект.

Актуальные задачи распознавания.

Среди множества интересных задач по распознаванию (распознавание отпечатков пальцев, распознавание по радужной оболочке глаза, распознавание машиностроительных чертежей и т. д.) следует выделить задачу определения реальных координат заготовки и определения шероховатости обрабатываемой поверхности, рассмотренную в лекции 10. Другой актуальной задачей является распознавание машинописных и рукописных текстов в силу ее повседневной необходимости. Практическое значение задачи машинного чтения печатных и рукописных текстов определяется необходимостью представления, хранения и использования в электронном виде огромного количества накопленной и вновь создающейся текстовой информации. Кроме того, большое значение имеет оперативный ввод в информационные и управляющие системы информации с машиночитаемых бланков, содержащих как напечатанные, так и рукописные тексты. В связи с этим рассмотрим принципы и подход к распознаванию в задаче машинного чтения печатных и рукописных текстов, описанные в работе [ 4.2 ] .

Для решения данной задачи используются следующие основные принципы.

  1. Принцип целостности - распознаваемый объект рассматривается как единое целое, состоящее из структурных частей, связанных между собой пространственными отношениями.
  2. Принцип двунаправленности - создание модели ведется от изображения к модели и от модели к изображению.
  3. Принцип предвидения заключается в формировании гипотезы о содержании изображения. Гипотеза возникает при взаимодействии процесса "сверху-вниз", разворачивающегося на основе модели среды, модели текущей ситуации и текущего результата восприятия, и процесса "снизу-вверх", основанного на непосредственном грубом признаковом восприятии.
  4. Принцип целенаправленности, включающий сегментацию изображения и совместную интерпретацию его частей.
  5. Принцип "не навреди" - ничего не делать до распознавания и вне распознавания, то есть без "понимания".
  6. Принцип максимального использования модели проблемной среды.

Указанные принципы реализованы в пакете программ "Графит" [ 4.3 ] , в программах FineReader-рукопись и FormReader - для распознавания рукописных символов и, частично, в программе FineReader для распознавания печатных текстов [ 4.2 ] . Входящая в FormReader программа чтения рукописных текстов была выпущена в 1998 году одновременно с системой ABBYY FineReader 4.0. Эта программа может читать все рукописные строчные и заглавные символы, допускает ограниченные соприкосновения символов между собой и с графическими линиями и обеспечивает поддержку 10 языков. Основное применение программы - распознавание и ввод информации с машиночитаемых бланков.

В системе ABBYY FormReader при распознавании рукописных текстов используются структурный, растровый, признаковый, дифференциальный и лингвистический уровни распознавания. Для более подробного освоения подходов к распознаванию машинописных и рукописных текстов в системе ABBYY FormReader читателю рекомендуется непосредственно ознакомиться с работой А. Шамиса [ 4.2 ] , при этом знание основ машинной графики на уровне [ 4.4 ] подразумевается.

С другими работами по распознаванию читатель может познакомиться в литературе [ 4.9 ] , [ 4.10 ] .

Завершая этот раздел лекции, отметим особенности задачи зрительного восприятия роботов по сравнению с традиционными задачами распознавания образов и машинной обработки изображений [ 4.11 ] :

  • необходимость построения комплексного описания среды на основе учета значительной априорной информации (модели проблемной среды) в отличиие от традиционной задачи выделения фиксированных признаков или измерения отдельных параметров;
  • необходимость анализа трехмерных сцен не только в плане анализа трехмерных объектов по их плоским проекциям, но и в плане определения объемных пространственных отношений;
  • необходимость анализа изображений, включающих одновременно несколько произвольно расположенных объектов (в общем случае произвольной формы) в отличие от традиционной задачи, когда для распознавания предъявляется, как правило, один объект;
  • необходимость анализировать реальную динамическую среду, а не статические изображения;
  • отсутствие постоянной фиксированной задачи и необходимость оперативно решать возникающие по ходу дела задачи;
  • необходимость следить за изменениями в среде, которые могут порождать новые оперативные задачи;
  • необходимость организации системного процесса взаимодействия в реальном времени нескольких подсистем робота ("глаз-мозг", "глаз-мозг-рука").

В заключение лекции следует отметить, что методов распознавания много, они опубликованы (см. список литературы к данной лекции). Успеха в создании серьезных программных продуктов по распознаванию и решению задач зрительного восприятия роботов добьются коллективы, упорно и кропотливо создающие и оттачивающие свои инструментальные средства для реальных задач распознавания изображений.

< Лекция 3 || Лекция 4: 12 || Лекция 5 >
Дмитрий Черепанов
Дмитрий Черепанов

Неоднократно находил ошибки в тестах, особенно в экзаменационных вопросах, когда правильно данный ответ на вопрос определялся в итоге как не правильно отвеченный... Из-за этого сильно страдает конечный бал! Да еще в заблуждение студентов вводит! Они-то думают, что это они виноваты!!! Но они тут не причем! Я много раз проверял ответы на некоторые такие "ошибочные" вопросы по нескольким источникам - результат везде одинаковый! Но ИНТУИТ выдавал ошибку... Как это понимать?

Из-за подобных недоразумений приходиться часами перерешивать экзамен на отличную оценку...!!!

Исправьте, пожалуйста, такие "ошибки"...

Анжелика Шлома
Анжелика Шлома

Огромная просьба сделать проще тесты, это просто ужас какой-то! Слишком сложно! 

Анатолий Федоров
Анатолий Федоров
Россия, Москва, Московский государственный университет им. М. В. Ломоносова, 1989
Оксана Пагина
Оксана Пагина
Россия, Москва