Опубликован: 03.04.2013 | Доступ: свободный | Студентов: 351 / 28 | Длительность: 34:17:00
Специальности: Разработчик аппаратуры
Лекция 5:

Нейрофизиологический и формально-логический базис нейроподобных вычислений

Графически перцептрон можно представить тремя типами схем: функциональной, структурной и символической (рис. 4.19). Функциональная схема детализирует связи между элементами различных слоев перцептро-на: сенсорного, ассоциативного и реагирующего. В структурной схеме весь сенсорный слой представлен одним элементом, элементы ассоциативного слоя детализируются до диаграмм Венна и связей с элементами реагирующего слоя. Символьная диаграмма идентифицирует только типы связей, существующих между элементами перцептрона: от S -типа к A -типу, от A -типа к R -типу и связи элементов S -типа между собой.

Общая схема экспериментальной системы [71]

Рис. 4.18. Общая схема экспериментальной системы [71]
Схемы представления перцептрона [71]

Рис. 4.19. Схемы представления перцептрона [71]

Проведенная Ф. Розенблаттом "формализация" нервного субстрата и правил его функционирования носит скорее инженерный, чем строгий математический характер и, как модель Мак-Каллока - Питтса, включает два уровня:

  • уровень "элементов", в качестве которых выступают функционально ориентированные формальные нейроны S -, A - и R -типа, порождаемые ими реакции и связи, обеспечивающие взаимодействие между элементами;
  • уровень "системы", функционирование которой регламентируется правилами взаимодействия с внешней средой и правилами "выживания", заложенными в систему управления подкреплением, в том числе и в условиях прямого взаимодействия с внешней средой в процессе обучения, которое в таких условиях становится неотъемлемой фазой жизненного цикла.

Но в отличие от моделей Мак-Каллока - Питтса в перцептроне:

  • структурно-параметрическую адаптацию сети формальных нейронов можно свести к чисто параметрической адаптации, обнулив весовые коэффициенты незадействованных, но реально существующих связей как между элементами различных слоев, так и принадлежащими одному слою;
  • стохастический характер распространения сигналов через синапти-ческую щель отражен флуктуациями весовых коэффициентов v_{ij}(t), участвующих в формировании взвешенных сумм входных возбуждений (см. определения 16 и 23);
  • фактор временной задержки как на распространение по нервной соединительной ткани, так и в синапсе стал функционально значимым (см. определение 12).

Закладывая основы нейродинамики, Ф. Розенблатт стремился создать аналог статистической физикой для эффективного анализа реальных психофизиологических процессов. Но в итоге ему удалось распространить апробированные в термодинамике статистические методы на качественно новую область "нефизических" исследований, связанных с моделированием процессов обучения вообще и распознавания образов в частности [71]. Главная специфика задач обучения и распознавания - это неэффективность алгоритмических методов из-за постоянно изменяющегося комплекса внешних условий и неоднозначности возможных, но эквивалентных в некотором смысле реакций, что противоречит базовым положениям математики, в том числе и вычислительной [45]. Скрытый парадокс задач обучения "машин" состоит в необходимости применения формальных методов и средств к самому процессу формализации, что требует включения этого процесса в полный "жизненный цикл" ра боты "машины". В результате система обучения с подкреплением типа рис. 4.18 является практически единственным средством установления и постоянной модификации условных причинно-следственных связей, действительных только для фиксированного на некотором интервале времени комплекса внешних условий.

Несмотря на большие достижения в области построения (само)обу-чающихся машин и систем [2, 16, 17, 33, 34], особенно решающих задачи распознавания образов, классификации и идентификации [72-76], включить в их полный жизненный цикл все задачи формализации так и не удалось. В частности, открытым всегда остается вопрос перехода от реальных объектов и процессов к их математическим представителям - множествам и числам, то есть вопрос о том, что и чем измерять, лежит вне контура обучения и является прерогативой разработчика машины или системы распознавания, классификации и идентификации.

Поэтому типичной является следующая постановка задачи [72]. Пусть имеется набор d данных (образов), подлежащих классификации (распознаванию, идентификации) и представленных действительными (комплексными, целыми) числами (x _{1}, x _{2}, …, x _{d}). Требуется найти разделяющую поверхность (рис. 4.20) для R классов объектов \{R_{i} \} (| \{R_{i}\} | = R) в d -мерном евклидовом пространстве E^{d}, точки которого представлены числами (x _{1}, x _{2}, …, x _{d}) или векторами X_d. Считается, что разделяющую поверхность можно полностью определить скалярными функциями {g_i(X_{d})} (дискриминантными функциями), такими, что g_{i}(X_{d} ) > g_{j}(X_{d}), если X_{d} \in R_i, где i \ne j, i,j = \overline{1,R}. В нашем случае: g_1(X_{d}) = max(g_1, g _{2}, g_3),если X_{d}\in R_1 ; g _{2}(X_d) = max(g_1, g_2, g _{3}), если X_{d}\in R ; и g_3(X_{d}) = max(g_1, g_2, g _{3}), если X_{d}\in R_{3}, где R - внешняя часть незаштрихованной области.

Пример разделяющей поверхности для R = 3 и d = 2 [72]

Рис. 4.20. Пример разделяющей поверхности для R = 3 и d = 2 [72]

Отвечающая такой постановке задачи структурная схема системы классификации имеет вид рис. 4.21-а [72], которая трансформируется в схему простейшего классификатора, разбивающего множество объектов на два класса (рис. 4.21-б - R = 2 ). В последнем случае блок выбора максимума вырождается в пороговый элемент, работающий по правилу: X_{d}\in R_{1}, если g(X_{d} ) \ge h, и X_{d} \in R, если g(X) < h, где h - значение порога. Отсюда, настроить (адаптировать) классификаторы рис. 4.18 на конкретное множество классифицируемых (разделяемых, различаемых и т. п.) объектов - это найти множество дискриминантных функций {g_i(X_{d})} с однозначно определенными максимумами для всей совокупности объектов \{Xd\} и классов {R} (| \{X_d\} | \ge |\{R\}|).

Модели классификаторов [72]

Рис. 4.21. Модели классификаторов [72]

Выбор дискриминантных функций обычно представляет центральную задачу обучения системы классификации (идентификации, распознавания образов), что предполагает отсутствие полной априорной информации о классифицируемых объектах и/или вариабельных условиях, при которых будет протекать классификация.

Отличают [72] параметрические и непараметрические методы обучения, к первым из которых прибегают, если априори известны "почти все" параметры, характеризующие принадлежность каждого объекта X_{d} к соответствующему классу R_{i}. Поэтому в данном случае обучающая выборка используется для нахождения значений этих параметров, по которым в дальнейшем строятся дискриминантные функции. Например, априори известно, что объекты первого класса группируются около точки \tilde{x}_{1} или, что одно и то же, вектора X ^1_{2}, а объекты второго класса - вокруг точки \tilde{x}_{2} или вектора X^{2}_{2} соответственно (рис. 4.22).

Линейная разделяющая поверхность, зависящая от параметров множеств объектов [72]

Рис. 4.22. Линейная разделяющая поверхность, зависящая от параметров множеств объектов [72]

Точные численные значения типичных (эталонных и т. п.) представителей соответствующего класса \tilde{x}_{1} и \tilde{x}_{2} считаются неизвестными и рассматриваются как параметры, вариация которых позволяет получить оценки для X^{1}_2 и X^{2}_{2}, которые и находятся во время обучения. В качестве таких оценок обычно используются всевозможные "средние", определяемые как центры "масс", "тяжести" и т. п. классифицируемых подмножеств (см. рис. 4.20). Зная оценки \tilde{x}_{1} и \tilde{x}_{2}, можно построить дискриминантную поверхность. В данном случае она представляет собой перпендикулярную линию, проходящую через середину отрезка между центральными точками классов R_1 и R _{2}, которой соответствует дискриминантная функция

g(X_d) = (X^{1}_d - X^{2}_d)*X_{d}+0,5(|X^{2}_d|^{2}- |X^{1}_d| ^{2}),

где (X^{1}_d - X^{2}_d)*X_{d} - скалярное произведение векторов ( X^{1}_{d} - X^{2}_d ) и X_d, а |X_d|^{2} - квадрат модуля соответствующего вектора.

Таким образом, чем выше репрезентативность обучающей выборки, тем достоверней определяются центры подмножеств классифицируемых объектов и тем точнее и достоверней работает система классификации. Отсюда, перцептронные модели и основанные на них системы распознавания образов не отменяют знаний о предметной области (свойствах классифицируемых объектов и их подмножеств), а только изменяют форму представления этих знаний,которые тем достоверней, чем более представительна обучающая выборка.

Описанный подход к построению систем распознавания образов послужил толчком к развитию теории распознавания образов [73-76], в рамках которой классификация по критерию минимума расстояния уже предстала как частный случай теории статистических решений и синтаксического анализа последовательностей символов. Успехи в теории и практике распознавания образов в какой-то мере отодвинули на второй план главную задачу нейродинамики, которая должна была дать ответ на вопрос о механизмах установления причинно-следственных связей в живых системах. Для этого необходимо формализовать процессы преобразования информации, что требует построения информационных эквивалентов традиционных для физики скалярных и особенно векторных понятий, таких как масса, энергия, импульс, сила, потоки массы, обобщенные силы и т. п. В частности, "векторизация" информационных процессов требует объективной оценки направления приложения "информационных усилий", что сопряжено с прагматической и/или семантической оценкой преобразований входной информации в выходную, которую, по П.К. Анохину, невозможно получить без формализации цели поведения системы и достигнутого ею полезного приспособительного эффекта.