Опубликован: 14.12.2009 | Доступ: свободный | Студентов: 1880 / 368 | Оценка: 4.28 / 4.12 | Длительность: 17:36:00
ISBN: 978-5-9963-0249-9
Лекция 4:

Формальная модель поведения

< Лекция 3 || Лекция 4: 12 || Лекция 5 >

Формальная модель

Рассмотренные представления о сути поведенческого акта позволяют представить себе упрощенную качественную модель поведения, основанную на принципе оптимальности ( maxT ) и вытекающей из этого направленности в выборе целей. От этих качественных представлений можно попробовать перейти к формальной модели. Упрощенная формальная модель поведения основывается на решении следующей задачи.

Пусть имеется n -параметрическая система X(x_1,x_2,\ldots,x_n) , параметры которой увеличиваются с постоянными скоростями U(U_1,U_2,\ldots,U_n). В каждый момент путем управляющего воздействия возможно уменьшение любого, но только одного из параметров х_i с фиксированной скоростью V_i. Пусть область допустимых значений параметров системы ограничена выпуклой поверхностью F(x)=0 в первом ортанте, т. е. x_i\ge0.

Система представляется точкой X в n -мерном пространстве. Если никаких управляющих действий не делать, то точка X движется к границе области допустимых значений. Требуется найти условия, которые определяют возможность организации управления, удерживающего систему внутри области допустимых значений параметров, а также и саму тактику управления, оптимального в том смысле, что при этой тактике максимизируется время пребывания системы внутри области допустимых значений.

Можно получить различные алгоритмы решения этой задачи, основанные на определении точки выхода системы на границу области допустимых значений. Любой из этих алгоритмов естественно назвать глобальным, поскольку для его реализации необходимо предварительное рассмотрение всей задачи в целом и определение конечной точки системы. Однако такой подход к решению задачи затрудняет физиологические интерпретации, поскольку трудно предположить, что в живой системе в какой бы то ни было форме заложены сведения о ее конечной точке. Кроме того, реализация глобального алгоритма даже в случае, когда задача полностью и точно определена, часто требует слишком большого времени. Поэтому на алгоритм управления естественно наложить требование, чтобы решение, принимаемое системой в каждый момент времени, было функцией только состояния системы и среды в этот момент времени. Такой алгоритм управления будем называть локальным.

Решение сформулированной задачи с условием получения локального правила выбора управляющего действия позволяет, не вдаваясь в подробности, сформулировать следующие результаты.

Введем функцию, оценивающую состояние системы:

Z(X)=F(X)-F(0).

К этой функции мы будем обращаться в дальнейшем при рассмотрении разных тем.

Свойства функции Z(X) таковы. Значение функции в начале координат Z(0)=0. В любой точке границы области допустимых значений переменных X при F(X)=0 значение функции Z(X) равно постоянной величине, равной F(0). Всегда можно сделать так, чтобы значение F(0) было положительно. Тогда в любой точке границы области допустимых значений параметров X значение функции Z(X) одинаково, положительно и максимально. Поскольку поверхность F(X)=0 выпукла, функция Z(X) изменяется монотонно при монотонном изменении любых аргументов X.

Используя формулу полного дифференциала, можно определить приращение функции Z(X) для j -ro варианта управления:

\Delta{Z_j}=\sum_{i}\frac{\partial F(X)}{\partial x_i}U_i-\frac{\partial F(X)}{\partial x_j}V_j

К решению задачи ведет требование минимума приращения функции Z нa выбираемом варианте (шаге) управления. Поскольку первое слагаемое приращения одинаково для всех j (вариантов управления), оптимальная тактика, определяющая необходимое в каждый момент действие, задается вторым слагаемым. Таким образом, получаем локальное правило выбора варианта управления:

\max\frac{\partial F(x)}{\partial x_j}V_j\,\,,
j=(1,\ldots n)

где j - вариант управления на каждом оцениваемом шаге поведения; другими словами, в рассмотренной упрощенной задаче каждый вариант управления ( j ) - достигаемый в один шаг вариант цели поведения.

Для оперирования полученным правилом выбора управляющего действия нужно знать функцию F(X) и уметь находить ее частные производные. Проще всего случай, когда переменные X_i независимы и область их допустимых значений - n -мерный параллелепипед. Тогда

0\le X_i\le X_i \max\,\,\,или\,\,\,F(X)=\prod_i(X_i\max-X_i)=0

и локальное правило выбора управляющего действия имеет вид:

\max\limits_j{(V_j/(X_j \max-X_j))}

Если переменные X_i зависимы, то с учетом ограничений, накладываемых на вид функции F(X) проще всего и естественнее считать, что граница области допустимых значений переменных аппроксимируется функцией второго порядка, т. е. функция F(X)=0 определяет n -мерный эллипсоид.

В этом случае локальное правило выбора управляющего действия имеет вид:

\max\limits_j{K_j,X_j,V_j}

меры показывают, что процедура определения частных производных функции F(X) для оперирования полученным соотношением при выборе управляющего действия может быть достаточно простой. В первом случае необходимо измерение близости переменных к предельному значению, во втором случае необходимо измерение отклонения величин переменных от нулевого значения.

Состояние системы (организма) характеризуется текущим значением вектора X. В зависимости от конкретных условий, то есть от соотношения скоростей увеличения и уменьшения параметров X а также от реализуемого алгоритма управления, точка, отображающая состояние системы в пространстве \{X\}, может перемещаться к границе области допустимых значений, удаляясь от начала координат, или, наоборот, двигаться к началу координат, удаляясь от границы области регулирования.

В первом случае система движется к разрушению и полученное правило управления максимально замедляет это движение ( maxT ). Во втором случае система удаляется от границы области допустимых значений и то же правило управления максимально ускоряет это движение. При этом можно говорить, что управление (поведение) подчиняется принципу оптимальности minT - минимизируется время прихода системы в начало координат. В физиологической интерпретации можно говорить, что минимизируется время удовлетворения всех потребностей. Обе интерпретации принципа оптимальности minT и maxT полностью эквивалентны. В недетерминированной среде, то есть при возможности изменения условий задачи управления, максимально быстрое удаление от границы области допустимых значений создает запас времени и максимизирует время выхода системы на границу области регулирования в случае, когда система начнет вынужденно двигаться к этой границе при оптимальном управлении, т. е. мы опять приходим к принципу maxT.

Рассмотренная формальная задача является серьезным упрощением реальной задачи поведения. Главное упрощение - это одноэкстремальность задачи, позволившая получить локальное правило управления. Тем не менее эта задача, по-видимому, отражает принципиальную суть реальной задачи, которая сводится к рассмотренной упрощенной схеме. Общие принципы этого сведения мы рассмотрим теперь и уточним в дальнейшем.

Реальная задача

Приведенная формальная задача полностью соответствует интереснейшим экспериментам по изучению принятия решения животным в ситуации выбора, описанным в работе Н.В. Асмаяна и Г.А. Голицына [2]. Эти эксперименты мы будем подробно рассматривать в следующей лекции. Собственно, изложенная задача управления и упрощенная формальная модель поведения и возникли с учетом этих экспериментов. Так же как в физиологических экспериментах, в упрощенной задаче все целевые ситуации достигаются за один шаг. Это и другие упрощения (постоянство векторов U и V, выпуклость области допустимых значений регулируемых переменных) позволили вывести локальное правило выбора действия, то есть не решать задачу до конца и не просчитывать время достижения границы области допустимых значений переменных на всех возможных траекториях управления. Рассмотренная упрощенная задача поведения одноэкстремальна. Многоэкстремальности в этой задаче при любом варианте поведения возникнуть не может, поскольку все цели достигаются за один шаг.

Однако эта одноэкстремальная задача принципиально отличается от многоэкстремальной задачи поведения животных и человека в реальной среде. Тем не менее поведение живых организмов все же, по-видимому, подчиняется принципу оптимальности maxT и локальному правилу выбора действия, суть которого определяется полученной формулой. Противоречие снимается, если предположить, что мозг в процессе обучения и мышления успешно выполняет сведение реальной многоэкстремальной задачи к рассмотренной одноэкстремальной.

Все изменения в неживом мире направлены по градиенту - равнодействующей всех действующих на систему физических сил. Изменения происходят в направлении быстрейшего уменьшения свободной энергии системы и заканчиваются при достижении ее ближайшего локального минимума. Сходным образом ведут себя и растения, обладающие элементарным восприятием среды и реализующие простое градиентное поведение. Растения, также как и животные, имеют потребности, но они всегда "знают", что им нужно делать: они тянутся к свету, теплу, питательным элементам - туда, где в данный момент лучше (так называемые тропизмы растений), то есть растения в своем поведении могут пользоваться локальным, градиентным правилом выбора. Для управления таким поведением мозг не нужен.

В отличие от растений животные могут перемещаться в пространстве. Это значительно расширяет их возможности по удовлетворению потребностей и в то же время значительно усложняет задачу поведения. Животные вынуждены жить в условиях необходимости решения многоэкстремальных задач. Для достижения какой-то цели они могут преодолевать боль, страх, препятствия, подвергаться нападениям, вступать в борьбу, тратить энергию, ухудшать свое функциональное состояние с целью в конечном счете его улучшить. Другими словами, в процессе поведения нужно уметь находить глобальный экстремум, преодолевая локальные.

Таким образом, в отличие от неживой природы и растений для животных характерна необходимость движения против градиента непосредственно действующих сил. В отношении причин, обуславливающих поведение высокоорганизованных живых организмов, обладающих развитой нервной системой, допустимо применение термина "психические силы". Однако поведение живых организмов может не определяться и равнодействующей непосредственно действующих "психических сил", если считать непосредственно действующими те силы (мотивации и эмоции), которые вызываются внутренним физиологическим состоянием организма и его взаимодействием с непосредственно воспринимаемым окружением (средой).

Однако движение против градиента "психических сил" высокоорганизованных живых организмов в конечном счете является кажущимся. Дело в том, что в мозге (животного, человека) формируется при обучении общее целостное отображение среды и модель взаимодействий со средой. Реальная ситуация на входе системы рассматривается только как актуализированный частный фрагмент некоторой обобщенной и укрупненной ситуации, развернутой во времени и пространстве за пределы непосредственного восприятия. Эта укрупненная и обобщенная, зависящая от опыта субъективная ситуация и формирует "психические" силы, по градиенту которых "псевдолокально" направляется поведение.

Глобальный экстремум можно находить путем полного перебора. Человек действует по-другому Он пытается свести многоэкстремальную задачу, которую можно решать только методом перебора, к градиентной одноэкстремальной, которую вообще не надо решать, так как в каждой точке нужно оценить и сравнить очень ограниченное число вариантов. То есть человек создает новое информационное отображение среды: он решает задачу с помощью обобщения и укрупнения. За счет этого в знакомой среде можно действовать почти автоматически - по прогнозируемому градиенту эмоциональной оценки ситуации. В принципе, также действуют и животные. Несколько подробнее эти вопросы будут рассмотрены в последующих разделах.

Таким образом, мозг нужен человеку и животному для создания модели среды, позволяющей решать многоэкстремальные задачи поведения, полагаясь на локальное правило принятия решения и выбора среди альтернативных вариантов поведения. Эта модель среды должна строиться на иерархии обобщаемых и укрупняемых представлений, дающих возможность определять и фиксировать доминантные целевые ситуации и находить одношаговые переходы к целевым ситуациям при умозрительном планировании поведения. На уровне одношаговых переходов задача становится одноэкстремальной.

< Лекция 3 || Лекция 4: 12 || Лекция 5 >
Владислав Нагорный
Владислав Нагорный

Подскажите, пожалуйста, планируете ли вы возобновление программ высшего образования? Если да, есть ли какие-то примерные сроки?

Спасибо!

Лариса Парфенова
Лариса Парфенова

1) Можно ли экстерном получить второе высшее образование "Программная инженерия" ?

2) Трудоустраиваете ли Вы выпускников?

3) Можно ли с Вашим дипломом поступить в аспирантуру?