Опубликован: 03.04.2013 | Уровень: для всех | Доступ: платный
Лекция 9:

Нейроподобные модели как формально-логический базис анализа живых систем

< Лекция 8 || Лекция 9: 123456789

8.2. Многопороговая модель биологического кода

Проведенный в предыдущем разделе анализ проблем инструктированного синтеза "надежных" гетероструктур из "ненадежных" компонент показал, что безусловными "лидерами" в освоении таких технологий являются молекулярно-биологические системы. Поэтому для промышленного освоения нано- и супрамолекулярных технологий имеет смысл воспроизвести в технике методы и средства синтеза сложных молекулярно-биологических комплексов.

Термин "структурная информация" широко использовался в научно-технической литературе 60-х годов прошлого столетия, чтобы подчеркнуть факт наличия в природе информации, для измерения количественных характеристик которой нет необходимости привлекать вероятностные или статистические методы оценки по Винеру - Шеннону [54]. Этим термином обычно характеризуют начальную упорядоченность или организованность кибернетических, биологических и т. п. систем.

В вычислительной технике под информацией понимаются коды инструкций и данных, которые однозначно связаны со значениями тех или иных физических параметров электромагнитных, оптических, акустических и т. п. сигналов. Поэтому формально-логическая обработка такой информации на физическом уровне сводится к преобразованию значений параметров входных сигналов в значения параметров выходных сигналов, которые могут не совпадать по физической модальности.

Напротив, в живых системах рост, развитие и размножение организмов, а также их эволюционное становление неразрывно связаны со структурными и параметрическими методами и средствами кодирования и преобразования информации. Все перечисленные процессы реализуются через взаимодействие субъединиц таких систем, вследствие чего их структура постоянно меняется, и поэтому в задачах анализа и синтеза организмов невозможно абстрагироваться от того факта, что в материальном мире нет и не может быть взаимно однозначного соответствия между структурой и функцией.

Последнее обстоятельство играет решающую роль в формировании механизмов конвергентного замыкания условных рефлексов [25], когда

требуется установить устойчивую причинно-следственную связь между пока еще индифферентным возбуждением и последующей реакцией, обеспечивающей организму полезный приспособительный эффект. Такое замыкание осуществляется на уровне метаболических процессов конвергентных нейронов, где только и возможно взвешенное сопоставление оперативного опыта "(само)обучающейся" особи с опытом ее эволюционного становления и развития. Отсюда: в "сложных" живых системах иерархического типа широко используются механизмы трансформации межнейрональных взаимодействий на уровень многостадийных метаболических процессов конвергентных нейронов, где действуют законы квантовой механики [216]. Согласно [34], эти механизмы должны прямо или опосредовано влиять на процедуры инструктированного синтеза полимеров нативного белка, которые невозможны без участия биологического кода.

Нейроподобные методы и средства (пере)распределения и трансформации задач, решаемых на разных уровнях иерархии, приобретают особую актуальность для супрамолекулярной и наноэлектроники [36, 186], где высокий структурно-функциональный полиморфизм зависит от множества плохо контролируемых внешних воздействующих факторов [94]. В таких условиях снизить требования к времени устойчивой реализации заданной арифметико-логической функции можно за счет высокодинамичной (ре) генерации, а значит, и высокодинамичного инструктированного синтеза нанометровых или супрамолекулярных вычислительных гетероструктур PD -ассоциативного типа [232], в которых один из преобразуемых операндов управляет синтезом "рабочего тела" вычислителя и запоминается в его структуре на все "время жизни", а выполняемая функция зависит как от структуры вычислителя, так и от содержимого второго, потокового операнда. Поэтому в PD -ассоциативных технологиях, как и в молекулярной биологии, процессы производства и использования вычислителей совмещаются во времени и пространстве. При этом удается отказаться от формирования исполняемых инструкций на основе трудоемких этапов формализации задач, их алгоритмизации и программирования, если сами вычисления проводить на ней-роподобной элементной базе [87], работу которой описывают с помощью традиционных моделей формальных нейронов [64, 71]. Математическую основу таких моделей составляет аппарат пороговой логики [77].

Отсюда и встает задача разработки единых для молекулярной биологии и супрамолекулярной вычислительной техники формальных методов и средств неоднозначной трансформации формы представления информации из параметров сигнала в структурно-функциональную схему синтезируемой гетероструктуры (кодирование) и, наоборот, извлечения информации в виде отклика этой гетероструктуры на слабое, неразрушающее идентификационное воздействие (декодирование).

Предлагаемая формальная модель молекулярно-биологического кода основана [230]:

  • на таблице вырожденности реального биологического кода (табл. 8.1), в которой триплеты УАА, УАГ и УГА отнесены к подмножеству кодонов, которые обеспечивают терминацию (завершение) синтеза полимеров белка.
  • на экспериментальном факте: при взаимной идентификации антикодонов транспортной рибонуклеиновой кислоты ( t -РНК) и инициализированных рибосомой кодонов информационной РНК ( m -РНК) "вклад" ( w_{i} ) нуклеотида определяется его положением в триплете: w_{R} < w_{L} < w_{C}. Здесь индексы R, L и C соответствуют правому, левому и центральному положению основания в триплете, а состав кодонов и антикодонов определяется по правилу комплементарного спаривания оснований: "аденин (А) - урацил (У)" и "гуанин (Г) - цитозин (Ц)".
    Таблица 8.1. Таблица вырожденности биологического кода
    центральный символ кодона
    У Ц А г
    левый символ кодона У ФЕН СЕР ТИР цис У правый символ кодона
    ФЕН СЕР ТИР цис ц
    ЛЕЙ СЕР ochre END А
    ЛЕЙ СЕР amber ТРИ г
    Ц ЛЕИ ПРО ГИС АРГ У
    ЛЕЙ ПРО ГИС АРГ ц
    ЛЕЙ ПРО ГЛН АРГ А
    ЛЕЙ ПРО ГЛН АРГ Г
    А ИЛЕ ТРЕ АСН СЕР У
    ИЛЕ ТРЕ АСН СЕР ц
    ИЛЕ ТРЕ ЛИЗ АРГ А
    МЕТ ТРЕ ЛИЗ АРГ Г
    Г ВАЛ АЛА АСП ГЛИ У
    ВАЛ АЛА АСП ГЛИ Ц
    ВАЛ АЛА ГЛУ ГЛИ А
    ВАЛ АЛА ГЛУ ГЛИ Г
  • на многофазной модели структурного синтеза полимеров натив-ного белка (рис. 8.1), который осуществляется через структурно-параметрическое узнавание кодонов m -РНК комплементарными антикодонами t -РНК, которые "нагружены" аминокислотами, включаемыми в состав нативного белка (рис. 8.2 [233]). При этом предполагается как достаточное количество всех исходных компонентов (нуклеотидов, ферментов, аминокислот и т. п.), участвующих в синтезе, так и выполнение требуемых условий их взаимодействия (температура, парциальное давление, вязкость и так далее). Это позволяет абстрагироваться от физико-химических закономерностей синтеза и использовать для его описания формальные методы, которые отражают только вариативный характер процедур взаимного узнавания кодонов и антикодонов.
Упрощенная структурно-функциональная схема синтеза нативных белков

Рис. 8.1. Упрощенная структурно-функциональная схема синтеза нативных белков

Введем следующие формальные определения и соглашения, которые не лишены молекулярно-биологического смысла:

  1. Под идентификационной активностью некоторой элементарной молекулярно-биологической структуры (нуклеотидов ДНК и РНК, а также аминокислот) будем понимать однозначно измеренный отклик этой структуры на слабое, не разрушающее входное воздействие произвольной биологической, биохимической или биофизической модальности.
    Обобщенная вторичная структура транспортных РНК [233]

    Рис. 8.2. Обобщенная вторичная структура транспортных РНК [233]

    Идентификационную активность нуклеотидов, участвующих в синтезе полимеров нативного белка, обозначим v_{У}, v_{Ц}, v_{А} и v_{Г}. Тогда идентификационную активность (анти)кодонов l_{s} (X_{3}^{s},W_{3}) можно оценить взвешенной суммой идентификационных активностей составляющих нуклеотидов:

    l_{s}(X^s_3,W_{3}) = x^{s}_{L} \cdot w_{L} + x^{s}_{C} \cdot w_{c} + x^{s}_{R} \cdot w_{R}, ( 8.1)

    где входной вектор X_{n}^s = (x_{L}^s , x_{C}^s , x_{R}^s) пробегает (по s ) все комбинации значений идентификационной активности нуклеотидов x_{L}^{s} , x^{s}C , x^{s}R \in \{v_{У} , v_Ц ,v_{А} ,v_{Г}\} ; s = \overline{0,(Q-1)} ; Q = 4^{3} = 64 ; компоненты "весового" вектора W_3 = (w_{L},w_C , w_{R} ) отражают реальный вклад каждого нуклеотида в процедуру идентификации триплета, а \{ \} - символ множества.

  2. Из 24 возможных способов упорядочения уровней идентификационной активности нуклеотидов зафиксируем один:
    (v_Ц = 1) < (v_У  = 2) < (v_А = 3) < (v_{\Gamma} = 4), ( 8.2)

    а отображение "множество активностей нуклеотидных триплетов - множество активностей аминокислот" ограничим классом дискретных функций вида:

    F_{\alpha}(X^{s}_3) = (f_0, f_1, …, f_s, …, f _{63}), ( 8.3)

    где идентификационная активность аминокислот f_s пробегает все множество целочисленных значений \{b_{j}\} с учетом одного "пустого" мономера, отвечающего кодонам терминации, то есть f_s\in\{b_{j}\}, \{b\} - это b_{ФЕН}, b_{ЛЕЙ}, b_{ИЛЕ} и так далее до b_{END} ; \gamma = |\{b_{j}\}| ; \max\gamma = \sigma = 21, а |\,\,| - мощность множества. Наличие в спектре значений дискретной функции (8.3) "пустого" мономера говорит о том, что терминирующие кодоны m -РНК можно идентифицировать только антикодонами t -РНК, которые не "нагружены" аминокислотами.

Теперь вырожденность генетического кода можно представить отношением эквивалентности (эквизначности ), которое разбива-конечное множество \{ X_{3}^{s}\} значений идентификационной активно-сти триплетов на непересекающиеся подмножества \{X _{3} ^{s}\}_{b_j}, такие, что F_{\alpha}(X_3^s \in \{Х_3^s\}_{b_j}.) = const = b_j. В комбинаторике [90] отношение эквивалентности рассматривается как некоторое 1-разбиение конечного множества \{X_{3}^{s}\} на эквизначные подмножества:

\{X_3^s\}=\bigcup\limits_{b_j}{\{X_3^s\}_{b_j}}

Здесь \{X_3^s\}_{b_j} \cap \{X_3^s\}_{b'_j}\ = \varnothing, если b_{j} \ne b'_j ; \cap - теоретико-множественное пересечение, \varnothing - "пустое" множество, а \cup - теоретико-множественное объединение.

Каждое \lambda -разбиение характеризуется первичной \{r^{\lambda}_j\} и вторичной \{ \rho^{\lambda}_{\varepsilon}\} спецификациями

\sum_j{ r^{\lambda}_j } = Q; 
\sum_{\varepsilon}{\varepsilon\cdot\rho^{\lambda}_{\varepsilon}}=Q

В параметрах табл. 8.1 элементы первичной спецификации r^{\lambda}_j характеризуют вырожденность кода для каждой j -й аминокислоты: r_{ФЕН} = 2 ; r_{ЛЕЙ} = 6 ; r_{ИЛЕ} = 3 ; r_{МЕТ} = 1 ; r_{ВАЛ} = 4 ; r_{СЕР} = 6 ; r_{ПРО} = 4 ; r_{ТРЕ} = 4 ; r_{АЛА} = 4 ; r_{ТИР} = 2 ; r_{ГИС} = 2 ; r_{ГЛН} = 2 ; r_{АСН} = 2 ; r_{ЛИЗ} = 2 ; r_{АСП} = 2 ; r_{ГЛИ} = 2 ; r_{ЦИС} = 2 ; r_{ТРИ}  = 1 ; r_{АРГ} = 6 ; r_{ГЛИ} = 4 ; r_{END} = 3. Элементы вторичной спецификации говорят о том, сколько аминокислот имеет одинаковую вырожденность r_{j} =\varepsilon: \rho_1 = 2 ; \rho_2= 9 ; \rho_3 = 2 ; \rho_4 = 5 ; \rho_5= 0 ; \rho_6 = 3.

Общее количество таблиц вырожденности с такой первичной и вторичной спецификацией оценивается факториальным соотношением [90, 119] G_{\lambda} = 
\sigma!Q!/\Pi r_{j} !\Pi\rho_{\varepsilon}! = 21!64!/2!6!3!1!4!6!4!4!4!2!2!2!2!2!2!2!2!1!6!4!3!2!9!2!5!0!3! = 4,5* 10^{80}.

Синтез предбиологических макромолекул, к которым относится и ДНК, можно было осуществить только феноменологическими методами и средствами самоорганизации диссипативных гетероструктур [34]. Поэтому если бы на генерацию и анализ одной таблицы вырожденности типа таблица1 уходила только 1 секунда, то времени жизни Вселенной не хватило бы

на выбор оптимального варианта, так как за 14*10^{9} лет с такой скоростью можно проанализировать только 14*10^{9}*3,2*10^{7} = 4,5*10^{17} вариантов.

Отсюда: правила кодирования табл. 8.1 следует рассматривать как квазиоптимальные и, скорее всего, экспериментально проверенные только в условиях Земли. С учетом предбиологического этапа эволюции [231] оптимальный в некотором смысле отбор триплетных таблиц вырожденности экосистемы Земли, построенной не более чем из 20 типов аминокислот, согласно проведенной формализации требует генерации и анализа G = \sigma^{Q} = 21^{64} = 10^{83} вариантов.

Таким образом, эволюционный отбор таблицы вырожденности генетического кода имеет четко выраженный перечислительный характер, и поэтому его достаточно просто свести к классической задаче комбинаторного анализа с помощью одного формального определения идентификационной активности элементарной молекулярно-биологической структуры.

Проведенная формализация позволяет получить многопороговую модель биологического кода, которая является частным случаем классической многопороговой модели:

(l_{s}(X^s_n,W_{n})=  \sum_{i=1}^{n}{x_i^s w_i)\in (h_{j-1},h_j]\Rightarrow f_s:=b_j, ( 8.4)

если ее настроить на реализацию функции (8.3). (Здесь сохранены условные обозначения раздела 4.5.)

Для этого необходимо [78, 80]:

  1. Зафиксировать параметры входных сигналов модели согласно (8.1), а выходного сигнала - согласно табл. 8.1.
  2. Выбрать критерий оптимальности, в качестве которого обычно используют оценку структурной сложности модели
    \mu(V) = u_1\sum_i{w_i+u_2\chi},

    где u_1, u_2 \ge 0 - некоторые одновременно неравные нулю коэффициенты, характеризующие "стоимость" реализации "единицы веса" и "единицы порога", а V - многопороговая модель (см. раздел 4.6).

  3. Найти "весовой" вектор W^{*}_{3}, удовлетворяющий критерию:
    \mu(V)\to min ( 8.5)

В цифроаналоговой технике входное преобразование (много)поро-говой модели выполняется относительно "простыми" усилителями с варьируемыми коэффициентами усиления ( w_i ), а разбиения - достаточно "сложными" компараторами. Поэтому u_1 << u_2 и \mu(V) = u_2*\chi. В таком операционном базисе разработчики стремятся к минимально пороговой реализации, что требует поиска "весового" вектора W^*_n, обеспечивающего представление дискретной функции F_{\alpha}(X_n^s) на скалярной оси L, близкое монотонно эквизначному В случае функции (8.3) критерий (8.5) удовлетворяется, если \min\chi = 20. В цифровой технике входное преобразование (много)пороговой модели требует n аппаратных умножителей, которые гораздо "сложнее" компараторов, то есть u_{1} >> u_2. Поэтому здесь уже не требуется монотонно эквизначные представление F_{\alpha}(X_n^s), и варьируемым становится не столько "весовой" вектор W_{n}, сколько пороговый H_{\chi} как по значениям компонентов h_j, так и по их количеству \chi.

Подразумевая 2-й вариант реализации (много)пороговой модели, компоненты "весового" вектора W^{*}_{3} выберем исходя из условия взаимно однозначного соответствия X _{3}^s \leftrightarrow l_{s} : (w_R=1) < (w_{L} =4) < (w_C=16).

Тогда формальные кодоны \{X^s_3\} биологического кода упорядочиваются по возрастанию взвешенной идентификационной активности l_{s}, как показано в табл. 8.2, а размерность вектора порогов \chi = 24 отличается от минимальной всего на 4 единицы. Это отклонение вызвано нарушением монотонно эквизначного представления функции (8.3) на скалярной оси L для значений взвешенной идентификационной активности, отвечающей аминокислотам СЕР, ЛЕЙ и АРГ, а также одной "пустой" аминокислоте УГА, которая в реальных молекулярно-биологических комплексах "используется" как признак конца полимеризации.

Фактическое отклонение от минимально пороговой реализации гораздо больше ( \chi = 35 - дополнительные пороги в табл. 8.2 показаны пунктирными линиями), так как реальный молекулярно-биологический базис синтеза нативных белков образуют процедуры взаимной структурно-параметрической идентификации (узнавания) [230]:

  • t -РНК и аминокислоты во время образования комплекса "аминоа-цил - t -РНК";
  • инициированного рибосомой кодона m -РНК и антикодона в составе комплекса "аминоацил - t -РНК" во время трансляции биологического кода в "аминокислотный формат".
< Лекция 8 || Лекция 9: 123456789
Максим Брагута
Максим Брагута
Россия, Москва, МЭИ, 2006
Nozimjon Fayziev
Nozimjon Fayziev
Таджикистан, Душанбе