Опубликован: 01.03.2007 | Доступ: свободный | Студентов: 1369 / 117 | Оценка: 4.58 / 4.39 | Длительность: 20:15:00
Специальности: Программист
Лекция 7:

Скрытые параметры и транспонированная регрессия

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >
Аннотация: В данной лекции будет решаться задача восстановления недостающих данных, познакомимся с гипотезами и теоремами о скрытых параметрах

Вычислительный центр СО РАН в г. Красноярске

А.Н.Кирдин, А.Ю.Новоходько, В. Г.Царегородцев

Решается классическая проблема восстановления недостающих данных в следующей постановке: найти для каждого объекта наилучшую формулу, выражающую его признаки через признаки других объектов (которых должно быть по возможности меньше). Эта формула должна быть инвариантна относительно смены шкал измерения. Инвариантность достигается тем, что решение представляется в виде суперпозиции однородных дробно - линейных функций.

Строится отношение "объект - опорная группа объектов". Опорная группа выделена тем, что по признакам ее элементов наилучшим образом восстанавливаются признаки исходного объекта. Решение дается с помощью нейронной сети специальной архитектуры. Предлагается способ минимизации опорной группы, использующий преимущества нейросетевого подхода.

Метод транспонированной регрессии применяется к задаче интерполяции свойств химических элементов. Исследуется точность интерполяции потенциалов ионизации химических элементов при помощи транспонированной линейной регрессии. Достигнутая точность позволяет предсказать отсутствующие в справочной литературе значения высших (с 5-го по 10-й) потенциалов ионизации для элементов с атомными номерами от 59-го до 77-го и рекомендовать метод для интерполяции иных физических и химических свойств элементов и соединений.

Гипотеза о скрытых параметрах

Пусть задано некоторое множество объектов и совокупность ("номенклатура") признаков этих объектов. Для каждого объекта может быть определен вектор значений его признаков - полностью или частично. Если эти значения для каких-либо объектов определены не полностью, то возникает классическая проблема восстановления пробелов в таблицах данных [7.1].

Наиболее распространенный путь ее решения - построение регрессионных зависимостей. Предполагается, что одни свойства каждого из объектов могут быть с достаточной степенью точности описаны как функции других свойств. Эти функции одинаковы для различных объектов. Последнее предположение выполняется далеко не всегда.

Что делать, если не удается построить регрессионной зависимости, общей для всех объектов? В этом случае естественно предположить, что существуют неописанные и неизмеренные свойства объектов - и именно в них и заключаются скрытые различия, не дающие построить искомые зависимости. Эти неучтенные и неизмеренные свойства; от которых зависят наблюдаемые параметры, называют "скрытыми параметрами", а предположение о том, что все дело в них - гипотезой о скрытых параметрах.

Проблема скрытых параметров стала знаменитой, благодаря квантовой механике. Многолетние попытки свести квантовые неопределенности к различию в значениях скрытых параметров и поиск этих самых параметров не увенчались успехом. В этом случае проблема отсутствия однозначных связей между характеристиками объектов оказалась глубже, а квантовые неопределенности признаны несводимыми к различию в значениях неизмеренных, но в принципе доступных измерению величин - для квантовых объектов микромира скрытых параметров не нашли.

За пределами миров квантовой механики различия между объектами всегда объяснимы наличием скрытых параметров. В нашем обычном макроскопическом мире проблема состоит не в существовании скрытых параметров, а в эффективной процедуре их поиска и учета, а также в разделении ситуаций на те, для которых разумно искать скрытые параметры, и те, для которых больше подходит представления о неустранимых (в данном контексте) случайных различиях.

Одна из простейших форм предположения о скрытых параметрах - гипотеза о качественной неоднородности выборки . Она означает, что скрытые параметры принимают сравнительно небольшое конечное число значений и всю выборку можно разбить на классы, внутри которых скрытые параметры, существенные для решения интересующей нас задачи регрессии, постоянны. Каждой такой выборке будет соответствовать "хорошая" регрессионная зависимость.

Построить классификацию (без учителя), соответствующую данной гипотезе можно только на основе предположении о форме искомой регрессионной зависимости наблюдаемых параметров от наблюдаемых же параметров внутри классов ( задача о мозаичной регрессии ). Если предполагается линейная зависимость, то эта задача классификации решается методом динамических ядер, только место точек - центров тяжести классов (как в сетях Кохонена) - занимают линейные многообразия, каждое из которых соответствует линейному регрессионному закону своего класса [7.2].

Регрессионные зависимости, которые строятся с помощью нейронных сетей, также образуют вполне определенный класс и для них тоже возможна соответствующая классификация без учителя. Изящный способов решения проблемы скрытых параметров для нейросетевых уравнений регрессии реализован в пакете " MultiNeuron " [7.2, 7.3]. Достаточно большая нейронная сеть может освоить любую непротиворечивую обучающую выборку, однако, как показывает опыт, если малая нейронная сеть не может обучиться, то из этого можно извлечь полезную информацию. Если не удается построить удовлетворительную регрессионную зависимость при заданном (небольшом) числе нейронов и фиксированной характеристике ("крутизне" функции активации) каждого нейрона, то из обучающей выборки исключаются наиболее сложные примеры до тех пор, пока сеть не обучится. Так получается класс, который предположительно соответствует одному значению скрытых параметров. Далее обучение можно продолжить на отброшенных примерах и т.д.

Пример. В одном из проводимых исследований [7.3] нейросеть обучали ставить диагноз вторичного иммунодефицита (недостаточности иммунной системы) по иммунологическим и метаболическим параметрам лимфоцитов. В реальной ситуации по сдвигам таких параметров иногда бывает трудно сделать верное заключение (и это хорошо известная в иммунологии проблема соотношения клинической картины и биохимических проявлений иммунодефицитов). Были обследованы здоровые и больные люди, параметры которых использовались для обучения. Однако нейросеть не обучалась, причем хорошо распознавала все до единого примеры здоровых людей, а часть примеров больных путала со здоровыми. Тогда был сделан следующий шаг: каждый раз, когда сеть останавливала работу, из обучающей выборки убирался пример, на данный момент самый трудный для распознавания, и после этого вновь запускался процесс обучения. Постепенно из обучающей выборки были исключена примерно одна треть больных (при этом ни одного здорового!), и только тогда сеть обучилась полностью. Так как ни один здоровый человек не был исключен из обучения, группа здоровых не изменилась, а группа больных оказалась разделена на 2 подгруппы - оставшиеся и исключенные примеры больных. После проведения статистического анализа выяснилось, что группа здоровых и исходная группа больных практически не отличаются друг от друга по показателям метаболизма лимфоцитов. Однако получившиеся 2 подгруппы больных статистически достоверно отличаются от здоровых людей и друг от друга по нескольким показателям внутриклеточного метаболизма лимфоцитов. Причем в одной подгруппе наблюдалось увеличение активности большинства лимфоцитарных ферментов по сравнению со здоровыми, а в другой подгруппе - депрессия (снижение активности).

В научном фольклоре проблема скрытых параметров описывается как задача отделения комаров от мух: на столе сидят вперемежку комары и мухи, требуется провести разделяющую поверхность, отделяющую комаров от мух. Данные здесь - место на плоскости, скрытый параметр - видовая принадлежность, и он через данные не выражается.

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >
Семен Дядькин
Семен Дядькин
Беларусь, Минск, БГУ, 2003