Опубликован: 01.03.2007 | Доступ: свободный | Студентов: 1394 / 121 | Оценка: 4.58 / 4.39 | Длительность: 20:15:00
Специальности: Программист
Лекция 7:

Скрытые параметры и транспонированная регрессия

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >

Транспонированная задача линейной регрессии

Изложение в этом разделе следует работам [7.2, 7.5, 7.6]. Постановка обычной задачи регрессии (или мозаичной регрессии) исходит из гипотезы о том, что одни характеристики объектов могут быть функциями других и эти функции одни и те же для всех объектов (или соответственно классов объектов).

Транспонируем таблицу данных (поменяем местами слова "объект" и "признак"). Рассмотрим гипотезу от том, что значения признака одного объекта могут быть функциями значений того же признака других объектов и эти функции одни и те же для всех признаков (или классов признаков). Получаем формально те же задачи регрессии (транспонированные задачи регрессии). Есть, однако, два содержательных отличия транспонированных задач от исходных:

  1. инвариантность к смене шкал измерения - кажется маловероятным, чтобы существенные связи между признаками различных объектов зависели от шкалы измерения, поэтому необходимо, чтобы уравнения транспонированной регрессии были инвариантны относительно смены шкалы измерения любого признака (обычно - линейного неоднородного преобразования x'=ax+b однородная часть которого описывает смену единицы измерения, а свободный член - сдвиг начала отсчета);
  2. в традиционных задачах регрессии предполагается, что объектов достаточно много ( N ), по сравнению с числом признаков n, иначе (при N<n ) точные линейные соотношения возникнут просто из-за малого числа объектов, так как через N точек всегда можно провести линейное многообразие размерности N-1. В противовес этому "транспонированное" предположение о достаточно большом числе признаков ( n>N ) кажется нереалистичным.

Требование инвариантности к смене шкал приводит к специальным ограничениям на вид функций регрессии, а недостаточность количества признаков (в сравнении с числом объектов) для построения транспонированной регрессии вынуждает нас для каждого объекта искать небольшую группу, по свойствам которых можно восстановить характеристики данного.

Задача построения таких групп объектов была чрезвычайно популярна в химии перед открытием Менделеевым периодического закона (1871 г.). С 1817 г. (Деберейнер) были опубликованы десятки работ на эту тему [7.7]. Именно они поставили исходный материал для систематизации элементов. Деберейнер обнаружил триады, в которых свойства среднего элемента могут быть оценены как средние значения этих свойств для крайних членов триады. Его труды продолжили Гмелин, Гладстон, Дюма и другие. Вот некоторые из таких триад:

K-Na-Li, Ba-Sr-Ca, Cl-Br-J, S-Se-Te, P-As-Sb, W-V-Mo, ...

Один из наиболее полных списков триад был опубликован Ленсеном (1857). Он же заметил, что для большей точности иногда полезно брать "эннеады" - девятки, составленные из трех триад.

Менделеев писал:

"...между всеми... учеными, которые раньше меня занимались сравнением величин атомных весов элементов, я считаю, что обязан преимущественно двум: Ленсену и Дюма. Я изучил их исследования и они меня побудили искать действительный закон"

(цит. по [7.7], с. 220-222).

Более общим образом задача ставится так: найти для каждого объекта наилучшую линейную формулу, выражающую его вектор признаков через векторы признаков других объектов (которых должно быть по возможности меньше). Эта формула должна быть инвариантна относительно смены шкал.

Итак, требуется построить отношение, связывающее объекты с группами объектов, по которым для него строятся интерполяционные формулы. Проделав эту работу "в лоб" ( по базам данных и без обращения к интуиции химиков) для большого числа элементов (объектов) и потенциалов ионизации (признаков), мы получили хорошее согласие с экспериментом и предсказали ряд неизвестных ранее высших потенциалов ионизации. Результаты будут описаны в следующем разделе.

Предположим, что некоторый большой набор свойств - внешних, эмпирических данных об объекте (явление) является сюръекцией небольшого набора внутренних, теоретических переменных (сущности). Эта идея позволяет сделать предположение о том, что размер опорной группы объектов, по которой наилучшим образом восстанавливаются свойства данного объекта, не только не должен превосходить размер набора свойств (иначе заведомо возникнут точные линейные соотношения), но и быть малым настолько, насколько это позволяет заданная точность [7.2, 7.3, 7.4, 7.5].

Если предположить, что для некоторого множества объектов зависимость между теоретическим и эмпирическим линейна, и векторы теоретических параметров объектов данного множества лежат в линейном многообразии размерности q, то размер опорной группы не будет превосходить q+1.

Другое условие, налагаемое на искомую формулу, требует инвариантности к смене шкал измерений. Разумно считать, что глубинные связи не зависят от единиц, в которых выражены значения свойств объектов:

f{\rm{(}}ay^1 {\rm{+ }}b,...,ay^{\rm{q}}{\rm{+ }}b{\rm{) = }}a{\rm{ }}f{\rm{(}}y^1 ,...,y^{\rm{q}}{\rm{) + }}b

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >
Артур Гибадуллин
Артур Гибадуллин
Россия, г. Нижневартовск