Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1070 / 202 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 9:

Информационно-поисковые тезаурусы

< Лекция 8 || Лекция 9: 12 || Лекция 10 >

Единицы традиционных информационно-поисковых тезаурусов

Основной единицей тезаурусов являются термины, которые разделяются на дескрипторы (авторизованные термины) и недескрипторы ( аскрипторы ).

Большинство версий стандартов по ИПТ указывают на связь терминов с понятиями предметной области. По американскому стандарту термин - это слово либо словосочетание, обозначающее понятие. Стандарт ISO подчеркивает, что индексирующий термин - это представление понятия предпочтительно в форме существительного или именной группы.

При этом понятие рассматривается как единица мысли, которая формируется мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта. Понятия существуют как абстрактные сущности, независимо от терминов, которые их выражают.

Российский ГОСТ рассматривает понятие как форму мышления, отражающую существенные свойства, связи и отношения предметов и явлений, а термином в определении ГОСТа является слово или словосочетание, являющееся точным обозначением определенного понятия какой-либо области знания.

ГОСТ 7.74-96 определяет единицы тезауруса как лексические единицы информационно-поискового языка - то есть обозначения отдельного понятия, принятые в информационно-поисковом языке и неделимые в этой функции.

Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC определили его как термино-ориентированный (term-oriented), что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить.

Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор - термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторами или недескрипторами. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы.

Дескрипторы

Дескрипторы тезауруса должны соответствовать выбранной предметной области тезауруса. Каждый дескриптор, внесенный в тезаурус, должен представлять отдельное понятие данной области. Дескриптор может быть однословным или многословным. Поскольку часто бывает достаточно трудно понять, представляет ли отдельное понятие многословное словосочетание, многие тезаурусы и руководства уделяют особое внимание основным принципам включения в тезаурус в качестве дескрипторов многословных терминов.

Набор дескрипторов должен удовлетворять следующим требованиям:

  • посредством выделенных дескрипторов должно быть возможно описать темы абсолютного большинства текстов предметной области;
  • для уменьшения субъективности индексирования множество дескрипторов не должно включать совокупности близких дескрипторов; для этого формируются классы условной эквивалентности, когда совокупности близких, но различных понятий сводятся к одному дескриптору;
  • дескриптор должен быть сформулирован однозначно, его подразумеваемое в рамках тезауруса значение должно быть понятно пользователю. Если однозначный и ясный дескриптор подобрать не удается, термин, взятый в качестве дескриптора, снабжается релятором (краткой пометкой) или комментарием.

Отношения в информационно-поисковом тезаурусе

ГОСТ 7.25 указывает, что основными типами отношений, обычно отражаемых в ИПТ, являются следующие:

  • род - вид;
  • часть - целое;
  • причина - следствие;
  • сырье - продукт;
  • административная иерархия;
  • процесс - объект;
  • функциональное сходство;
  • процесс - субъект;
  • свойство - носитель свойства;
  • антонимия.

Такие содержательные типы связей между дескрипторами чаще всего не отражаются в подробном перечне отношений тезауруса, а записываются с помощью небольшого набора отношений, которые обычно разделяются на два типа: иерархические и ассоциативные.

Иерархические отношения

По ГОСТУ 7.25-2001 иерархические отношения обладают свойствами транзитивности и антисимметричности, которые могут быть использованы при избыточном индексировании в интересах повышения эффективности информационного поиска. Предпочтительно указывать связи между дескрипторами как отношения иерархического вида, если они обладают этими свойствами. Применяемые в ИПТ иерархические отношения могут дифференцироваться на отдельные виды.

Основным иерархическим отношением, используемым в ИПТ, является родо-видовое отношение (оно же - отношение НИЖЕ-ВЫШЕ ). По ГОСТУ 7.25-2001 родо-видовая связь устанавливается между двумя дескрипторами, если объем понятия нижестоящего дескриптора входит в объем понятия вышестоящего дескриптора.

Также в качестве иерархического отношения в ИПТ может устанавливаться отношение ЧАСТЬ-ЦЕЛОЕ.

Многие руководства и стандарты подчеркивают, что иерархические отношения в ИПТ должны устанавливаться в тех случаях, когда отношения истинны независимо от контекста - только в таких случаях дескрипторы ИПТ могут быть организованы в иерархии. Эта рекомендация связана с тем, что обычно в информационном поиске очень трудно четко определить контекст употребления термина и понять, применимо ли в данном контексте то или иное отношение.

Так, для мышей можно указать, что они грызуны, поскольку это внутренняя характеристика мышей. В то же время неправильно указывать, что мыши - вредители, поскольку имеются лабораторные мыши и домашние мыши, которые вредителями не являются.

Рекомендуется использовать тест "все-некоторые". Например, "все мыши являются грызунами, но некоторые мыши являются вредителями".

Ассоциативные отношения

Основное назначение установления ассоциативных отношений между дескрипторами ИПТ - указание на дополнительные дескрипторы, полезные при индексировании или поиске.

Отношение ассоциации является неиерархическим и ассоциативным. Ассоциативное отношение наиболее трудно определить. Российский стандарт на создание ИПТ указывает, что "ассоциативное отношение является объединением отношений, не входящих в иерархические отношения или в отношения синонимии. Допускается включать в ассоциативное отношение все виды отношений, кроме синонимии и отношения РОД-ВИД ".

Другие источники стараются изложить более подробные принципы установления ассоциативных отношений, поскольку в противном случае отношение будет проставляться непоследовательно.

Американский стандарт описывает наиболее общее правило установления ассоциативного отношения между дескрипторами таким образом: это отношение стоит устанавливать между двумя дескрипторами, если при употреблении одного термина другой термин как бы подразумевается. Один термин может быть необходимым элементом определения другого термина, например, термин клетка составляет необходимую часть определения термина цитология.

Автоматическое индексирование по традиционным информационно-поисковым тезаурусам

Поскольку основными элементами ИПТ являются термины, описанные как дескрипторы и аскрипторы, может показаться, что достаточно просто осуществить автоматическое индексирование по ИПТ путем простого сопоставления дескрипторов и аскрипторов с документами.

Однако для большинства документов такое автоматическое сопоставление не сможет отразить основное содержание документа:

  • важные термины документа могут быть не найдены в тезаурусе, поскольку выражены в нем несколько иначе;
  • менее значимые термины найдут прямое отражение в тезаурусе и выйдут на первый план и т.п.

Поэтому исследуются более сложные методы автоматизации индексирования по ИПТ.

Одним из подходов для автоматизации индексирования по традиционным ИПТ является подход, основанный на правилах. Такой подход к автоматическому индексированию был реализован по тезаурусу EUROVOC.

Правила могут быть простыми и сложными. Простые правила не содержат условий. Сложные правила содержат такие условия, как Близость (на расстоянии трех слов по тексту, в одном предложении, в том же самом поле, например, в поле реферата), Местонахождение (в заголовке, в тексте реферата или документа, в начале предложения, в конце предложения), Формат (с большой буквы, все большими буквами). Всего было создано около 40 тысяч правил.

В качестве других подходов автоматизации индексирования используются статистические методы.

При таких подходах процесс автоматического приписывания дескрипторов тезауруса EUROVOC полнотекстовым документам включает две стадии.

  1. На первой стадии (этап обучения) на основе документов, вручную проиндексированных индексаторами, устанавливается соответствие между словами, встретившимися в тексте документа, и приписанными дескрипторами тезауруса. Соответствие устанавливается на основе статистических мер (chi-square или log-likelihood). Вес соответствия отдельного слова ключевому слову тем выше, чем выше совместная частотность использования данного слова и данного ключевого слова относительно частотности во всей коллекции.

    Например, дескриптору тезауруса FISHERY MANAGEMENT соответствуют следующие слова (в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel и т.д.

  2. На второй стадии (собственно индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса.

    Например, для Резолюции по правам языковых и культурных меньшинств в Европейском союзе были получены следующие дескрипторы (в порядке убывания веса): Community programme, Young person, Cultural policy, CEEC, European Union и т.д.

    Индексаторы Европейского Парламента присваивают документу обычно от 3 до 10 дескрипторов.

Выдачу системы можно ограничить по количеству выдаваемых дескрипторов или по весу. Для текста примера присвоенные индексаторами дескрипторы находились в первой тридцатке дескрипторов, присвоенных автоматически (на позициях 3, 8, 9, 16 и 30).

При этом большинство автоматически присвоенных дескрипторов выглядят весьма релевантными тексту документа и только 3 из 40 присвоенных автоматически явно неправильны (например, Кипр).

Сочетание свободных запросов и запросов на основе информационно-поисковых тезаурусов

В настоящее время в мире существует достаточно много информационных систем, предоставляющих пользователям возможности поиска информации как по свободному запросу на естественном языке, так и с помощью дескрипторов информационно-поисковых тезаурусов, сопоставленных документам профессиональными индексаторами.

Первым шагом на этом пути может быть нахождение корреляций между словами документов и дескрипторами тезауруса или рубриками рубрикатора.

Эксперименты по автоматическому расширению свободного запроса пользователя дескрипторами тезауруса проводились на двуязычной коллекции немецких и английских документов по общественным наукам. База включает в себя более 150 тысяч немецких документов и 26 тысяч английских. Документы реферативного характера содержат заголовок публикации, реферат и дескрипторы Тезауруса по общественным наукам, приписанных индексаторами. Эксперименты выполнялись в рамках предметно-ориентированного задания форума по многоязыковым информационным системам CLEF (Cross Language Evaluation Forum).

Контрольные вопросы

  1. Перечислите основные виды отношений в ИПТ.
  2. Почему традиционные ИПТ мало используются для автоматического индексирования текстов?
  3. Каковы методы использования традиционных ИПТ в автоматических технологиях обработки текстов (запросов)?
< Лекция 8 || Лекция 9: 12 || Лекция 10 >
Kirill Annenkov
Kirill Annenkov
Украина
Андрей Федоров
Андрей Федоров
Россия