Московский государственный университет имени М.В.Ломоносова
Опубликован: 05.11.2008 | Доступ: свободный | Студентов: 1319 / 246 | Оценка: 4.32 / 4.15 | Длительность: 11:59:00
ISBN: 978-5-9963-0007-5
Специальности: Программист
Лекция 5:

Онтологии предметных областей и прикладные онтологии

< Лекция 4 || Лекция 5: 12 || Лекция 6 >

5.2. Онтологии товаров и услуг

Одной из важных сфер применения онтологий является сфера предложения товаров и услуг.

К задачам, которые должны обеспечивать онтологии о товарах и услугах, относятся:

  • сбор информации о товарах;
  • представление информации о товаре;
  • классификация товаров - разделение по назначению;
  • поиск по товарам;
  • показ баннеров;
  • показ текстов (обзоров, новостей, форумов) по товарам.

К числу наиболее известных интернет-систем по товарам общего назначения относятся такие системы, как Froogle, Яндекс.Маркет, Тындекс.

Для классификации товаров традиционно используются классификации типа рубрикаторов, которые также рассматриваются как вид онтологической организации знаний.

Рубрикаторы как вид онтологий

Под рубрикатором понимается классификационная таблица иерархической классификации, содержащая полный перечень включенных в систему классов и предназначенная для систематизации информационных фондов, массивов и изданий, а также для поиска в них (ГОСТ 7.74-96).

Имеется главное теоретическое отличие терминов тезауруса от рубрик рубрикатора. Термины тезауруса являются фундаментально языковыми, в то время как рубрики соответствуют концептуальным категориям. Цель разработки информационно-поискового тезауруса - найти хорошие, компактные слова и фразы для описания основных тем документов, сведя синонимы и квазисинонимы к дескрипторам тезауруса.

Цель создания рубрикаторов, которая не всегда достигается, но всегда ставится, - это разработать совершенно отдельные концептуальные категории, которые взаимно не пересекаются. В идеале не должно быть пересечений между рубриками и не должно быть промежутков, то есть ни одна подобласть не должна остаться вне рубрик рубрикатора. Для достижения таких строгих целей рубрикатор структурируется, что может быть выполнено двумя основными способами - иерархической организацией рубрикатора и фасетной организацией рубрикатора.

Чтобы определить рубрики достаточно строго и исключить пересечение значений, часто необходимо называть рубрики длинными и "неуклюжими" именами, например, "Тропические и субтропические фрукты и орехи"; "Полевые культуры (Plantation crop)". Назначение такого словосочетания - четко определить отдельную концептуальную категорию; подобное словосочетание не встретить в тезаурусе. Поскольку работать с такими сложно сформулированными сущностями достаточно тяжело, им обычно присваивается некоторая система классификационных кодов.

Еще одним следствием такого рода формулировок рубрик является то, что в таком виде их практически не встретить в реальных текстах и на интернет-сайтах, поэтому если нужно автоматизировать обработку перечней товаров, то необходимо каждой рубрике сопоставить наборы слов и словосочетаний, на основе которых можно будет выводить принадлежность документа данной рубрике.

OntoSeek - ориентированный на содержимое доступ в Сеть

В качестве проекта, в рамках которой исследовался поиск по товарам на базе онтологий, рассмотрим систему OntoSeek.

OntoSeek - система, предназначенная для содержательного поиска в изданиях типа "Желтые страницы" и каталогах товаров.

К числу особенностей системы относятся:

  • использование произвольных естественно-языковых терминов для описания товаров и услуг;
  • отсутствие ограничений на задание запросов на естественном языке, базирующееся на семантической обработке запроса на основе онтологии;
  • интерактивная помощь в формулировании запросов, в их обобщении и специализации.

В качестве представления информации о товарах были выбраны концептуальные графы. По сравнению с представлением вида "атрибут-значение" такие графы обеспечивают значительно более гибкий и более выразительный механизм представления запросов и описаний товаров. На базе концептуальных графов проблема сопоставления запроса и описания товара сводится к сопоставлению графов.

В качестве онтологии был взят WordNet, на основе описаний которого можно выявить синонимичность и родо-видовые отношения слов.

Представление запросов основывается на графах, содержащих переменные. Так, если пользователь ищет автомобили, внутри которых установлен радиоприемник, то запрос будет выглядеть следующим образом:

[<X> car]-> (part) -> [Radio].

Если пользователь ищет радиоприемник для автомобиля, то запрос представляется следующим выражением:

[car]-> (part) -> [<X> Radio].

Проблема использования такой онтологии, как WordNet, связана с тем, что в ней в явном виде не содержится информация о взаимной исключительности понятий.

Чтобы решить эту проблему, было предложено различать понятия-типы и понятия-роли и ввести следующие предположения:

  • типы, которые не находятся в родо-видовой иерархии, взаимно исключают друг друга;
  • роли всегда подчиняются типам;
  • роли, подчиняющиеся одному и тому же типу, рассматриваются как не взаимно исключительные, если это не указывается специально, например отношением антонимии.

Примерами типов являются такие понятия, как человек или растение, а примерами ролей - такие понятия, как студент или ребенок. Типы и роли различаются тем, что для типов принадлежность их примеров к своему типу является внутренне необходимым свойством, в то время как студент может перестать быть студентом, оставаясь все тем же человеком.

Вторым типом проблем является то, что верхние уровни WordNet слишком содержательно бедны для приложений, базирующихся на знаниях. Отношения между понятиями, установленные на основе лингвистических критериев, не соответствуют отношениям между соответствующими классами объектов внешнего мира.

Контрольные вопросы

  1. Что такое рубрикатор?
  2. Использование рубрикаторов в интернет-системах по товарам и услугам.
  3. Система OntoSeek: какие проблемы пословного поиска и какими средствами предполагалось решать?
< Лекция 4 || Лекция 5: 12 || Лекция 6 >