Скачать 191.82 Kb.
|
УДК 004.738.52:004.822 А.Н. Кузнецов, Е.В. Пышкин ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ПОСТРОЕНИЯ ПОЛЬЗОВАТЕЛЬСКОГО ИНТЕРФЕЙСА К СИСТЕМАМ WEB-ПОИСКА Приводится обзор основных подходов организации пользовательского интерфейса при Web-поиске. Анализируется применение лексических синонимов для выявления семантических отношений между концепциями, выражаемыми на естественном языке. Предложен метод повышения эффективности использования существующих текстовых поисковых Web-систем путем представления пользовательского запроса в виде сети термов и интерактивного компонента для модификации запросов, использующего онтологию WordNet для установления семантических связей терминов пользовательского запроса. Введение Основная проблема, мешающая эффективному поиску текстовой информации, заключается в принципиальном отличии представления пользовательского поискового запроса от способа его интерпретации [9]. Человек, составляя запрос, оперирует семантическими единицами, в то время как для поисковой машины термины запроса являются синтаксическими единицами. С одной стороны, качество результатов Web-поиска зависит от алгоритмов, реализуемых поисковыми машинами (при этом конкретное содержание этих алгоритмов зачастую недоступно для внешнего анализа). С другой стороны, очевидно, что на качество получаемых результатов влияние оказывает и качество самих поисковых запросов. С этой точки зрения можно отметить сосуществование двух принципиально разных подхода к повышению эффективности поиска:
Эти два подхода могут быть совмещены посредством использования такого формального языка запросов, в котором смысл каждой синтаксической конструкции однозначно определен. При этом такой язык запросов должен быть максимально приближен к естественному языку. Самой поисковой системе в этом случае по-прежнему не требуется производить семантический анализ, а пользователь обходится без вспомогательных интерактивных средств. На таком гибридном подходе, в сущности, и основываются технологии Semantic Web. И в том, и в другом случае разработчики большое внимание уделяют реализации интерфейса пользователя. Обзор поисковых систем общего назначения, а также специализированных поисковых систем, показывает, что представление результатов поиска и наличие удобных средств взаимодействия с пользователем (а не только текстовых полей для ввода запроса) также влияют и на популярность поисковой системы, и на то, насколько выдаваемые результаты соответствуют ожиданиям пользователей [25]. В дополнение к стандартным средствам текстовой строки, необходимо упомянуть следующие возможности, поддерживаемые современными системами Web-поиска:
В данной работе содержится обзор подходов к конструированию сайтов, предоставляющих поисковые сервисы и совмещающих реализацию семантического поиска и интерфейсных средств, нацеленных на выявление семантики пользовательских запросов. Поисковые системы и семантизация процесса поиска Классические поисковые системы (такие как Google, Yandex, MSN, Infoseek и др.) ориентированы на использование текстового запроса и представление результатов в виде упорядоченного множества ссылок. Решение задач интерпретации запроса и оценки результатов поиска образует обширное пространство для исследований, в следующих областях представления и обработки знаний:
Используя стандартный текстовый интерфейс, система поиска может обеспечивать интерпретацию запроса и представление извлекаемых данных с учетом их специфики. Примером может служить поисковый сервис на nigma.ru, который обеспечивает обработку запросов, представляющих собой формулы химических реакций и математические выражения и уравнения (для них в визуальной форме выводится объяснение решения). Другой пример – Wolfram Alpha, подключаемый компонент к браузеру, использующий подход, который разработчики называют вычислимостью знаний (knowledge computability). В ходе анализа запроса данный компонент пытается определить область знания, а затем извлечь информацию, имеющую отношение именно к этой области. Например, обнаружив в строке запроса Google название города, Wolfram Alpha выводит карту соответствующей местности, информацию о площади и населении, другие метаданные. Наряду с подобными системами активно развиваются подходы, основанные на визуализации процесса поиска как для обеспечения интерактивного ввода запроса, так и для представления результатов поиска. В отдельных поисковых системах используется модель облаков тегов для улучшения интерактивности процесса поиска. Появившись первоначально на сайтах, предоставляющих сервисы размещения и просмотра изображений (таких как Flickr на www.flickr.com или «Yandex.Фотки» на fotki.yandex.ru), подход с облаками тегов стал применяться и в поисковых системах общего назначения. Примерами таких реализаций могут служить компоненты дополнений CloudLet (www.getcloudlet.com) и DeeperWeb (www.deeperweb.com) для браузера Firefox. Технологии использования подобной категориальной идентификации в настоящее время являются одним из основных методов улучшения пользовательского интерфейса в поисковых системах и системах, связанных с извлечением знаний [10, 11]. Многие разработки ориентированы на визуальный интерфейс взаимодействия с пользователем. Реализованный в форме Java-апплета, инструмент TouchGraph Google Browser отображает зависимости Web-сайта в форме редактируемого графа с интерактивными гиперссылками и возможностями просмотра краткой информации об отображаемом Web-сайте (см. рис. 1). Продукт ThinkMap Visual Thesaurus (www.visualthesaurus.com/howitworks) представляет отношения между словами в виде графа, поддерживая такие отношения как обобщение, специализация, синонимы, антонимы, производные формы и т. д. Непосредственно не являясь элементом поисковой системы, данный компонент может использоваться в процессе модификации запроса для улучшения его качества и семантического содержания (рис. 2). Визуальные интерфейсы, реализуемые в данных инструментах, основаны соответственно на графе и семантической сети отношений и представляют интерес с точки зрения использования для разработки элементов интерфейса поисковой системы. Рис. 1. Визуальный интерфейс TouchGraph Рис. 2. Интерфейс системы ThinkMap Visual Thesaurus Интерактивность интерфейса может достигаться не только за счет использования визуальных представлений, но с помощью семантической модификации запроса. Например, поисковый сервис digger.com интерпретирует пользовательский запрос и предоставляет возможность уточнить смысловую область поиска. При этом обеспечивается упрощенная для пользователя модель весовых коэффициентов предпочтения выбранных смыслов. Проведенные эксперименты показывают, что смыслы, вычисляемые digger.com, имеют сильное сходство с результатами, получаемыми с использованием онтологии WordNet. Процесс семантического доопределения задачи поиска может быть реализован с использованием технологий семантической паутины (Semantic Web), основная идея которой и заключается в обеспечении ориентированных на машинное восприятие данных для существующих документов с целью улучшения процессов извлечения и формализации знаний [5, 6]. В настоящее время применение технологий семантической паутины предполагает не только автоматизацию процессов доступа к Web-ресурсам, но ориентированность на обеспечение интеграции и взаимодействия бизнес-процессов и информационных систем. Достижение такой интеграции возможно за счет создания глобальной инфраструктуры обмена документами и данными на основе управления метаданными, определяемыми для имеющихся Web-ресурсов. При этом онтологии являются формальной основой и ключевой технологией для развития семантической паутины [1, 8]. Поисковый агент www.semanticwebsearch.com использует принцип «раз мы не умеем понимать то, что от нас хочет пользователь, давайте заставим пользователя писать то, что мы понимаем». Пользователь имеет возможность определить тип ресурса, значение определенных свойств, связанных с типами метаданных, поддерживаемых семантической паутиной. Успешность применения концепций и технологий семантической паутины в существенной степени зависит от качества метаданных, определяемых для того или иного ресурса. До настоящего времени число сайтов, поддерживающих такие технологии как RDF, OWL, SPARQL, FOAF и др. все еще ограничено, однако активные исследования в этой области, а также стандартизация синтаксической и семантической разметки документов консорциумом W3C, обеспечивают рост популярности технологий семантической паутины среди разработчиков. Следует отметить, что внедрение семантической информации в HTML-страницы имеет ряд ограничений. Очевидно, что поддержка метаданных для представления биометрической, географическойи, календарной, контактной и др. информации, относящейся к так называемой легковесной семантике (light-weight semantics), весьма полезна, хотя сами метаданные (во многих случаях создаваемые людьми) не всегда совершенны. В общественном сознании семантическая паутина еще не заняла ведущее место: статистика поисковых запросов Google показывает, что запросы, относящиеся к технологиям Semantic Web, встречаются реже чем, например, запросы о языках Prolog и Fortran [29]. Таким образом, вопросы о точности и достоверности метаданных семантической паутины, равно как и проблемы, связанные с распространением персональных данных, остаются открытыми, тем не менее, по меткому замечанию Щербака, «низкоуровневый семантический Веб безусловно лучше, чем никакого». Из описания большинства современных поисковых систем, упоминаемых в данной работе, следует что все они относятся к классу семантически-ориентированных систем. Среди возможностей, реализация которых позволяет авторам системы поиска классифицировать ее как семантическую систему, упоминаются, в частности, следующие:
Обеспечение семантической ориентированности процесса поиска не обязательно предполагает использование полноценного семантического анализа. Косвенным образом в выявлении смысловой направленности пользовательского запроса может помочь сбор и применение некоторой статистической информации. Например, интерфейсы большинства современных поисковых машин обычно предлагают пользователю список подсказок, ускоряющих набор текстовой строки запроса. Чтобы сэкономить время, пользователь иногда выбирают готовую подсказку, даже если она и не совсем точно соответствует его первоначальным намерениям. Сбор информации о страницах, посещенных пользователем, выбравшим конкретную подсказку (равно, как и проигнорированных им), может в дальнейшем стать одним из факторов принятия решений при определении порядка ссылок, выдаваемых другим пользователям, выбравшим ту же подсказку. Авторам неизвестно, руководствуются ли разработчики Google или Yandex подобными рассуждениями, но такой подход представляется вполне логичным способом частичной семантизации обработки пользовательского запроса на основе статистической информации. Лексические синонимы в лингвистике и системах поиска В когнитивной лингвистике и ее прикладных областях изучение синонимических рядов является одним из важнейших аспектов семантически ориентированной обработки текстов, в том числе, в следующих направлениях:
Синсет в онтологии определяется как синонимический ряд слов, обозначающих один и тот же концепт в заданном контексте. Например, для описания таксономических связей между существительными используются следующие основные типы отношений:
Отметим, что синсет не всегда позволяет выразить основные свойства, присущие конкретному типу отношения, наиболее полно. Так, отношение меронимии может подразумевать семантически существенно отличающиеся разновидности [18, 28]:
Каждый тип отношений порождает определенный тип онтологии. Несмотря на то, что в общем случае смешивать различные типы онтологий не рекомендуется [2], в конкретных реализациях подобное смешение встречается. Например, онтология WordNet фактически является объединением нескольких типов онтологий (в том числе, таксономии, партономии и др.). Идея использования семантических связей, основанных на синсетах, обусловлена двумя обстоятельствами. Во-первых, определение соответствующего фрагмента таксономии позволяет более точно установить контекст употребления термина в поисковом запросе. Во-вторых, обнаруженные связи позволяют сформировать подсказки, позволяющие пользователю улучшить свой запрос, используя более общий, или, наоборот, более специальный термин. Таким образом, смысл пользовательского запроса становится более понятным, в том числе, и самому пользователю, при этом детальный семантический анализ отношений, влияющих на выбор термина, пользователю, как правило, не требуется. Интерактивный компонент модификации пользовательского запроса Вспомогательные компоненты Web-поиска обычно реализуются или в форме расширения (browser plug-in), или в форме независимой Web-страницы, выполняющей роль интерфейса к поисковой машине. Первый вариант обеспечивает прозрачную интеграцию с возможностями браузера, второй предпочтительнее с точки зрения обеспечения совместимости с разными программами просмотра Web-страниц. Многие пользователи рассматривают строку запроса как предложение на естественном языке, поэтому они не используют возможности языка запросов наиболее эффективно и правильно. Для повышения качества и более эффективного использования возможностей языка поисковых запросов предлагается использовать специализированный пользовательский интерфейс к существующим поисковым системам, позволяющий выполнять два типа преобразования исходного запроса: 1) преобразование формы (дать пользователю более гибкий способ ввода запроса, чем текстовая строка) и 2) преобразование семантики. На рис. 3 представлен разработанный интерактивный интерфейс к поисковой системе Google. Компонент реализован в виде HTML страницы, разделенной на два фрейма. Верхний фрейм содержит JavaFX-апплет, выполняющий две основные функции: помощь в составлении запроса и формирование поисковой строки для поисковой машины (в нашем примере – Google). Результаты поиска отражаются в нижнем фрейме. Такой подход позволяет обеспечить независимость от используемого браузера (благодаря спецификации HTML), от операционной системы (поскольку код исполняется на виртуальной Java-машине), а также от физического размещения самого компонента (так как апплет может располагаться локально или на удаленном сервере благодаря протоколу загрузки JNLP). Поисковый запрос предлагается составлять в форме сети термов, которая состоит из AND-узлов (рис. 3, а) и OR-узлов (рис. 3, б). Вставка новых элементов поддерживается как с помощью мыши, так и с помощью клавиатуры. Для добавления узлов с помощью мыши используются элементы интерфейса, представленные на рис. 3, в, г (для AND- и OR- узлов соответственно), которые автоматически появляются для активного узла графа (того узла, который находится в фокусе). При вводе с клавиатуры пробел интерпретируется как вставка нового AND-узла справа, что эквивалентно как методу ввода запроса в обычную поисковую строку, так и семантике введенного запроса. Чтобы удалить ненужный узел достаточно удалить из него весь текст или просто щелкнуть по нему правой кнопкой мыши. Все эти элементы интерфейса имеют отношение только к преобразованию формы запроса. Рис. 3. Интерфейс вспомогательного компонента Web-поиска Семантическое преобразование запроса выполняет сам пользователь с использованием интерактивного помощника (рис. 3, д), который предоставляет доступ к онтологии WordNet (sense navigator). Логически вся область помощника состоит из двух частей: заголовка и рабочей области. Заголовок содержит управляющие элементы и само исследуемое слово. Рабочая область (sense selector) содержит описание исследуемого слова на основе онтологии WordNet. Каждая строка соответствует одному смыслу и содержит следующие элементы:
Когда пользователь закончил ввод поискового запроса, сеть термов преобразуется в запрос к поисковой машине, составленный с использованием логических операторов. В зависимости от результатов, процесс семантического изменения запроса может быть повторен. Основная задача помощника заключается не столько в том, чтобы быстро менять слова в запросе, сколько в том, чтобы дать возможность пользователю объективно оценить свой запрос. Результат поиска может быть неудовлетворительным не потому, что в Интернете мало страниц на интересующую тему, а потому, что первыми в списке результатов оказались страницы, которые содержат все слова, но, возможно, в других смыслах. Это должно подтолкнуть пользователя заменить многозначное слово синонимом, либо вообще исключить его из запроса, чтобы оно не мешало при оценке релевантности результатов поисковой машиной (как это и демонстрируется в следующем разделе). Пример использования Рассмотрим процесс взаимодействия пользователя и разработанного компонента на примере. Ввиду того, что текущая реализация использует английскую версию WordNet, мы приводим пример поиска информации на английском языке. В ходе работы над системой поиска музыкальной информации [13], нам потребовалось уточнить корректность использования латинской буквенной нотации для записи нот. Несмотря на определенное музыкальное образование (см., например, [22, 23]), нам не было известно, что музыканты используют для этого термин «pitch notation», причем буквенная нотация существует в нескольких формах, например нотация Гельмгольца, научная нотация, MIDI-нотация. Мы начали поиск с предположения, что разумными запросами могут быть «letter music system» или «letter music notation». Представление результирующего запроса иллюстрирует рис. 4. Проанализировав краткое содержание полученных страниц, мы пришли к выводу, что они не содержат требуемой информации. Используя панель интерактивного помощника, мы получили набор смыслов термина «music», извлеченных из WordNet (см. рис. 5). Рис. 4. Начало поиска Рис. 5. Извлечение смыслов термина из онтологии После выбора первого смысла мы получаем новое состояние рабочей области со списком ассоциаций, связанных с выбранным смыслом (рис. 6). В данном синонимическом ряду наиболее перспективным представляется термин «tune», поскольку его определение (succession of notes forming a distinctive sequence) явно соответствует нашей области поиска. Для замены узла «music» на узел «tune» используется всплывающая панель инструментов. Рис. 6. Список ассоциаций для выбранного смысла Анализируя результаты, выданные Google (рис. 7), мы обнаруживаем, что направление поиска правильное, но полученные сайты содержат только тривиальные примеры. Изучая термин «tune», выбираем тот смысл, который представляется наиболее подходящим для достижения нашей цели (the property of producing accurately a note of a given pitch). Открытие детализированного описания (подсказка «more:») позволяет обнаружить что «tune» в указанном смысле имеет синоним «pitch» (рис. 7). Используя всплывающую панель инструментов снова, заменяем «tune» на «pitch». Полученный граф вместе с тремя первыми ссылками из списка результатов поиска изображен на рис. 8. Отметим, что первые две ссылки ведут на сайты, содержащие исчерпывающее описание упомянутых в начале раздела музыкальных нотаций. Рис. 7. Результаты, выданные поисковой системой после модификации запроса Рис. 8. Результирующий запрос и ссылки, выданные поисковой машиной Заключение Качество веб-поиска определяется не только качеством алгоритмов поисковой системы, но и качеством самого поискового запроса, который, в свою очередь, зависит, в том числе, и от возможностей пользовательского интерфейса. Предлагаемая сеть термов позволяет в интуитивно-понятной форме эффективно использовать возможности поисковых систем, интерпретирующих логические выражения. Предлагаемый помощник позволяет пользователю (с помощью онтологии WordNet) адекватно оценить и изменить сам запрос. Язык поисковых запросов обычно поддерживает не только построение логических выражений с операциями И, ИЛИ, НЕ, но и другие возможности, например, метасимвольные аргументы, идентификацию категории термина, идентификацию сайта и т. п. Развитие имеющейся реализации с учетом данных возможностей представляет интерес в качестве дальнейшей разработки. ЛИТЕРАТУРА
Andrey Kuztetsov, Evgeny Pyshkin Using Ontologies for Constructing the Web Search User Interface. Approaches used for Web search user interface are reviewed. Recognition of language concepts relationships discovered by their lexical synonyms in its application to the web search is analyzed. The implementation of the approach to assist the query based search with using query token network and WordNet ontology is introduced. |
Кузнецов Н. Г. Курсом к победе Аннотация издательства: Адмирал Флота Н. Г. Кузнецов с фашистами начал воевать еще в Испании. Узнав от Г. К. Жукова о начале войны... |
России Кузнецов Иван Николаев, соискатель Российской академии адвокатуры... Кузнецов Иван Николаев, соискатель Российской академии адвокатуры и нотариата, помощник нотариуса г. Москвы |
||
Николай Герасимович Кузнецов. Накануне Вся моя жизнь связана с Советским Военно-Морским Флотом. Ясделал выбор однажды, в совсем юные годы, и никогда не жалел об этом |
Литература для чтения 4 класс обучения Фет. А. К., Толстой. А. А., Ахматова. Ю. П. Кузнецов Произведения для самостоятельного чтения учащихся |
||
И. В. Кузнецов «З00 лет отечественной журналистики 1702 2002» м 2002 Овсенян Р. п. История новейшей отечественной журналистики февраль 1917-нач 1990 м 1996 |
Рабочая программа по географии для 7 класса составлена на основе... Морф от 05. 03. 2004 г. №1089, Примерной программы основного общего образования по географии М.: Дрофа, 2007., авторской программы... |
||
Программа содержит перечень предметных тем, примерное распределение... Рабочая программа разработана на основе Примерной программы по истории для 5 – 9 классов, издание Просвещение – 2010 год, авторы... |
Поиск на сайте Главная страница Литература Доклады Рефераты Курсовая работа Лекции |