Работа выполнена на кафедре "Системы автоматизированного проектирования и поискового конструирования" Волгоградского государственного технического университета.
Научный руководитель:
|
доктор технических наук, профессор
Фоменков Сергей Алексеевич.
|
|
|
Официальные оппоненты:
|
|
|
|
|
|
|
|
Ведущая организация:
|
|
Автореферат разослан
Ученый секретарь
диссертационного совета
|
|
Водопьянов В. И.
|
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы диссертации. Рассматривая различные информационные потребности в физических знаниях можно выделить основные группы потребителей: ученые, инженеры и студенты. Для удовлетворения информационных потребностей были разработаны различные модели представления физических знаний. В различное время этой проблемой занимались: Зарипов М.Ф., Глазунов В.Н., Альтшуллер Г.С., Горин Ю.В., Коллер Р. , Половинкин А.И. и другие отечественные и зарубежные ученые. В последнее время широкое распространение получила модель представления данных в виде обобщенной модели физического эффекта (ФЭ) как наиболее общая из существующих моделей.
Также на основе моделей представления физических знаний создавались компьютерные системы для хранения и поиска ФЭ. Основным методом поиска в этих системах был дескрипторный поиск. Это являлось следствием алгоритмической простоты реализации данного метода поиска и уровнем развития вычислительной техники на тот момент.
Основным недостатком этого метода является то, что он требует от пользователей грамотного составления поискового запроса. Эта процедура требует специальной подготовки пользователей и не всегда возможна. Еще одним недостатком является наличие омонимии терминов в различных предметных областях.
Позднее, в автоматизированных системах был реализован метод полнотекстового поиска. Однако наличие таких свойств языка как синонимия также в большинстве случаев не позволяли использовать этот метод поиска эффективно.
В настоящее время самым перспективным подходом к информационному поиску является семантический поиск. Основной проблеме этого подхода – семантическому анализу были просвещенны работы Звегинцев В.А., Куайна У., Хомского Н., Мински М., Леонтьева Н.Н., Мельчука И.А, Кобозева И.М. и других отечественных и зарубежных ученых.
С внедрением компьютеров в различные сферы жизнедеятельности человека возрастает и количество задач возлагаемых на них. Автоматизация различных процессов уже показала достоинства ее применения. Основные достоинства автоматизации это: повышение скорости обработки; повышение точности; снижение трудозатрат на выполнение работы. В настоящее время все больше и больше возрастают требования к инженерам в связи с необходимостью использовать компьютерную технику. Поэтому актуальной задачей является улучшение взаимодействия человека и компьютера. В настоящее время, наметилась тенденция на использование естественных языков для реализации этого. Это обусловлено простотой использования этого инструмента для человека. Однако алгоритмическая сложность этой задачи является высокой, а существующие алгоритмы и системы на их основе не дают приемлемых результатов.
Таким образом, актуальность данной работы обусловлена высокой потребностью в повышении качества результатов поисковых запросов физических знаний и упрощения взаимодействия пользователя с компьютерной системой.
Цель работы и задачи исследования. Целью диссертационной работы является повышение релевантности поиска ФЭ и снижение сложности формирования поисковых запросов за счет применения семантического поиска и построения запросов к системе на естественном языке.
Для достижения данной цели были поставлены и решены следующие задачи:
-
Анализ существующих подходов к решению задачи информационного поиска, их особенностей, недостатков;
-
Разработка модели представления семантики (МПС) для использования базовой модели ФЭ в алгоритмах семантического поиска;
-
Разработка методики перевода текстовых описаний ФЭ в МПС;
-
Разработка методики поиска ФЭ по запросу на естественном языке
-
Реализация предложенных методик и модели в системе поиска ФЭ по запросу на естественном языке;
-
Апробация работоспособности системы при решении тестовых задач.
Объект исследования. Текст на естественном языке описывающий некоторый ФЭ. Его структура и закономерности. Запросы пользователя.
Предмет исследования. Методики анализа текстов на естественном языке. Их представление в компьютере. Методики организации поиска.
Методы исследования. В диссертации использованы методы системного анализа, компьютерного моделирования, теории множеств, объектно-ориентированного проектирования систем, теории реляционных баз данных.
Научная новизна работы состоит в следующем:
-
предложена модель представления физических знаний для использования в алгоритмах семантического поиска. Данная модель сочетает в себе относительную простоту базовых понятий, естественное для человека представление предметной области и возможности формализации процесса семантического анализа и поиска;
-
предложена методика индексации документа для семантического поиска. Она позволяет преобразовать текстовое описание ФЭ в МПС для последующего поиска без выполнения анализа, что повышает скорость поиска;
-
предложена методика поиска по запросу на естественном языке, позволяющая выполнять поиск ФЭ по выражению на естественном языке, что позволяет упростить взаимодействие с системой поиска ФЭ и исключить ошибки формализации запроса пользователя;
-
предложена методика автоматизации накопления семантических знаний, позволяющая автоматизировано накапливать базу знаний системы, для расширения области применения алгоритмов анализа и поиска текстовых описаний ФЭ
Обоснованность и достоверность результатов, приведенных в диссертационной работе, обеспечиваются использованием зарекомендовавших себя методов системного анализа, объектно-ориентированного подхода, применением апробированной модели представления физических знаний, а также проведением опытных экспериментов. Эксперименты заключаются в сравнении времени поиска ФЭ с помощью предлагаемой методики и других методов поиска. Также проводились эксперименты по поиску ФЭ с использованием запросов, которые являются трудноформализуемыми в других системах.
Практическая значимость и внедрение.
Разработанная система поиска ФЭ по запросу на естественном языке позволяет осуществлять поиск ФЭ, используя запрос на естественном русском языке. Это позволяет упростить взаимодействие пользователя системы поиска ФЭ за счет использования более естественных для пользователя запросов на русском языке вместо формализованных, запросов в терминах модели ФЭ. Система может применяться в проектно-конструкторских бюро, научных институтах и в ВУЗах технического профиля, при решении задач, таких как: обучение, изобретательство, проектирование, проверка теоретических гипотез, выбор новых направлений исследований и т.п.
Дальнейшее расширение базы знаний системы позволит применять ее для индексации и поиска текстовых документов в других областях знаний (например: химия, астрономия, биология).
Положения, выносимые на защиту:
-
модель представления семантической информации текстовых описаний ФЭ в компьютере на основе объектного представления – модель представления семантики (МПС);
-
методика индексации документа для семантического поиска;
-
методика поиска по запросу на естественном языке;
-
методика автоматизации накопления семантических знаний;
-
система поиска ФЭ по запросу на естественном языке.
Апробация результатов работы. "Технологии Microsoft в теории и практике программирования" (Нижний Новгород, 2006).
"VI всеросиийская научно-практическая конференция(с международным участием)" (Оренбург 2007г)
Публикации.
Основные положения диссертации отражены в 5 опубликованных работах. В том числе 3 статьи напечатаны в рецензируемых научных журналах, рекомендованных ВАК для публикации основных результатов диссертационных работ; получено 1 свидетельство об официальной регистрации программы для ЭВМ.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения. Объем диссертации составляет ___ страницы машинописного текста, таблиц -__, рисунков - __, список литературы - ___ наименования, приложение - __ стр. Общий объем работы - ___ стр.
|