Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г




НазваниеАвтоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г
Дата публикации21.06.2014
Размер80.5 Kb.
ТипДокументы
literature-edu.ru > Информатика > Документы
УДК 004.023

Автоматизированная система поиска физических эффектов по запросу на естественном языке

Рыльников А.Г.

Automatic searching system of physical effects by natural language query

Rylnikov A.G.
В статье описан способ построения и архитектура системы поиска физических эффектов по запросу на естественном языке. В статье приводятся обоснование необходимости такой системы и результаты ее апробации. В системе используется разработанная автором онтология представления физических знаний, которая позволяет упростить методы анализа естественного языка
This paper describes the way of building searching natural language querying system of physical effects and the architecture this system. This paper bases requirements of this system and results of applying it. The system uses physical knowledge ontology, designed by author. This ontology allow to simplify using methods of analyses of natural language.
Ключевые слова: семантический анализ, естественный язык, физический эффект, поиск, объектно-ориентированный подход, представление знаний.

Key words: semantic analysis, natural language, physical effect, search, object-oriented approach, knowledge representing.
Физические знания представляют собой некоторую совокупность понятий и суждений о реальных физических явлениях. Ученые в первую очередь нуждаются в постоянном текущем информировании о новых и существующих экспериментальных данных в своей предметной области и смежных областях. Такими данными являются количественные зависимости между физическими величинами конкретных объектов, а также различные явления и эффекты, экспериментально наблюдаемые в физических объектах.

Для повышения эффективности работы с этими данными были разработаны различные компьютерные системы для хранения и поиска этой информации. Этой проблемой занимались: Коллер Р., Альтшуллер Г.С., Горин Ю.Г, Половинкин А.И. В качестве модели представления данных в настоящее время используется модель описания физического эффекта (ФЭ) в виде трехкомпонентной структуры. На данный момент реализовано несколько программных систем, осуществляющих работу с ФЭ. Некоторые из них находятся пока на стадии прототипа, другие были успешно внедрены, третьи распространяются на коммерческой основе. Пока ни в одной из этих систем не была реализована модель представления ФЭ в полном объеме.

Существующие автоматизированные информационно-поисковые системы дают возможность пользователю использовать один из этих запросов для поиска. Вместе с тем существует ряд проблем, осложняющих использование таких автоматизированных систем:

  • сложности восприятия задачи в терминах модели ФЭ из-за малой осведомленности о значении ее компонентов;

  • отсутствие полноты реализации модели и как следствие невозможность использовать все критерии, заложенные в модель;

  • сложность при вводе формализованного описания в поисковую систему из-за сложности описания компонентов ФЭ;

  • сложность использования полученных результатов из-за их нерелевантности;

  • сложность составления структурированного описания ФЭ.

Подобная ситуация негативно сказывалась на эффективности применения автоматизированной системы. Все эти недостатки требовали от пользователя глубокого знания теории физических эффектов и дополнительных временных затрат на преобразование своего запроса в термины системы.

Для повышения эффективности было принято решение реализовать поиск по запросу на естественном языке (ЕЯ). В Волгоградском государственном техническом университете на кафедре "САПР и ПК" была разработана система поиска физических эффектов. Для поиска использовался метод дескрипторного поиска, что заставляло формализовать запросы в виде модели физических эффектов.

Система, описанная в данной статье, создавалась с целью решения этой проблемы. Для этого в ней реализован механизм естественно-языкового поиска.

Разработанная система решает следующие задачи:

  • семантический анализ текста описания ФЭ и запроса пользователя;

  • составление индекса, для ускорения поиска;

  • проведение поиска по запросу пользователя;

  • расширение хранимой информации о физическом эффекте;

  • обновление базы знаний системы.

Система рассчитана на работу в 2 режимах: индексация описаний ФЭ и поиск по описаниям ФЭ. Индексация производится при добавлении нового описания ФЭ в базу данных или при изменении уже имеющегося описания ФЭ. Она позволяет сократить время обработки документов при поиске, за счет сохранения в индексе результатов промежуточного анализа. Этим режимом пользуется только администратор базы данных. Второй режим является основным и реализован в виде диалога с пользователем. От пользователя ожидается запрос на выборку данных. Результатом обработки запроса являются названия ФЭ, соответствующие запросу. Пользователь, посмотрев результат, принимает решение о том, следует ли продолжить поиск, уточнив запрос, или просмотреть найденные описания.

Модули системы и их взаимодействие представлены на рис 1. Основным компонентом системы является семантический анализатор. Он используется для анализа, как текста описания, так и запросов пользователя. В его основе лежит модель формализации языка, использующая объектно-ориентированный подход к построению онтологии. Применение объектного подхода представляется более наглядной, структурированной и легко формализуемой методологией для построения знаний.


Морфологический анализатор

Синтаксический анализатор

Семантический анализатор

Индексация для поиска

Модуль анализа запроса пользователя

Модуль поиска описаний ФЭ

БЗ семантической информации
БД ФЭ

Данные индексации

Пользователь

Интерпретатор внутреннего языка

Выдача результата

Работа с моделью представления семантики

Рис Модули системы поиск ФЭ по запросу на ЕЯ
В рамках данной методологии предметная область представляется в виде классов понятий, например: металл, полупроводник, длина волны, напряжение и т.п. Каждый из классов обладает рядом характерных для него свойств. Также у каждого класса есть специфическое свойство "составные части". С помощью него описывается структура понятия. Например, составными частями ФЭ являются: входное физическое воздействие, выходное физическое воздействие и физический объект. При наследовании структуры действует правило: каждый элементы структуры родительского класса переходит в наследуемый класс в неизменном виде, либо класс элемента заменяется классом, который является дочерним по отношению к классу элемента. Например, в классе "длинноволновый фотовольтаический эффект", который является дочерним по отношению к классу "физический эффект" элемент "физический объект" заменяется элементом "полупроводник", который является дочерним по отношению к классу "физический объект".

Кроме свойств, классы имеют методы. В методах описана последовательность действий, таких как: изменение свойств, создание объектов, операции проверки условий. Методы отражают такие связи области знаний, как: последовательность течения явления, "участники" явления и условия выполнения.

В ходе работы семантического анализатора он обращается за помощью к морфологическому и синтаксическому анализаторам. Морфологический анализатор построен на словаре морфологических признаков слова. Если слово отсутствует в словаре, то делается попытка определить его морфологические признаки с помощью блока морфологического анализа: "Русская морфология для программистов" (http://www.aot.ru/download/RusLemmatizer.zip). Если же и он не справляется, то пользователю предлагается определить морфологические признаки слова самостоятельно. В дальнейшем планируется дополнить морфологический анализатор методами автоматизированного определения морфологических признаков.

Синтаксический анализатор для своей работы использует общие правила русской грамматики. Правила были получены эмпирически, в процессе анализа различных описаний ФЭ. Применение правил осуществляется в несколько проходов, это позволяет применить правила ранжированные по степени значимости. Весь процесс синтаксического анализа разбит на 2 этапа: получение дерева синтаксических связей, где, в отличие от традиционного подхода, в вершине находится подлежащие, а не сказуемое; получение программы на внутреннем языке, на основе дерева.

Необходимость использования внутреннего языка продиктована стремлением получить универсальное и гибкое средство описания последовательности элементарных операций над элементами модели. К таким операциям относятся: создание объекта, установка свойства в определенное значение, выполнение метода, проверка условия, т.е. необходимый минимум функционального языка программирования. Вместе с тем, обработка такого языка гораздо более простая задача, чем работа с естественным языком. Выполнение команд этого языка происходит с помощью встроенного интерпретатора. Тело методов также описано на этом языке, поэтому при его выполнении, команды в теле метода обрабатываются тем же интерпретатором.

Достоинством модели представления данных является то, что она позволяет не проводить полный анализ предложения, а достаточно лишь определить общие грамматические связи между словами. Это позволяет существенно упростить как правила для проверки синтаксиса, так и сам алгоритм.

Индексация проводится в режиме работы администратора базы данных, после добавления новых или изменения существующих описаний ФЭ. Вначале производится семантический анализ индексируемого описания, результатом которого является некоторое пространство объектов. Затем из полученного пространства выбирается основной объект, о котором идет описание. Этот объект определяется исходя из полноты указания его свойств и упоминания методов в описании. На основе полученной информации формируется поисковый образ документа и сохраняется в базе данных индексации.

Анализом запроса пользователя занимается соответствующий модуль. Его задача определить объект, который запрашивает пользователь, а также его ключевые свойства, отмеченные в запросе.

Данный объект и значения его свойств передаются на вход модуля поиска, который на их основе формирует поисковый образ запроса и производит выборку документов из базы данных индексации на основе сравнения поискового образа запроса (ПОЗ) с индексом документа – поисковым образом документа (ПОД).

Алгоритм сравнения состоит из следующих шагов:

  1. Если объект ПОЗ совпадает с основным объектом описания ПОД (сравнение происходит с учетом иерархичности объектов, т.е. объект ПОЗ может быть таким же, как объект ПОД, или быть его «родителем»);

    1. документ включается в результат выборки (из подготовленного ПОД выбирается заголовок, адрес, релевантность определяется по степени родства объектов ПОД и ПОЗ (при совпадении максимальная)).

  2. Если объект ПОЗ совпадает с одним из часто встречаемых объектов ПОД (без учета «родства»);

    1. документ включается в результат выборки (из ПОД выбирается заголовок и адрес документа, релевантность назначается как 0.5 от максимальной).

По данному алгоритму проверяются все ПОД, имеющиеся в базе данных. Результаты представляются пользователю, отсортированные по релевантности.

Дальше пользователь либо формирует новый запрос к уже отобранным данным, либо просматривает описания найденных ФЭ, загружая их из базы данных ФЭ по ссылке.

Все программные модули написаны на языке MS Visual С# 2005 и работают под управлением Windows 2000/XP/Vista. Система управления базами данных использована бесплатная - MS SQL Express 2005.

Всего было проанализировано 1300 эффектов. Также была использована древовидная структура словарей входов/выходов и объектов ФЭ из старой версии системы.

В результате была построена онтология, содержащая порядка 1000 понятий предметной области. Также в онтологии присутствуют связи различных понятий, отражающие соотношения понятий в рамках конкретных ФЭ. Данная онтология является основой для разработанной системы.

Как было отмечено выше, построение онтологии осуществлялось на основе автоматизированного анализа описаний ФЭ, которые имелись в банке данных поиска ФЭ по запросу на ЕЯ. В рамках этой работы, был разработан алгоритм автоматического представления запроса на ЕЯ в терминах объектно-ориентированного представления физических данных и осуществления поиска.

К перспективам использования данной системы можно отнести возможность построения на ее основе обучающих систем. Отраженные в ее базе знаний зависимости позволяют строить различные наглядные представления физических знаний с разной степенью детализации, а в дополнении с алгоритмом поиска по запросу на ЕЯ, можно получить обучающую систему в виде "вопрос - ответ", с произвольными вопросами из области физических знаний.

Еще одним направлением использования описанной системы является разработка системы автоматизации начальных этапов проектирования, где будет возможно автоматизировать построение физического принципа действия, проверив ограничения и затем преобразовать его в набор готовых технических решений с определенными параметрами (выбранными элементами конструкции, материалами и т.п.).
Использованная литература

1. Кобозева И.М. Лингвистическая семантика: изд. 4-е. – М.: Книжный дом "ЛИБРОКОМ", 2009. - 352с.

2. Журнал «КомпьютерПресс» №1 2008г. (217). ООО «Компьютер пресс» с 24-25.

Добавить документ в свой блог или на сайт

Похожие:

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г icon1 Состояние проблемы поиска и анализа текстов на естественном языке 5
Концепция объектно-ориентированного представления семантических знаний и методики анализа, поиска и пополнения базы знаний физических...

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconПредставление физических знаний в форме физических эффектов для автоматизированных...
Д 063. 76. 04 в Волгоградском государственном техническом университете по адресу: 400066, Волгоград, пр. Ленина, 28

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconАвтоматизированная система планирования объёмов продаж на основе прогнозирования спроса
На тему: Автоматизированная система планирования объёмов продаж на основе прогнозирования спроса

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconКруглов В. В., Борисов В. В. Искусственные нейронные сети. Теория и практика. 2-е изд
Попов Э. В. Общение с ЭВМ на естественном языке. / Э. В. Попов. М.: Наука, 1982

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconОфициальные сайты Российской Федерации Президент России
Поиск осуществляется на основе запроса составляемого пользователем. Результатом поиска является список вузов, удовлетворяющих запросу,...

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconАвтоматизированная система регистрации на услуги одо «Автопроспектсервис»
Анализ технологии обработки информации в предметной области и определение требований к асои 4

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconЭйдос как универсальный «шаблон единого языка»
Но также на языке документооборота, языке физических, электрических, радиотехнических, конструкторских и т п схем. Иногда такие языки...

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconАвтоматизированная система управления интернет-магазином
Назначение разработки Автоматизация процесса управления содержимым интернет-магазина

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconДипломного проекта была создана автоматизированная система управления...
Тема «минимум-максимум». Все необходимые данные для расчета были взяты из базы данных. Эффективность данной системы состоит в выборе...

Автоматизированная система поиска физических эффектов по запросу на естественном языке Рыльников А. Г iconВозможности информационно-поисковой системы учебно-методических материалов scisearch
Информационно-поисковая система учебно-методических материалов scisearch это специализированная система поиска, использующая в своей...

Литература


При копировании материала укажите ссылку © 2015
контакты
literature-edu.ru
Поиск на сайте

Главная страница  Литература  Доклады  Рефераты  Курсовая работа  Лекции