Словарно-аналитический блок системы «стилеанализатор»




Скачать 44.29 Kb.
Название Словарно-аналитический блок системы «стилеанализатор»
Дата публикации 14.05.2014
Размер 44.29 Kb.
Тип Анализ
literature-edu.ru > Лекции > Анализ
СЛОВАРНО-АНАЛИТИЧЕСКИЙ БЛОК СИСТЕМЫ «СТИЛЕАНАЛИЗАТОР»

Поддубный Василий Васильевич, Шевелев Олег Геннадьевич, Кравфова Анастасия Сергеевна, Фатыхов Айдар Анасович 

Томский государственный университет

Проект программного комплекса «СтилеАнализатор», предназначенного для выполнения полного цикла анализа текстов, был начат в 2004 году в Томском государственном университете (ТГУ). С 2005 года разработчики факультета информатики ТГУ стали сотрудничать с группой лингвистов с филологического факультета МГУ им. Ломоносова. Главной целью исследований научного коллектива было выявление набора признаков, которые бы позволяли устойчиво различать стили текстов (Грант РФФИ 06-07-89320). В ходе совместных работ в «СтилеАнализатор» [1] были включены:

  1. Предварительная обработка текстов и преобразование их к количественному виду.

  2. Обработка полученных количественных данных.

  3. Анализ данных с помощью различных методов, таких как: иерархический кластерный анализ по различным мерам расстояния, деревья решений, энтропийный метод Хмелева и его модификации, нейронные сети прямого распространения, факторный линейный и нелинейный анализ и др.

  4. Вывод данных в удобном для анализа виде.

  5. Загрузка промежуточных и конечных результатов обработки.

Сейчас «СтилеАнализатор» активно используется коллективом лингвистов Лаборатории общей и компьютерной лексикологии и лексикографии МГУ им. Ломоносова.

Комплекс был разработан как локальное многооконное приложение (MDI), что по сравнению с имеющимися программами DOS было существенным шагом вперед. Однако позднее проявились различные ограничения. Например, «СтилеАнализатор» работает только в ОС Windows, и взаимодействует только с определенными версиями текстовых и графических редакторов. Кроме всего прочего, исследования требуют все больших объемов данных, а интерфейс системы не позволяет их обрабатывать. Возникла необходимость в параллельных вычислениях.

Как следствие, в сентябре 2009 года было решено начать разработку нового поколения «СтилеАнализатора». Основная идея – на основе старой системы создать веб-приложение, работающее с текстами в базе данных. Такой подход существенно облегчает работу территориального распределенного коллектива, позволяет предоставлять отдельные функции системы заинтересованным людям. Разработка ведется на языке Java, используется СУБД MySQL и самые современные средства и технологии, такие как Spring Framework, Google Web Toolkit. Распределение прав пользователей и параллельные вычисления закладываются в систему с самого начала.

В старой версии «СтилеАнализатора» пользователь задавал уже готовый набор фиксированных признаков, характеризующих, по его мнению, стиль текстового произведения того или иного жанра. В такой набор, например, могли входить служебные слова, наиболее частотные слова, биграммы и т.п. Каждый признак измерялся количественно частотой его появления в исследуемом тексте произведения. Выявленные характеристики определяли пространство признаков стилей текстов. На выбранном наборе признаков, путем различных математических методов, проходил анализ, в результате получались новые количественные данные, которые, зачастую, было сложно интерпретировать с лингвистической точки зрения. Необходимость выбора набора исходных признаков существенно ограничивала полноту анализа. В программе не хватало инструмента для анализа исходных текстов, который бы помогал осуществить этот выбор.

В новой версии «СтилеАнализатора» в первую очередь разрабатывается словарно-аналитический блок, который как раз помогает проанализировать исходную информацию в текстах и выявить наиболее перспективные с точки зрения различения стилей признаки – фразы и слова. Одна из частей блока – построение матрицы частот встречаемости всех словоупотреблений или словоформ в выбранных текстах, на основе ранее наложенных пользователем фильтров и ограничений, где словоупотребления или словоформы размещаются по строкам, а тексты – по столбцам. Предполагается, что в более поздних версиях программы подобную матрицу можно будет построить не только, по словоупотреблениям и словоформам, но и по грамматическим характеристикам слов, а также другим единицам текста и их характеристикам – морфемам, биграммам, сочетаниям слов и т.д. С данной матрицей производятся различного рода операции: автоматическая сортировка строк по частотам, дисперсиям и т.п., автоматическая и ручная маркировка столбцов-текстов и строк, автоматическое присваивание информационных характеристик группам слов и т.д.

Следующим логическим этапом развития словарно-аналитического блока является усовершенствование процедур корпусной лингвистики. Корпусная лингвистика направлена на создание и совершенствованием корпусов текстов, а также на их применение в качестве инструмента лингвистического исследования [2]. Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Корпус нужен для обеспечения научных исследований лексики и грамматики языка, а также языковых изменений. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). В новый «СтилеАнализатор» планируется включить удобные механизмы для создания оперативного корпуса текстов, предназначенного для конкретных исследований, и навигации по нему. Помимо расчета частотных словарей в виде вышеупомянутой матрицы предполагается, в частности, реализация нахождения пересечения и дополнения словарей групп текстов.

 В данный момент ведется работа над  базовыми функциями работы с корпусом и реализацией словарно-аналитических методов, которые были слабо представлены в настольной версии программы. Предполагается, что первый год две системы будут использоваться сообща. Веб-версия в первую очередь воплотит в себе функциональность работы с корпусом текстов, обеспечит импорт текстов из старой системы и экспорт обратно. Старая система пока будет использоваться для работы с количественными данными. В дальнейшем ее функции постепенно будут перенесены в новый «СтилеАнализатор». 
Литература

  1. Шевелёв О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Дис. … канд. техн. наук: 05.13.18, Томск, 2006.

  2. Яскевич А.А. Корпусная лингвистика [Электронный ресурс]. Режим доступа: http://philology.by/page/corpling, свободный.

Добавить документ в свой блог или на сайт

Похожие:

Словарно-аналитический блок системы «стилеанализатор» icon Обоснование системы мероприятий по первичной профилактике мкб у населения...
...
Словарно-аналитический блок системы «стилеанализатор» icon 1. Аналитический раздел. 4
В настоящее время интерес к моделированию систем постоянно растет. Значительную часть систем составляют именно дискретные системы,...
Словарно-аналитический блок системы «стилеанализатор» icon Прогнозно-аналитический центр
Сирии, Финикии, Палестины, Древней Греции и прочие. А уже на базе религиозной системы Древней Греции была создана религиозная система...
Словарно-аналитический блок системы «стилеанализатор» icon Тематический план операционные системы, их назначение и классификация
Дается понятие операционной системы, ее назначение и классификация. Рассматриваются различные операционные системы, сравниваются...
Словарно-аналитический блок системы «стилеанализатор» icon Курсовая работа по дисциплине «Динамические интеллектуальные системы»
Разработка прототипа «Оператор Реактора»динамической интеллектуальной системы для диагностики состояния активной зоны реактора по...
Словарно-аналитический блок системы «стилеанализатор» icon №1 «Повесть временных лет»
Блок первый: Генезис феодализма у восточных славян и образование раннефеодального Древнерусского государства
Словарно-аналитический блок системы «стилеанализатор» icon Аналитический обзор существующей методики оценки деятельности кафедр университета.
Аналитический обзор существующей методики оценки деятельности кафедр университета. 11
Словарно-аналитический блок системы «стилеанализатор» icon Содержание от автора мое оздоровление по системе малахова неожиданные аспекты системы малахова
Р. Чабровым, последователем системы Малахова, в соавторстве с Г. П. Малаховым и прокомментированное им самим. Это дополнение раскрывает...
Словарно-аналитический блок системы «стилеанализатор» icon Учебно методический комплекс по дисциплине «Физикохимия наночастиц...
Данный курс предназначен для студентов физического факультета и входит в блок дисциплин специализации
Словарно-аналитический блок системы «стилеанализатор» icon Определения и сокращения 2 введение 3 1 аналитический обзор литературы 5
Математические модели, положенные в основу разрабатываемого проекта, и теоретические исследования 17
Литература


При копировании материала укажите ссылку © 2015
контакты
literature-edu.ru
Поиск на сайте

Главная страница  Литература  Доклады  Рефераты  Курсовая работа  Лекции