Скачать 44.29 Kb.
|
СЛОВАРНО-АНАЛИТИЧЕСКИЙ БЛОК СИСТЕМЫ «СТИЛЕАНАЛИЗАТОР» Поддубный Василий Васильевич, Шевелев Олег Геннадьевич, Кравфова Анастасия Сергеевна, Фатыхов Айдар Анасович Томский государственный университет Проект программного комплекса «СтилеАнализатор», предназначенного для выполнения полного цикла анализа текстов, был начат в 2004 году в Томском государственном университете (ТГУ). С 2005 года разработчики факультета информатики ТГУ стали сотрудничать с группой лингвистов с филологического факультета МГУ им. Ломоносова. Главной целью исследований научного коллектива было выявление набора признаков, которые бы позволяли устойчиво различать стили текстов (Грант РФФИ 06-07-89320). В ходе совместных работ в «СтилеАнализатор» [1] были включены:
Сейчас «СтилеАнализатор» активно используется коллективом лингвистов Лаборатории общей и компьютерной лексикологии и лексикографии МГУ им. Ломоносова. Комплекс был разработан как локальное многооконное приложение (MDI), что по сравнению с имеющимися программами DOS было существенным шагом вперед. Однако позднее проявились различные ограничения. Например, «СтилеАнализатор» работает только в ОС Windows, и взаимодействует только с определенными версиями текстовых и графических редакторов. Кроме всего прочего, исследования требуют все больших объемов данных, а интерфейс системы не позволяет их обрабатывать. Возникла необходимость в параллельных вычислениях. Как следствие, в сентябре 2009 года было решено начать разработку нового поколения «СтилеАнализатора». Основная идея – на основе старой системы создать веб-приложение, работающее с текстами в базе данных. Такой подход существенно облегчает работу территориального распределенного коллектива, позволяет предоставлять отдельные функции системы заинтересованным людям. Разработка ведется на языке Java, используется СУБД MySQL и самые современные средства и технологии, такие как Spring Framework, Google Web Toolkit. Распределение прав пользователей и параллельные вычисления закладываются в систему с самого начала. В старой версии «СтилеАнализатора» пользователь задавал уже готовый набор фиксированных признаков, характеризующих, по его мнению, стиль текстового произведения того или иного жанра. В такой набор, например, могли входить служебные слова, наиболее частотные слова, биграммы и т.п. Каждый признак измерялся количественно частотой его появления в исследуемом тексте произведения. Выявленные характеристики определяли пространство признаков стилей текстов. На выбранном наборе признаков, путем различных математических методов, проходил анализ, в результате получались новые количественные данные, которые, зачастую, было сложно интерпретировать с лингвистической точки зрения. Необходимость выбора набора исходных признаков существенно ограничивала полноту анализа. В программе не хватало инструмента для анализа исходных текстов, который бы помогал осуществить этот выбор. В новой версии «СтилеАнализатора» в первую очередь разрабатывается словарно-аналитический блок, который как раз помогает проанализировать исходную информацию в текстах и выявить наиболее перспективные с точки зрения различения стилей признаки – фразы и слова. Одна из частей блока – построение матрицы частот встречаемости всех словоупотреблений или словоформ в выбранных текстах, на основе ранее наложенных пользователем фильтров и ограничений, где словоупотребления или словоформы размещаются по строкам, а тексты – по столбцам. Предполагается, что в более поздних версиях программы подобную матрицу можно будет построить не только, по словоупотреблениям и словоформам, но и по грамматическим характеристикам слов, а также другим единицам текста и их характеристикам – морфемам, биграммам, сочетаниям слов и т.д. С данной матрицей производятся различного рода операции: автоматическая сортировка строк по частотам, дисперсиям и т.п., автоматическая и ручная маркировка столбцов-текстов и строк, автоматическое присваивание информационных характеристик группам слов и т.д. Следующим логическим этапом развития словарно-аналитического блока является усовершенствование процедур корпусной лингвистики. Корпусная лингвистика направлена на создание и совершенствованием корпусов текстов, а также на их применение в качестве инструмента лингвистического исследования [2]. Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Корпус нужен для обеспечения научных исследований лексики и грамматики языка, а также языковых изменений. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). В новый «СтилеАнализатор» планируется включить удобные механизмы для создания оперативного корпуса текстов, предназначенного для конкретных исследований, и навигации по нему. Помимо расчета частотных словарей в виде вышеупомянутой матрицы предполагается, в частности, реализация нахождения пересечения и дополнения словарей групп текстов. В данный момент ведется работа над базовыми функциями работы с корпусом и реализацией словарно-аналитических методов, которые были слабо представлены в настольной версии программы. Предполагается, что первый год две системы будут использоваться сообща. Веб-версия в первую очередь воплотит в себе функциональность работы с корпусом текстов, обеспечит импорт текстов из старой системы и экспорт обратно. Старая система пока будет использоваться для работы с количественными данными. В дальнейшем ее функции постепенно будут перенесены в новый «СтилеАнализатор». Литература
|
Обоснование системы мероприятий по первичной профилактике мкб у населения... ... |
1. Аналитический раздел. 4 В настоящее время интерес к моделированию систем постоянно растет. Значительную часть систем составляют именно дискретные системы,... |
||
Прогнозно-аналитический центр Сирии, Финикии, Палестины, Древней Греции и прочие. А уже на базе религиозной системы Древней Греции была создана религиозная система... |
Тематический план операционные системы, их назначение и классификация Дается понятие операционной системы, ее назначение и классификация. Рассматриваются различные операционные системы, сравниваются... |
||
Курсовая работа по дисциплине «Динамические интеллектуальные системы» Разработка прототипа «Оператор Реактора»динамической интеллектуальной системы для диагностики состояния активной зоны реактора по... |
№1 «Повесть временных лет» Блок первый: Генезис феодализма у восточных славян и образование раннефеодального Древнерусского государства |
||
Аналитический обзор существующей методики оценки деятельности кафедр университета. Аналитический обзор существующей методики оценки деятельности кафедр университета. 11 |
Содержание от автора мое оздоровление по системе малахова неожиданные аспекты системы малахова Р. Чабровым, последователем системы Малахова, в соавторстве с Г. П. Малаховым и прокомментированное им самим. Это дополнение раскрывает... |
||
Учебно методический комплекс по дисциплине «Физикохимия наночастиц... Данный курс предназначен для студентов физического факультета и входит в блок дисциплин специализации |
Определения и сокращения 2 введение 3 1 аналитический обзор литературы 5 Математические модели, положенные в основу разрабатываемого проекта, и теоретические исследования 17 |
Поиск на сайте Главная страница Литература Доклады Рефераты Курсовая работа Лекции |