МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
МАРИЙСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Факультет информатики и вычислительной техники
Кафедра ИВС
Система тестирования
«Классификация и анализ опечаток»
Пояснительная записка
к расчетно-графической работе
по дисциплине
“Интеллектуальные системы”
Выполнили:
студенты группы ПС-41
Реутов А. С.,
Садовин И. А.
Проверила:
д.т.н. профессор
Сидоркина И. Г. ____________ ____________
(подпись) (дата)
Оценка ________
г. Йошкар-Ола
2011
Лист утверждений
КНФУ ХХХХХХ.002 ПЗ
СогласованоУтверждено
Система тестирования
«Классификация и анализ опечаток»
Пояснительная записка
Консультант: д.т.н. профессор Сидоркина И. Г.
Разработчик: студенты группы ПС-41: Реутов А. С., Садовин И. А.
г. Йошкар-Ола
2011
Аннотация
Результатом данной расчетно-графической работы является программный продукт, состоящий из двух частей: системы тестирования и оболочки для анализа результатов тестов. Система тестирования предназначена для сбора информации по опечаткам, допускаемым пользователями.
Работа включает пояснительную записку, где определена поставленная задача; инструкцию программиста, в которой изложен способ установки продукта на компьютере конечного пользователя; руководство пользователя, включающее все необходимые инструкции, для работы пользователя с программным продуктом; спецификацию.
Содержание
Введение…………………………………………………………………………...5
Спецификация……………………………………………………………………..6
Алгоритмы…………………………………………………………………………7
Практическая часть……………………………………………………………….9
Заключение……………………………………………………………………….20
Список использованной литературы…………………………………………...21
Введение
Опечатка – ошибка в печатном тексте, обычно в результате невнимательности наборщика. Чаще всего, в результате опечатки нарушается порядок букв в слове (быьт вместо быть), одна буква исчезает из слова (чловек вместо человек) или одна буква заменяется другой (чтатья вместо статья).
С помощью разработанного в данной расчетно-графической работе программного продукта возможно проведение анализа агрегированной информации по опечаткам, собранной с тестируемых. Цель анализа – выявление часто встречаемых опечаток по классам (нарушение порядка символов в слове, замена буквы и т. д.).
Спецификация
-
Программный продукт должен состоять из двух частей:
– системы тестирования для сбора информации по опечаткам;
– программной оболочки для обработки накопленной информации.
-
Система тестирования должна включать в себя процедуру регистрации тестируемого.
-
При регистрации тестируемый должен указать следующие обязательные поля: фамилия, имя, отчество, стаж работы за компьютером. Также тестируемый может указать дополнительную информацию о себе: факультет, специальность и курс. Если тестируемый не является студентом – место работы.
-
Система тестирования должна позволять загружать из файла текст, который впоследствии будет предложен тестируемому для набора.
-
Система тестирования после прохождения теста должна сохранять информацию по опечаткам в файл.
-
Программная оболочка для обработки информации должна иметь возможность загружать и обрабатывать файлы, созданные системой тестирования.
-
В программной оболочке для обработки информации должна быть возможность просмотра статистики по опечаткам, как для всех пользователей, так и для каждого пользователя в отдельности.
Алгоритмы
Для определения изменений между набираемым пользователем и исходным текстами используется модифицированный алгоритм Левенштейна. Расстояние Левенштейна между двумя строками – это минимальное количество операций вставки, удаления и замены одного символа на другой, необходимых для превращения одной строки в другую. Суть модификации алгоритма заключается в следующем: для определения действий, которые пользователь совершил над текстом (удалил или заменил символ – в данном контексте исправил опечатку), необходимо найти сами операции, из которых вычисляется расстояние между строками. Для этого на каждой итерации алгоритма, в соответствии с приоритетом, определяется последовательность операций, приводящих к вычисленному расстоянию Левенштейна.
Для определения расстояния между символами на клавиатуре были составлены таблицы с расположением клавиш для русской и английской раскладок в верхнем и нижнем регистре.
Система тестирования определяет следующие виды опечаток:
-
Лишний символ – во введенном тестируемым тексте присутствует лишний символ;
-
Пропущенный символ – во введенном тестируемым тексте отсутствует символ;
-
Замененный символ – тестируемый удалил символ и ввел вместо него другой;
-
Неправильный порядок символов – тестируемый удалил последовательность из двух символов и затем ввел ту же последовательность символов, но в обратном порядке. Также, если последовательность из двух символов введена в неверном порядке (правильный порядок определяется из исходного текста);
-
Неправильный регистр символов – введенный тестируемым символ имеет неправильный регистр.
Практическая часть
-
Программная оболочка для обработки информации по опечаткам
Программная оболочка для обработки информации написана на языке C#. Данный язык разработан для среды исполнения .NET и позволяет использовать библиотеки (среди которых есть библиотеки, предоставляющие широкий набор инструментов для построения пользовательских интерфейсов), входящие в данную программную платформу. Именно поэтому С# отлично подходит для решения поставленной задачи.
Для построения графиков и диаграмм используется стандартный компонент .NET Framework – Data Visualization. Минимальная версия среды исполнения для данного компонента и для проекта в целом – 3.5.
Для работы с базой данных используется компонент SQLite, который является сторонней разработкой и по этой причине не включенный в стандартный набор компонентов .NET.
SQLite – библиотека, реализующая функциональность реляционной базы данных. К преимуществам данной библиотеки можно отнести:
-
Практически полная реализация стандарта SQL 92;
-
Использование модели включения в программу позволяет сократить накладные расходы в сравнении с клиент-серверной моделью;
-
База данных представляет собой единственный файл, что делает её легко переносимой.
-
Возможности программной оболочки
Программная оболочка для обработки информации предоставляет следующие возможности:
1. Загрузка отчетов из файла, при этом можно указать как отдельный файл с отчетами, так и директорию;
2. Просмотр списка загруженных отчетов;
3. Удаление выбранных отчетов;
4. Просмотр общей статистики по всем отчетам;
5. Просмотр статистики по отдельным пользователям.
Информация по опечаткам разделена на следующие группы:
1. Сводная информация;
2. Распределение опечаток по типу;
3. Распределение опечаток по символам;
4. Распределение опечаток по расстоянию между клавишами;
5. Распределение опечаток по комбинациям символов.
-
Диаграмма использования системы
-
Интерфейс программной оболочки
-
Окно «Управление отчетами»
2
1
Обозначения:
-
Список загруженных отчетов;
-
Элементы управления отчетами: загрузка и удаление выбранных отчетов.
5
4
3
2
1
Обозначения:
-
Сводная статистика по отчетам;
-
Распределение опечаток по типу;
-
Распределение опечаток по символам;
-
Распределение опечаток по расстоянию между клавишами;
-
Распределение опечаток по комбинациям символов.
-
Окно «Статистика по пользователям»
6
4
3
2
1
5
Обозначения:
-
Элемент выбора тестируемого, по которому необходимо показать статистику;
-
Сводная статистика по отчетам и информация о тестируемом;
-
Распределение опечаток по типу;
-
Распределение опечаток по символам;
-
Распределение опечаток по расстоянию между клавишами;
-
Распределение опечаток по комбинациям символов.
База данных состоит из пяти таблиц:
-
User – содержит информацию о пользователях;
-
UserInfo – содержит дополнительную информацию о пользователях (необязательные для заполнения поля в процессе регистрации);
-
Report – содержит информацию о загруженных отчетах;
-
Misprint – содержит информацию об опечатках;
-
MisprintLetter – содержит информацию о символах, которые составляют опечатку.
-
Система тестирования для сбора информации по опечаткам
Система тестирования для сбора информации по опечаткам написана на языке C#. Для создания отчетов в формате XML используется стандартный компонент Xml.Linq. Минимальная версия .NET для этого компонента и всей системы тестирования – 3.5.
-
Возможности системы тестирования
Система тестирования для сбора информации по опечаткам предоставляет следующие возможности:
1. Выбор соответствующего факультета, специальности и курса, если тестируемый имеет статус «обучаемый» на этапе регистрации;
2. Возможность редактирования базы факультетов и соответствующих им специальностей;
3. Выбор исходного текста для прохождения тестирования;
4. Возможность изменения пути для сохранения отчетов о прохождении теста.
Система тестирования определяет следующие виды опечаток:
-
Лишний символ;
-
Пропущенный символ;
-
Замененный символ;
-
Неправильный порядок символов;
-
Неправильный регистр символов.
-
Интерфейс системы тестирования
3
2
1
Обозначения:
-
Поля для ввода информации о тестируемом;
-
Выбор статуса тестируемого (работает или обучается);
-
Переход к тестированию.
2
4
5
6
3
1
2
Обозначения:
-
Выбор исходного текста;
-
Просмотр информации о программе;
-
Возможность выбора пути для сохранения отчета о прохождении теста;
-
Поле исходного текста, предлагаемого тестируемому для прохождения теста;
-
Поле набора текста;
-
Завершение тестирования.
-
Диаграмма использования системы
-
Структура базы данных факультетов и специальностей
База данных по факультетам и специальностям находится в xml-файле Faculty.xml.
Пример содержимого файла базы данных:
ТХПД
ТОЛДП(б)
ТОЛДП(м)
ТД
СС
ЛД
МТМП(б)
МТМП(м)
МТНМ
ТОАМП(б)
ТОАМП(м)
-
Формат отчетов системы тестирования для сбора информации по опечаткам
Система тестирования сохраняет информацию о совершенных тестируемым опечатках в xml-файл.
Пример отчета системы тестирования:
Иванов
Иван
Иванович
1
ФИиВТ
ПС
4
п
р
е
о
Xml-файл может содержать в себе несколько отчетов. Каждый отчет имеет идентификатор для предотвращения возможности загрузки одного отчета несколько раз.
Отчет состоит из двух секций: информации о тестируемом и совершенным им опечатках.
Заключение
Разработанный программный продукт позволяет собирать и агрегировать информацию о совершаемых пользователями опечатках с целью ее последующего анализа. В системе тестирования предусмотрена возможность сохранения отчетов в файл, что позволяет обрабатывать их централизованно. При разработке были учтены все требования, представленные в спецификации.
Список литературы
-
Расстояние Левенштейна – Режим доступа:
http://ru.wikipedia.org/wiki/Расстояние_Левенштейна.
-
Троелсен Э. C# и платформа .NET 3.0. – Санкт-Петербург, 2008 г. – 1456 стр.
|