Скачать 1.33 Mb.
|
ОБЗОР АВТОМАТИЧЕСКИХ ДЕТЕКТОРОВ ПЛАГИАТА ПРОГРАММАХ В Аннотация. В данном обзоре рассматриваются различные подходы к автоматическому обнаружению плагиата в программах. Сначала рассматривается вопрос о том, что такое плагиат. Далее переходим к обсуждению как его искать, какие модели или представления программ полезны и какие алгоритмы на них используются. В конце расскажем о детекторах плагиата существующих в настоящее время и проанализируем результаты тестирования этих детекторов. Содержание 1. Введение 2
2. Модели представления программ 7
3. Алгоритмы 9
4. Обзор детекторов 27
5. Тестирование 34 5.1. Цели тестирования 34 1
Сейчас в век интенсивного развития информационных технологий интеллектуальная собственность становится все более ценной. В связи со значительным увеличением объемов этого вида собственности назрела необходимость в мощных автоматических инструментах для защиты авторских прав, для инспектирования и проверки авторства, для нахождения плагиата. Прежде чем разбираться как искать плагиат, рассматривать различные алгоритмы и подходы к поиску (и особенно автоматическому поиску) плагиата, надо разобраться что же такое плагиат, что люди понимают под этим словом, а потом логически обрисовать что же мы все таки ищем. Чтобы проанализировать эффективность поиска плагиата, необходимо ввести некоторую функцию качества для оценки результата. Задача поиска плагиата, так и понятие плагиата достаточно широко и нечетко, более того, многие в зависимости от области, в которой они работают, понимают плагиат по разному. Поэтому в данной главе мы рассмотрим вопрос о том, как понимается плагиат в различных предметных областях и дадим несколько определений.
• Плагиат - буквальное заимствование из чужого литературного произведения без указания источника [5]. • изобретателя. Состоит в незаконном использовании под своим именем чужого произведения (научного, литературного, музыкального) или изобретения, рационализаторского предложения (полностью или частично) без указания источника заимствования. [6] • жих произведений под своим именем без указания источника или использование без преобразующих творческих изменений, внесенных за-имствователем. [7] • науки, литературы или искусства. Не считается плагиатом заимствование темы или сюжета произведения либо научных идей, составляющих его содержание, без заимствования формы их выражения.[ Глоссарий, га] • использовании под своим именем чужого произведения (научного, литературного, музыкального) или изобретения, рационализаторского предложения (полностью или частично) без указания источника заимство-вания[3] . Принуждение к соавторству также рассматривается как плагиат [4]. Вышеприведенные определения являются близкими по смыслу, тем не менее, наиболее четкими представляются юридические определения, и поэтому их мы выберем за основу.
Таким образом, если не рассматривать смежные вопросы, которые мы описали выше, задача поиска плагиата сводится к задаче — определить была ли использована некоторая, чужая идея в программе. На практике некоторым образом задается функция близости (а лучше метрика) и некоторый порог, по которому можно определить насколько вероятно, что часть программного кода была украдена. 1.3. Специфика поиска плагиата в программах. Здесь мы рассмотрим некоторые моменты, связанные со спецификой поиска плагиата в программах, ответим на следующие вопросы: текста, или просто длинной строки символов? Определение. Программа - (от греч. programma - объявление, распоряжение, указ), ■■■4) Упорядоченная последовательность действий для ЭВМ, реализующая алгоритм решения некоторой задачи [6] Обычно с программой так же сопоставляют так называемый исходный код, и исполняемый код (а также объектный код, как промежуточный этап). Материалом для анализа, может являться программа в каком-то из ее представлениях. В частности существенно разные подходы используются при анализе (например, в случаях судебных разбирательств) исходного и исполняемого кода программы. Исходный код программы анализировать легче, поскольку в нем сохраняется больше характеристик свойственных конкретному автору (в основном это касается стилистических особенностей автора, которые при компиляции в основном утрачиваются). Тем не менее, и по исполняемому коду тоже можно искать, много индивидуальной информации храниться и там (используемые алгоритмы, специфические ошибки, способ организации данных) [1]. • шое подмножество всевозможных строк является программой, описание как достичь некоторого результата. соответственно можно подходить при анализе к ней как черному ящику. меняться от подхода к подходу, сильно зависит от того сразу ли была написана программа или маленькими шагами) фика данной предметной области. Это хорошо описано в [1], [2].
1.4.1. Зачем нужно рассматривать различные представления. Выше были обрисованы основные характеристики, которые учитываются при поиске плагиата. Процесс выделения основных характеристик - это введение представления, то есть из модели, с большим количеством избыточной информации, переходим в более компактную модель, где незначимая информация удалена. Выбирая разные представления, мы выбираем характеристики, которые для данного случая являются основными и оставляем их. После этого вводим функцию близости (или, обычно, метрику), чтобы определить, какие характеристики из оставшихся более, а какие менее значимы. То, какие характеристики являются основными - это вопрос подхода, вопрос понимания плагиата. В следующих главах, рассматривая, ту или иную модель или функции бли-зости(метрику), мы покажем, что в исследуемом случае является основными характеристиками.
1.6. Судебная аналитика ПО. Определения, в том виде в котором они бы- ли даны в начале этой главы, трудно применимы на практике, поэтому для анализа того, какие характеристики ПО являются действительно важными в практических случаях рассмотрим, задачи решаемой Судебной Аналитикой, она выступит в роли эксперта, оценивающего практическую значимость тео- ретических критериев. Судебная аналитика Программного обеспечения (Software Forensics) решает четыре задачи, тесно связанные с задачей поиска плагиата: • Дифференциация авторов (Author discrimination) — задача определить написаны ли куски произведений(куски кода) одним и тем же автором или разными. В случае незаконного использования чужих идей - это плагиат. • автора. determination). На картинке, рисунок показывающий что эти четыре задачи сильно связаны между собой и с судебной аналитикой, которая покрывает часть каждой из них. 1.6.1. Рассматриваемые критерии. Судебная аналитика — быстро развивающаяся область. Сейчас, компьютерные преступления караются так же жестоко, как и обычные правонарушения, поэтому надежность и качество анализа на предмет совершения правонарушения здесь очень важно. Рассмотрим критерии оценки программ судебной аналитики: На исходном коде |2|:
Также очень интересны методы для анализа вопросов авторства и наличия плагиата в исполняемом коде. Краткий обзор дан также в [2]. |
Заголовок доклада (12 pt Times New Roman, Style TitleA) Аннотация: Аннотация должна быть написана на русском языке в объем 5-8 строк. Следует избегать использования аббревиатур без предварительного... |
Должности руководителя клуба Эта декларация должна быть напечатана во всех программах матчей и хорошо видна внутри стадиона |
||
Закон РФ «Об образовании» ... |
Должности руководителя клуба Эта декларация должна быть напечатана во всех программах матчей и хорошо видна внутри стадиона |
||
Аннотация дисциплины общая композиция |
Образовательная программа Начальное общее образование 1 класс Русский язык Р. Н. Бунеев Информация об используемых образовательных программах, учебно-методических комплектах |
||
Сведения об учебных программах, реализуемых общеобразовательным учреждением. Таблица n 4 Программы для общеобразовательных учреждений. Коррекционно-развивающее обучение. Начальные классы |
1. организация учебно-методической работы Об основных образовательных программах высшего профессионального образования, реализуемых в Казанском филиале Московского государственного... |
||
«Сложность человеческих судеб» по рассказу И. А. Бунина «Холодная осень» из цикла «Темные аллеи» Творчество И. А. Бунина в школьных программах по литературе для 5-11 классов |
Аннотация Книга «Смех» Ключ к разгадке проблемы комического он видел в разработанном им учении об эстетическом |
Поиск на сайте Главная страница Литература Доклады Рефераты Курсовая работа Лекции |