3. Прецеденты. Закономерность и гипотеза
Классическое направление прикладной математики - вычисление одних характеристик объекта через другие. Проблемы связаны с объемом вычислений и погрешностями от округлений чисел.
Позже появляются задачи анализа объектов, зависимости между характеристиками которых известны в общем виде (с точностью до параметров). В результате серии предположений и их проверок выбираются такие значения параметров, при которых по входным характеристикам удается вычислять выходные (или целевые) характеристики с заданной точностью. Такие задачи называются задачами идентификации моделей.
С появлением кибернетики появляются "задачи черного ящика". Они характеризуются тем, что известно некоторое множество характеристик, среди которых находятся и влияющие на целевое свойство объекта. Но имена этих информативных характеристик не известны, как не известна и математическая модель, связывающая их с целевой характеристикой. Требуется выбрать характеристики и построить модель. Источник для решения этой задачи один - таблица типа "стимул-реакция", эквивалентная таблице "объект-свойство". Выбор модели и ее параметров производится на основании выдвижения и проверки различных эмпирических гипотез (эвристик). Все это и составляет круг задач анализа данных.
Н.Г. Загоруйко отмечает, что вычислительная математика не отвечает за выбор модели, а аккуратные вычисления создают впечатление высокого качества решения проблемы в целом. Наличие риска в выборе параметров в задачах идентификации моделей лишает результат ореола строгой математической чистоты. Эвристики же, хотя и выражаются на языке математических формул, но истоки их лежат вне математики. Ситуация усложняется тем, что реальные данные затрудняют применение строгих математических методов. Таблицы данных зачастую представлены малыми выборками в пространствах большой размерности, зашумлены. Задачи анализа данных в этих условиях вынужденно основываются как на корректных вычислительных процедурах, так и на чистых эвристиках. Поэтому получаемые решения выглядят недостаточно строго обоснованными и воспринимаются настороженно. Но важность задач не позволяет откладывать их решение. И если решения подтверждаются фактами, модель принимается. «А доброжелательные и стимулирующие замечания типа "голая эвристика", "мутный поток литературы" применяются строгими критиками уже к попыткам решения других задач»
3.1. Прецеденты
В настоящее время все чаще используются методы анализа данных, основанные не на общей модели "черного ящика", а на конкретных фактах, зафиксированных в протоколах типа "вход-выход", или на прецедентах. Они основаны на простой гипотезе о монотонности пространства решений: "Похожие входные ситуации приводят к похожим выходным реакциям системы".
Т.е. для новой ситуации ищется похожая в протоколе и решение принимается на этой основе. Это правило принятия решений по прецедентам было положено в основу древнегреческой медицины и британского судопроизводства.
Факт, что применение простой гипотезы о монотонности часто бывает достаточно для получения приемлемого решения, не должен приводить к выводу о ненужности построения модели изучаемой системы вообще. Феноменологические модели отражают происходящее, но не дают ему объяснения. Наилучшей моделью является метамодель, объясняющая почему все происходит именно так, а не иначе.
Феноменологическую модель можно назвать "Что-моделью", а метамодели -"Как-и-почему-моделями".
На знаниях, представленных в виде вышеприведенных конъюнкций, решаются задачи, аналогичные решаемым на данных: обнаружение закономерностей в массиве знаний (знания о знаниях). Методы анализа знаний (АЗ) имеют много общего с АД: можно опираться как на эвристические предположения о моделях закономерностей, так и на отдельные знания (прецеденты). Успех зависит от того, насколько представителен анализируемый материал, насколько удачно выбраны предположения.
Ключевым понятием в задачах АЗ и АД является закономерность.
3.2. Закономерность и гипотеза
В основе этого понятия лежит друное понятие - гипотеза. Гипотезу h можно представить четверкой элементов h=(W,O,V,T).
W - множество (конечное или бексонечное) объектов, относительно которых высказывается данная гипотеза.
O - конечный набор средств наблюдения и измерения.
V - словарь или конечный набор символов для записи результатов в протоколе pr.
T - тест-алгоритм, анализирующий протоколы и выносящий одно из двух решений: T(protocol)=1, если данный протокол наблюдений согласуется с гипотезой, и T(protocol)=0 в противном случае.
Все эти элементы должны быть строго оговорены, иначе по поводу любого результата эксперимента можно сказать, что он не опровергает гипотезы, потому что имелось в виду нечто другое.
3.2.1. Важнейшие свойства гипотез.
Потенциальная опровержимость (Q).
Пусть N' - число всех мыслимых протоколов, способных опровергнуть гипотезу, а N - число всех возможных протоколов, тогда Q=N'/N - потенциальная опровержимость.
Пример.
Сравним три гипотезы:
1. В пассивных электрических могут встретиться любые сочетания тока I, сопротивления R и напряжения V.
2. В пассивных электрических цепях при постоянном сопротивлении R сила тока I прямо пропорциональна напряжению V.
3. В пассивных электрических цепях всегда выполняется соотношение V=IR.
Первая из гипотез бессодержательна, поскольку ее ничем нельзя опровергнуть. Вторая может быть опровергнута значительным числом экспериментов и может быть полезна. Третья крайне рискованна, поскольку может быть опровергнута бесконечным числом мыслимых ситуаций, но пока их обнаружить не удалось. А потому мы можем смело использовать ее в практических приложениях.
Потенциальная опровержимость позволяет отличать содержательные научные гипотезы от бессодержательных (псевдонаучных).
Степень подтвержденности (P)
можно определить как отношение числа протоколов, подтверждающих гипотезу, к общему числу протоколов.
Степень объясненности (R)
Степень объясненности связана с понятием полноты "Как-и-почему модели". Если оставить в стороне понятие "осмысленность" вопроса, то степень объясненности, по-видимому, можно определить отношением числа содержательных ответов к общему числу "Как-и-почему" осмысленных вопросов, относящихся к множеству W
Принцип простоты (S).
Оккам говорил: "Сущности не должны быть умножены сверх необходимости". В нашем случае это означает, что при одном и том же эмпирическом содержании следует предпочесть наиболее простую гипотезу или теорию.
Принцип красоты формулировки (B).
При совпадающих характеристиках двух гипотез следует предпочесть более изящно или красиво сформулированную. В литературе нередко можно встретить рассуждения типа: "Теоретически все верно, но этого не может быть в природе: уж очень это некрасиво". Ученому и фантасту Ивану Ефремову принадлежит афоризм (если не ошибаюсь, высказанный в "Лезвии бритвы"): Красота - это целесообразность.
Таким образом, мы имеем дело не только с эмпирическим содержанием гипотезы, но и с перечисленными выше внешними характеристиками. Т.е. мы работаем с объектом Z=(h,Q,P,R,S,B), который и называется закономерностью.
Следует отметить, что на сегодняшний день попытки поиска количественных оценок перечисленных выше свойств эмпирических гипотез особыми успехами не отмечены.
Можно различать разные стадии развития закономерностей.
Гипотезы-претенденты или сырье для дальнейшего исследования. Они могут лишь малую часть мыслимых ситуаций, быть слабо подтвержденными и неряшливо оформленными.
Законы природы. Некоторые из претендентов, выдержав все испытания, достигают совершенства. Они предельно рискованны, отлично подтверждены, природа описываемых ими явлений всесторонне объяснена. Науку они больше не интересуют и передаются в практику для уверенного использования.
Наука работает в промежутке между этими крайностями. Строго говоря, она не занимается выдвижением гипотез, а только их проверкой и развитием. Наука только в последнее время начала подступаться к исследованию фундаментальных процессов, обобщенно называемых творчеством.
Как человек выделяет часть мира, как догадывается выбрать из бесконечного числа свойств только небольшое конечное подмножество?
|