Чанышев О.Г. Информация, данные, знания
Введение. 1
1. Информация 1
2. Элементы теории измерений 13
3. Прецеденты. Закономерность и гипотеза 17
4. Таксономия. Алгоритмы класса FOREL 21
5. Распознавание образов 28
6. О выборе информативного множества признаков 34
7. Меры близости между предикатами 36
Литература 39
Введение.
Данные – это информация об объектах, представленная как в числовом, так и в символьном виде. Данные в системах искусственного интеллекта (ИИ) анализируются с целью получения закономерностей, на основании которых система может принять решение, дать совет другой системе (например человеку), которая возможно использует его опять же для принятия решения, предсказать развитие той или иной ситуации. Чтобы работать с данными, они должны быть, прежде всего, структурированы. Развитие информационных структур для представления данных в ЭВМ привело к созданию мощных Систем Управления Базами Данных (СУБД), обеспечивающих гибкие методы хранения данных и манипулирования ими.
Выявленные закономерности и другая информация о данных – метаданные – помещается в БД, превращая их в Базы Знаний (БЗ).
Изложение, начиная со второго раздела («Элементы теории измерений»), основано на книге Н.Г. Загоруйко «Прикладные методы анализа данных и знаний» [1]). Но в начале мы обсудим сам термин «информация» и познакомимся с основными понятия теории измерений.
1. Информация
Согласно Философскому энциклопедическому словарю [2], слово «информация» происходит от латинского слова informatio - ознакомление, разъяснение, представление, понятие и может обозначать:
1) сообщение, осведомление о положении дел, сведения о чем-либо, передаваемое людьми;
2) уменьшаемую, снимаемую неопределенность в результате получения сообщений;
3) сообщение, неразрывно связанное с управлением, сигналы в единстве синтаксических, семантических и прагматических характеристик;
4) передачу, отражение разнообразия в любых объектах и процессах (живой и неживой природы).
1.1. Определение количества информации по Хартли и Шеннону1
Развитие средств связи (телефон, телеграф, радио) и в начале XX в. потребовало численных методов исследования характеристик трактов передачи сообщений, отвлекаясь от смысла сообщений .
1.1.1. Формула Хартли
Понятия неопределенности и вероятности взаимно обратимы. Выбор одного или нескольких вариантов из множества уменьшает неопределенность. Пусть некоторое событие имеет m равновероятных исходов. Таким событием может быть, например, появление любого символа из алфавита, содержащего m таких символов. Количество информации, которое может быть передано при помощи такого алфавита можно измерить, определив число N возможных сообщений, которые могут быть переданы при помощи этого алфавита. Если сообщение содержит n символов (n – длина сообщения), то N=mn. Для того, чтобы удовлетворить естественным требованиям равенства информации нулю при m=1 и чтобы количество информации, получаемое от двух независимых источников было равно сумме "информаций", Хартли предложил считать количество информации, приходящееся на одно сообщение, равным логарифму общего числа возможных сообщений:
I(N) = log(N)
Если возможность появления любого символа алфавита равновероятна, то эта вероятность p = 1/m. Полагая, что N = m, получим:
I=log(N)=log(m)=log(1/p)=-log(p)
Количество информации на каждый равновероятный сигнал равно минус логарифму вероятности отдельного сигнала. Чем меньше вероятность получения сообщения, тем более оно информативно.
За единицу количество информации приняли ее количество, получаемое при выборе одного из двух взаимоисключающих вариантов. Для этого в последней формуле следует взять логарифм по основанию 2.
Тогда
I=-log2p=-log2(1/2)=log22=1 BIT (BInary uniT)
1.1.2. Определение информации Шенноном
На практике при определении количества информации необходимо учитывать как количество различных сообщений от источника, так и разную вероятность их получения.
Пусть имеем на достаточно длинном отрезке сообщения k элементарных различных сигналов в количестве
N1,N2..,Nk,
ΣNi=N.
f1, f2, ..., fk - частоты соответствующих сигналов (fi=Ni/N).
При возрастании длины отрезка сообщения каждая из частот стремится к фиксированному пределу, т.е.
lim(fi)=pi,(i = 1, 2, ..., k),
и pi можно считать вероятностью сигнала. Полное количество информации, доставаемое N сигналами, будет примерно равно (при достаточно большом N)
-N
Чтобы определить среднее количество информации, приходящееся на один сигнал, нужно это число разделить на N. В результате будет получено асимптотическое соотношение - формула Шеннона.
В случае равной вероятности сигналов, формула формула Шеннона переходит в формулу Хартли.
Поскольку не всегда возможно установить перечень состояний системы и вычислить их вероятности, а также в силу ограниченности шенноновской теории только синтаксической стороной сообщения, были выдвинуты иные концепции и толкования понятия «информация».
|