Введение теоретические основы оценки банковских кредитных рисков

Скачать 0.71 Mb.

Название	Введение теоретические основы оценки банковских кредитных рисков
страница	5/6
Дата публикации	14.05.2014
Размер	0.71 Mb.
Тип	Реферат

literature-edu.ru > Банк > Реферат

1 2 3 4 5 6

2.2.5 Метод ближайших соседей
Метод ближайших соседей (англ. k-nearestneighboralgorithm, kNN) - метод автоматической классификации объектов. Основным принципом метода ближайших соседей является то, что объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента. kNN - пример подхода «ленивого обучения», когда обучение сводится к добавлению новых случаев в базу данных. Выбирается метрика на пространстве данных, которая используется для нахождения ближайших исторических анкетных данных к данным нового клиента. Клиент классифицируется в зависимости от того, к какому классу относится большинство его соседей по выбранной метрике (рис.2.7)[12].

Рисунок 2.7–Графическое представление работы метода K-nn

Проблема выбора метрики - наиболее сложная из всех проблем. В практических задачах классификации редко встречаются такие «идеальные случаи», когда заранее известна хорошая функция расстояния . Если объекты описываются числовыми векторами, часто берут евклидову метрику. Этот выбор, как правило, ничем не обоснован — просто это первое, что приходит в голову. При этом необходимо помнить, что все признаки должны быть измерены «в одном масштабе», а лучше всего — отнормированы. В противном случае признак с наибольшими числовыми значениями будет доминировать в метрике, остальные признаки, фактически, учитываться не будут. Однако и нормировка является весьма сомнительной эвристикой, так как остаётся вопрос: «неужели все признаки одинаково значимы и должны учитываться примерно с одинаковым весом?»

Если признаков слишком много, а расстояние вычисляется как сумма отклонений по отдельным признакам, то возникает следующая проблема: суммы большого числа отклонений с большой вероятностью имеют очень близкие значения (согласно закону больших чисел). Получается, что в пространстве высокой размерности все объекты примерно одинаково далеки друг от друга; выбор ближайших соседей становится практически произвольным. Проблема решается путём отбора относительно небольшого числа информативных признаков (featuresselection). В алгоритмах вычисления оценок строится множество различных наборов признаков (т.н. опорных множеств), для каждого строится своя функция близости, затем по всем функциям близости производится голосование.

Преимущество метода - простота обучения модели: при поступлении новых данных их добавляют к существующим, а по прошествии времени старые данные удаляют для учета происходящих с течением времени изменений.

Недостаток - необходимость полного просмотра базы данных для классификации нового клиента (что может занимать довольно много времени в случае больших объёмов информации, скажем, более 10⁵-10⁶ записей). Кроме того, выбор хорошей метрики также является нетривиальной задачей, и если производить его на основе исторических данных, то теряется основное привлекательное свойство алгоритма — отсутствие необходимости предварительного анализа данных и построения модели.

2.2.6 Байесовский подход
Байесовский подход - направление, в основе которого лежит принцип максимального использования имеющейся априорной информации о процессах, ее непрерывного пересмотра и переоценки с учетом получаемых выборочных данных. Этот подход трактуется как обучение (адаптация).

Название этого направления произошло от теоремы Байеса, которая играет ключевую роль в данной концепции[31]. Она рассматривается как логическая основа пересмотра суждений в зависимости от действительно происходящих событий:

– доля «хороших» клиентов, и, соответственно, – доля «плохих» клиентов;
– вероятности того, что соответственно «хороший» и «плохой» клиент дадут ответы x.

По формуле полной вероятности можно тогда вычислить – вероятность того, что клиент даст ответы x, и затем по теореме Байеса определить

то есть вероятности того, что клиент с данными ответами будет «хорошим» или «плохим».

Применяемые для классификации методы используют такую структуру как байесовскую сеть. Строго, байесовской сетью называется пара , где – ориентированный ацикличный граф (ОАГ), а – набор условных распределений. Каждая вершина графа соответствует одной из переменных …Для каждой вершины задано условное распределение , где – множество непосредственных предшественников в графе . Байесовская сеть определяет следующее совместное распределение: .

Если известны реализовавшиеся значения одной или нескольких переменных(, причем возможен случай ), то известные алгоритмы вывода по байесовской сети позволяют оценить условные вероятностиостальных переменных[30].

Иными словами, байесовские сети позволяют представлять многомерные распределения в виде комбинации нескольких распределений более низкой размерности. При этом в ходе построения модели могут быть учтены причинно-следственные связи (благодаря чему они широко распространены в таких областях как медицинская диагностика, поиск технических неисправностей и т.п.).

Для построения классификатора, основанной на байесовской сети, необходимо вначале найти адекватную структуру графа G, а затем оценить условные распределения О. Последняя задача имеет довольно простое решение (при условии отсутствия пропусков в данных), основную же трудность представляет именно поиск оптимальной структуры[32].

Когда байесовские сети применяются к задаче классификации, граф G условно разделяется на две части: вершина C, соответствующая классу клиента, и все остальные вершины. При этом выделяются следующие основные структуры классифицирующей сети.

Рисунок 2.8–Наивная байесовская сеть
Класс заемщика

Доход

Сбережения

Возраст
Собственность

Кредитная история
Наивный байесовский классификатор (naïveBayesclassifier)

Из вершиныС проведены стрелки во все входные переменные, и других ребер у графа G нет. Обучение классификатора означает оценку условных вероятностей , а классификация производится простым применением формулы Байеса:

Подобная структура графа означает предположение об условной независимости переменных при заданном классе с (рис.2.8).

Наивный байесовский классификатор над деревом (treeaugmentednaïveBayesclassifier, TAN)

Условие условной независимости переменных переменныеослаблено до требования того, чтобы подграф G, отвечающий переменным переменные, образовывал дерево, то есть у каждой переменной в качестве непосредственного предшественника помимо классаС может быть не более одной переменной (рис. 2.9).

Рисунок 2.9–Байесовская сеть над деревом
Класс заемщика

Доход

Сбережения

Возраст
Собственность

Кредитная история
Наивный байесовский классификатор над сетью (BayesiannetworkaugmentednaïveBayesclassifier).

Здесь все переменныеимеют в качестве предшественника класс , но при этом они могут образовывать произвольную байесовскую сеть.

Произвольная байесовская сеть.

Не накладывает никаких ограничений на условную независимость .

В общем случае определение оптимальной структуры сети и вычисление маргинальных вероятностей по имеющимся наблюдениям являются NP-трудными задачами, поэтому используют приближённые алгоритмы обучения и вывода[30].

Для каждого из перечисленных типов классификаторов существуют свои алгоритмы определения структуры и вывода. В качестве приближённого метода часто используется MCMC (MarkovChainMonteCarlo), который состоит в последовательной генерации байесовских сетей, причём каждая последующая сеть генерируется марковской цепью с простым распределением вероятностей. После этого можно либо выбрать наиболее вероятную сеть из сгенерированной последовательности, либо применять усреднение по набору наиболее вероятных сетей.

Хотя в кредитном скоринге и других задачах классификации как правило рассматриваются переменные, которые не связаны друг с другом причинно, однако можно предположить существование скрытых переменных, обуславливающих ту или иную условную зависимость или независимость.

Безусловным преимуществом байесовских сетей является возможность вывода по неполным данным. Если информация о потенциальном заёмщике не является полной, то алгоритм вывода по байесовской сети вычислит вероятность дефолта, основываясь лишь на доступных данных (что эквивалентно усреднению по переменным, чьи значения неизвестны)[30].

Байесовский подход позволяет также относительно легко производить интеграцию системы апостериорного скоринга с другими используемыми моделями, в частности, с системой априорного скоринга, чтобы учесть изменения в распределении дефолтов, связанные с изменением экономической ситуации.

Обобщая все выше сказанное, отметим, что единого ответа, какая модель окажется лучше нет. Это обосновывается тем, что каждая из них нацелена на поиск определенных связей и зависимостей в имеющихся данных. Поэтому в данном случае нельзя умалить роль аналитика, задача которого как раз и состоит в выявлении наиболее подходящей модели и соответственно алгоритма построения этой модели, а так же выбора значимых факторы, связи между которыми и будут анализироваться системой.

Рассмотрим процесс построения предсказательной скоринговой модели на основе данных по невозвратам реального банка и все шаги, которые предстоит проделать аналитику.

3 ПОСТРОЕНИЕ СКОРИНГОВОЙ СИСТЕМЫ ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ ЗАЕМЩИКА ДЛЯ РОССИЙСКИХ БАНКОВ
3.1Описание инструмента RapidMiner
RapidMiner (прежнее название YALE) –одна из мощнейших на сегодняшний день комплексная система для интеллектуальногоанализа данных (Data Mining) и статистического анализа.Это среда для проведения экспериментов и решения задач машинного. Прямой конкурент таким коммерческим монстрам как, например, SAS Enterprise.

Начальная версия была разработана в 2001 году группой Искусственного Интеллекта технологического иниверситета в Дортмунде (ArtificialIntelligenceUnitofDortmundUniversityofTechnology). Начиная с 2004 года исходные коды RapidMiner -а доступны на SourceForge[27].

RapidMiner обладает очень серьезным набором алгоритмов для обработки и анализа, включая обработку больших массивов данных. RapidMinerпредоставляет более 400 операторов для всех наиболее известных методов машинного обучения, включая ввод и вывод, предварительную обработку данных и визуализацию, а так же интегрирует в себя операторы WEKA[27].

RapidMinerможет работать и как отдельное приложение, и как «интеллектуальный движок». Это открытое ПО, распространяемое под лицензией GNU AGPLv3, позволяющей встраивать её в другие приложения, в том числе, коммерческие. Программное обеспечение написано целиком на Java, поэтому работает во всех основных операционных системах. Встраивание в другие приложения осуществляется посредством Java API.

Пакет обладает достаточно оригинальной концепцией. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейса. Работа с любым набором данных представляет собой процесс древовидного типа, в который можно, как в конструкторе, добавлять различные операторы ввода/вывода, обработки, визуализации, анализа и т.п. Дерево процесса представляет собой xml-файл.

Приложениями RapidMiner-а могут быть как исследовательские (модельные), так и прикладные (реальные) задачи.

Рисунок 3.1–Схема проекта в RapidMiner
БД: 150.000

БД: 83.000

БД: 3.400

Модели

Модели

Модели

3.2Построение скоринговых моделей на тестовых данных
В исследовательской части данной работы было проведено построение скоринговых моделей на реальных данных с использованиемсреды RapidMiner. Было подготовлен 3 базы данных (рис. 3.1), на каждой из которых были натренированы и оценены предсказательные модели для оценки кредитных рисков.

Для первоначальной оценки применимости алгоритмов к конкретным данным была взята тестовая база данных. Она содержит 3400 строк произвольно выбранных из основной базы. На основании полученных на ней результатов можно будет выбрать перспективные методы, на которых и будут в дальнейшем строиться модели.

Рассмотрим по порядку процесс создания модели. Начнем с обработки данных.

Рисунок. 3.2–Оператор Replace в RapidMiner
Данные

Для начала загрузим данные в среду RapidMiner. Для этого есть специальные операторы ввода и вывода данных. Далее заметим, что некоторые значения (прил.D) параметров не определены, они отмечены буквами NA. Поэтому первым нужно выполнить оператор Replace (рис.3.2), который заменит буквы пустыми значениями. Затем применим Shuffle (рис. 3.3) и GuessTypes, которые перемешают записи и автоматически проставят типы данных для переменных, с которыми впоследствии будут работать модели.

Рисунок. 3.3–ОператорыShuffleиGuess TypesвRapidMiner

Так же ключевыми операторами являются SelectAttributeи SetRole(рис. 3.3) Первый позволяет выбрать значимые параметры, которые будут использованы при тренировки модели, а второй определяет целевой параметр, который мы хотим предсказать. Кстати говоря, изменение набора параметров в SelectAttribute(рис. 3.4) является методом оптимизации моделей и далее будет активно использоваться.

Рисунок 3.4– ОператорSelect Attribute вRapidMiner

На рис. 3.5 показано, как будут выглядеть наши данные после первичнойобработки в среде RapidMiner.

Рисунок 3.5–Просмотр данныхвRapidMiner

Теперь подготовим их к применению моделей. Для этого используем оператор Validation (рис. 3.6). Он разбивает данные из основного процесса на 2 подмножествав отношении 7:3 (splitratio=0.7), на которых будут запущены 2 подпроцесса – Trainingи Testing(рис. 3.7) соответственно.На первом модель будет обучаться, а второе подмножество используется для оценки эффективности полученной модели оператором Performance. В качестве критерия оценки выбраны точность (accuracy) и ошибка классификации (classificationerror).

Опробуем несколько моделей и выберем наиболее хорошо отражающую внутреннюю структура наших данных.

Рисунок 3.6–Оператор Validation в RapidMiner

Рисунок 3.7–Разбиение на подпроцессыв RapidMiner

Рисунок 3.8–Текстовый вывод результатов в RapidMiner

Основные показатели производительности (рис. 3.8) лучшей из полученных моделей каждого типа будут записаны в сводную таблицу (табл. 3.1) и потом проанализированы. Начнем с логистической регрессии.

Логистическая регрессия (LogisticRegression) запускалась на всех параметрах ранее выбранных в SelectAttribute.
Дерево решений (TreeDecision) тоже строилось длявсе параметров, так же дополнительно перед применением этого оператора была проведена дискретизация исходных значений (рис.3.9)
Случайный лес (RandomForest). Для данного метода первоначально была произведена замена отсутствующих значение средними по каждому параметру (рис. 3.10), а так же исключен параметр age. Случайный лес показал наилучшие результаты со следующими настройками: число деревьев – 10, глубина – не ограничена.
Метод ближайших соседей (KNN) запускался на параметрах без ageи DebtRatio, значимыми считались ближайших соседей (рис.3.11.).

Рисунок 3.10– Оператор «Случайный лес» в RapidMiner

Рисунок 3.9–Оператор дерева решений в RapidMiner

Нейронная сеть (NeuralNet) потребовала при подгонке дополнительной дискретизации, замены отсутствующих значений средними и увеличения числа тренировочных циклов с 500 до 1000 (рис.3.12.). В итоге лучше всего показали себя сеть, построенная на всех параметрах кроме age (1) и сеть с исключеннымиageNumberOfOpenCreditLinesAndLoans (2).

Рисунок 3.11–Оператор метода K-nn в RapidMiner

Рисунок 3.12–Оператор «Нейронная сеть» в RapidMiner

Байесовские методы. Для их применения понадобиться выпонить ReplaceMisingValues, а так же для улучшения предсказательной способности пришлось для всех байесовских методов исключить DebtRatio, MonthlyIncomeи NumberOfDependents. В качестве вычислительного ядра использовались алгоритмы weka:
1. Naïve (рис. 3.13)
2. TAN (рис. 3.14) – дополнительно исключили параметры ageи NumberOfTimes90DaysLate
3. HillClimber(рис. 3.15) – дополнительно исключили параметры ageи NumberOfTime30-59DaysPastDueNotWorse

Рисунок 3.13–Оператор «Наивная байесовская сеть» в RapidMiner

Рисунок 3.14–Оператор «Байесовская сеть над деревом» в RapidMiner

Рисунок 3.15–Оператор «Байесовская сеть, построенная методом HillClimber» в RapidMiner

Все показатели были занесены в сводную таблицу (табл. 3.1).
Таблица .1–Результаты работы методов DataMiningна тестовой базе данных с 3.400 записями

	Точность,%	Предотвращено невозратов		Упущено хороших клиентов		Число невозвратов	Время работы
	Точность,%		%		%
Logistic Regression	92.62	0	0	0	0	76	<1 сек
Tree Decision	92.62	0	0	0	0	76	<1 сек
Random Forest	93.20	13	17.11	7	0.73	63	<1 сек
Naïve	92.23	29	38.16	33	3,46	47	<1 сек
TAN	93.30	20	26.32	13	1,36	56	<1 сек
HillClimber	92.72	15	19.74	14	1,47	61	<1 сек
K-NN	92.91	11	14.47	8	0.84	65	<1 сек
Neural Net (1)	91.75	12	15.79	21	2.20	64	18 сек
Neural Net (2)	93.01	9	11.84	5	0.52	67	18 сек

Проанализируем полученные результаты. Во-первых, что нужно отметить, это неприменимость методов логистической регрессии и дерева решений на данных базах. Оба метода предотвращают по 0 невозвратов, поэтому пробовать их на полном наборе данных нецелесообразно.

Во-вторых, спорным является использование нейронных сетей. Несмотря на то, что они показывают неплохой результат, время работы на 150.000 записей будет слишком велико. Поэтому от применения данного методы мы тоже откажемся.

Остальные методы будут опробованы на полном наборе данных.

1 2 3 4 5 6

	Введение 2 1 теоретические основы оценки банковских кредитных рисков 4 Анализ иструментов data mining для построения скоринговых моделей оценки кредитоспособности заемщика 26		1 Теоретические основы оценки эффективности деятельности предприятия 7 Финансовая оценка эффективности деятельности предприятия и ее значение в рыночной экономике 7
	Программа по дисциплине дс. Ф 14 Предмет, задачи, методы, теоретические основы общей и специальной дошкольной педагогики. Нормативно-правовые основы воспитания дошкольников...		Финансовая математика является основой для банковских операций и... Формулы финансовой математики применяются в пособии для расчетов кредитных, депозитных, ипотечных операций, учетов векселей, для...
	Литература I. Историко- теоретические и практические основы использования народной педагогики в системе образования		Теоретические основы развития связной русской речи учащихся в процессе работы Выводы по 3 разделу
	Определения и сокращения 2 введение 3 1 аналитический обзор литературы 5 Математические модели, положенные в основу разрабатываемого проекта, и теоретические исследования 17		Реферат «Самообразование педагога как средство повышения его профессиональной компетентности» Теоретические основы самообразования педагогов в рамках компетентностного подхода 4
	Биомедицинская этика Теоретические основы и этапы развития медицинской этики, деонтологии и биомедицинской этики		Теоретические основы проблемы исследования Современное состояние проблемы правонарушений среди подростков в России

Введение теоретические основы оценки банковских кредитных рисков

Похожие: