Введение теоретические основы оценки банковских кредитных рисков




Скачать 0.71 Mb.
Название Введение теоретические основы оценки банковских кредитных рисков
страница 4/6
Дата публикации 14.05.2014
Размер 0.71 Mb.
Тип Реферат
literature-edu.ru > Банк > Реферат
1   2   3   4   5   6

2.2 Описание моделей и алгоритмов интеллектуального
анализа данных

В настоящее время в кредитном скоринге используются следующие методы[30], причем они могут применяться как отдельно друг от друга, так и в различных комбинациях:

  • методы статистики (дискриминантный анализ, линейная регрессия, логистическая регрессия, деревья классификации); использование статистических методов сводится к построению правила классификации, основанного на линейной скоринговой функции;

  • методы исследования операций (линейное программирование, нелинейная оптимизация);

  • методы искусственного интеллекта (нейронные сети, экспертные системы, генетические алгоритмы, методы ближайших соседей, байесовские сети, логико-вероятностные методы).

В зависимости от используемой модели система скоринга может выдавать на выходе следующие данные[34]:

  • Класс клиента. Разделение клиентов на «хороших», которым кредит выдается, и «плохих», которым отказывают в выдаче. Также могут быть определены несколько промежуточных классов, для которых, к примеру, либо кредит выдается, но на других условиях, либо кредитоспособность оценивается вручную, с использованием дополнительной информации.

  • Апостериорное распределение класса клиента. Каждому классу устанавливается вероятность, с которой данный клиент принадлежит этому классу. Выбирается класс с наибольшей вероятностью либо усредняются некоторые показатели по каждому классу. Преимущество данного варианта состоит в том, что в распределении содержится существенно больше информации.

  • Вероятность дефолта. Для принятия решения остаётся только сравнить эту вероятность с пороговым значением допустимой вероятности дефолта. Последняя определяется так, чтобы с учетом этой вероятности и процентной ставки банк в среднем не терпел убытков в случае выдачи кредита.

  • Счёт (score) - количественная оценка кредитоспособности потенциального заёмщика (чем больше счёт, тем она выше). Счёт пропорционален вероятности или шансам успешного возврата кредита, поэтому либо по счёту определяется вероятность дефолта и на этом основании принимается решение, либо, в зависимости от того, в какой промежуток попал счёт, определяется класс клиента и на основании этого - условия выдачи кредита.

Остановимся подробно на наиболее широко используемых из выше перечисленных методов.

2.2.1 Логистическая регрессия
Логистическая регрессия применяется для предсказания вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится так называемая зависимая переменная, принимающая лишь одно из двух значений — в случае скоринговой модели, значения 1 в случае «хорошего» клиента и 0 в случае «плохого», и множество независимых переменных (также называемых признаками, или регрессорами) — вещественных …, на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной. При использовании линейной регрессии фактически делается попытка связать линейной функцией вероятность дефолта со значениями ответов на вопросы линейной функцией.

Делается предположение о том, что вероятность наступления события равна: , где , и  — вектора-столбцы значений независимых переменных …(например, возраст, доход, число иждивенцев и т.д.) и параметров (коэффициентов регрессии) — вещественных чисел , соответственно, а  — так называемая логистическая функция, иногда также называемая сигмоидом или логит-функцией: . Так как принимает лишь значения 0 и 1, то вероятность второго возможного значения равна:

Для подбора параметров необходимо составить обучающую выборку, состоящую из наборов значений независимых переменных и соответствующих им значений зависимой переменной . Формально, это множество пар , где — вектор значений независимых переменных, а — соответствующее им значение . Каждая такая пара называется обучающим примером.

Обычно используется метод максимального правдоподобия, согласно которому выбираются параметры , максимизирующие значение функции правдоподобия на обучающей выборке.Максимизация функции правдоподобия эквивалентна максимизации её логарифма.Для максимизации этой функции может быть применён, например, метод градиентного спуска.

А сама задача классификации решается следующим образом: объект можно отнести к классу , если предсказанная моделью вероятность , и к классу в противном случае. Граничное значение может быть отлично от 0.5. Получающиеся при этом правила классификации являются линейными классификаторами[12].

Графически логическую регрессию можно представить как сегментацию прецедентов на основе разбиения факторного пространства n-мерной сеткой, где — количество значимых факторов (рис. 2.3).

Координаты узлов этой сетки рассчитываются на основании статистических критериев, исходя из принципа максимальности различия между вероятностями исходов кредитных сделок для смежных сегментов прецедентов. Соотношение положительных и отрицательных прецедентов в каждом сегменте используется для классификации заемщика или для расчета скоринг-баллов в скоринговой карте, а координаты узлов сетки в факторном пространстве как раз и задают интервалы значений признаков в скоринговой карте.


Рисунок 2.3– Графическое представление работы логистической регрессии
Фактор 1
(возраст)

Фактор
(доход)

Положительный прецедент Отрицательный прецедент


Логистическая регрессия является, таким образом, адекватным математическим инструментом для расчета скоринговых карт.

2.2.2 Метод нейронных сетей
Нейронные сети — математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы. Первой такой попыткой были нейронные сети Маккалока и Питтса. Впоследствии, после разработки алгоритмов обучения, получаемые модели стали использовать в практических целях: в задачах прогнозирования, для распознавания образов, в задачах управления и др.[12].

Искусственные нейронные сети представляют собой систему соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов). Такие процессоры обычно довольно просты. Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. И, тем не менее, будучи соединёнными в достаточно большую сеть с управляемым взаимодействием, такие локально простые процессоры вместе способны выполнять довольно сложные задачи.

Рисунок 2.4–Графическое представление работы нейронных сетей
Фактор 1
(возраст)

Фактор
(доход)

Положительный прецедент Отрицательный прецедент


Нейронные сети не программируются в привычном смысле этого слова, они обучаются. С математической точки зрения, обучение нейронных сетей — это многопараметрическая задача нелинейной оптимизации.Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами.В процессе обучениянейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумленных», частично искаженных данных.

Нейронные сетимогут рассматриваться в качестве метода нелинейной регрессии. Однако они чаще применяются для скоринга юридических лиц, чем для скоринга частных лиц. Нейронная сеть позволяет обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 2.4). Геометрическая форма сегментов будет существенно зависеть от внутренней структуры нейронной сети, которая может быть настроена с учетом характера взаимосвязей между учитываемыми факторами.

Хотя нейронная сеть не приводит к построению скоринговой карты в ее классическом табличном виде, аналог скоринг-баллов легко может быть получен и для этого метода. В качестве скоринг-балла может выступать, например, эмпирически рассчитанная доля положительных прецедентов в сегменте. И тогда задача расчета скоринг-балла апликанта равносильна задаче отнесения апликанта к одному из построенных сегментов, что и делается в результате применения построенных скоринговых алгоритмов к новому апликанту.

Недостатком нейронных сетей является то, что веса связей, определённые в результете обучения, не имеют никакой интерпретации в терминах кредитного риска. Следовательно, практически невозможно объяснить предсказание, полученное с помощью нейронной сети, а также провести анализ чувствительности, чтобы выделить наиболее значимые параметры.

2.2.3 Дерево принятия решений
Деревья классификации(рекурсивные алгоритмы разбиения), в отличие от предыдущих методов, не предназначены для построения скоринговой функции, они последовательно разделяют клиентов на группы по одной из переменных так, чтобы эти группы максимально возможно отличались по величине кредитного риска. Данный процесс продолжается до момента, пока оставшиеся группы не становятся настолько малы, что следующее разбиение не приведёт к статистически значимому различию в уровне риска. Далее каждому «листу» дерева приписывается определённая категория клиентов, ему может соответствовать также не определённая категория, а своя линейная регрессионная модель, что позволяет сначала грубо разделять клиентов на основные группы (рис. 2.5), а потом для каждой группы использовать регрессионную модель[30].

Рисунок 2.5–Дерево решений
Вся выборка







Плохая, нет
Хорошая





Размер кредита

Срок кредита

Сбережения

Кредитная история

Текущий счет

Хороший

Хороший

Хороший

Плохой

Плохой

Плохой
Дерево классификаций (дерево решений) является более общим алгоритмом сегментации обучающей выборки прецедентов, чем логистическая регрессия. В отличие от метода логистической регрессии в методе дерева классификации сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис. 2.6).

На первом шаге разделение выборки прецедентов на сегменты производится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура повторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положительных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) на каждом шаге процедуры построения дерева решений выбирается автоматически[12].

Рисунок2.6–Графическое представление работы дерева решений
Фактор 1
(возраст)

Фактор
(доход)

Положительный прецедент Отрицательный прецедент
2.2.4 Метод Randomforest (случайный лес)
Randomforest (англ. случайный лес) — алгоритм машинного обучения, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев. Алгоритм применяется для задач классификации, регрессии и кластеризации.

Алгоритм обучения классификатора: пусть обучающая выборка состоит из примеров, размерность пространства признаков равна , и задан параметр (в задачах классификации обычно ).

Все деревья комитета строятся независимо друг от друга по следующей процедуре:

  1. Сгенерируем случайнуюподвыборкус повторением размером из обучающей выборки. (Таким образом, некоторые примеры попадут в неё несколько раз, а примерно примеров не войдут в неё вообще)

  2. Построим решающее дерево, классифицирующее примеры данной подвыборки, причём в ходе создания очередного узла дерева будем выбирать признак, на основе которого производится разбиение, не из всех признаков, а лишь изслучайно выбранных.

Выбор наилучшего из этих признаков может осуществляться различными способами. В оригинальном коде Бреймана используется критерий Гини. В некоторых реализациях алгоритма вместо него используется критерий прироста информации. Дерево строится до полного исчерпания подвыборки.

Классификация объектов проводится путём голосования: каждое дерево комитета относит классифицируемый объект к одному из классов, и побеждает класс, за который проголосовало наибольшее число деревьев.

Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке. В случае её отсутствия, минимизируется оценка ошибки out-of-bag: доля примеров обучающей выборки, неправильно классифицируемых комитетом, если не учитывать голоса деревьев на примерах, входящих вих собственную обучающую подвыборку.

Достоинства:

  • Высокое качество получаемых моделей, сравнимое с SVM и лучшее, чем у нейронных сетей.

  • Способность эффективно обрабатывать данные с большим числом признаков и классов.

  • Нечувствительность к масштабированию (и вообще к любым монотонным преобразованиям) значений признаков.

  • Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки.

  • Существуют методы построения деревьев по данным с пропущенными значениями признаков.

  • Существует методы оценивания значимости отдельных признаков в модели.

  • Внутренняя оценка способности модели к обобщению (тест out-of-bag).

  • Высокая параллелизуемость и масштабируемость.

Недостатки:

  • Алгоритм склонен к переобучению на некоторых задачах, особенно на зашумленных задачах.

  • Большой размер получающихся моделей. Требуетсяпамяти для хранения модели, где  — число деревьев.

1   2   3   4   5   6

Похожие:

Введение теоретические основы оценки банковских кредитных рисков icon Введение 2 1 теоретические основы оценки банковских кредитных рисков 4
Анализ иструментов data mining для построения скоринговых моделей оценки кредитоспособности заемщика 26
Введение теоретические основы оценки банковских кредитных рисков icon 1 Теоретические основы оценки эффективности деятельности предприятия 7
Финансовая оценка эффективности деятельности предприятия и ее значение в рыночной экономике 7
Введение теоретические основы оценки банковских кредитных рисков icon Программа по дисциплине дс. Ф 14
Предмет, задачи, методы, теоретические основы общей и специальной дошкольной педагогики. Нормативно-правовые основы воспитания дошкольников...
Введение теоретические основы оценки банковских кредитных рисков icon Финансовая математика является основой для банковских операций и...
Формулы финансовой математики применяются в пособии для расчетов кредитных, депозитных, ипотечных операций, учетов векселей, для...
Введение теоретические основы оценки банковских кредитных рисков icon Литература
I. Историко- теоретические и практические основы использования народной педагогики в системе образования
Введение теоретические основы оценки банковских кредитных рисков icon Теоретические основы развития связной русской речи учащихся в процессе работы
Выводы по 3 разделу
Введение теоретические основы оценки банковских кредитных рисков icon Определения и сокращения 2 введение 3 1 аналитический обзор литературы 5
Математические модели, положенные в основу разрабатываемого проекта, и теоретические исследования 17
Введение теоретические основы оценки банковских кредитных рисков icon Реферат «Самообразование педагога как средство повышения его профессиональной компетентности»
Теоретические основы самообразования педагогов в рамках компетентностного подхода 4
Введение теоретические основы оценки банковских кредитных рисков icon Биомедицинская этика
Теоретические основы и этапы развития медицинской этики, деонтологии и биомедицинской этики
Введение теоретические основы оценки банковских кредитных рисков icon Теоретические основы проблемы исследования
Современное состояние проблемы правонарушений среди подростков в России
Литература


При копировании материала укажите ссылку © 2015
контакты
literature-edu.ru
Поиск на сайте

Главная страница  Литература  Доклады  Рефераты  Курсовая работа  Лекции