Введение теоретические основы оценки банковских кредитных рисков

Скачать 0.71 Mb.

Название	Введение теоретические основы оценки банковских кредитных рисков
страница	3/6
Дата публикации	14.05.2014
Размер	0.71 Mb.
Тип	Реферат

literature-edu.ru > Банк > Реферат

1 2 3 4 5 6

1.4 Постановка задачи кредитного скоринга
Далее рассмотрим более подробно процесс проверки по application-скорингу и выявим основные требования к разрабатываемой скоринговой системе.

Первымосновополагающим понятием в скоринге является модель. Скоринговая модель— математическая модель, позволяющая сопоставить данным потенциального заемщика характеристику «Хороший» или «Плохой» либо численное значение – скоринговый рейтинг, оценивающий его кредитоспособность (вероятность успешного исхода кредитной сделки). Что будет выдавать модель зависит от постановки задачи. Почти все применяемые математические модели для скоринга легко адаптируются под разные постановки задач.

Разновидностей моделей очень много (часть их них будет описана во второй главе) – они варьируются от простых скоринговых карт до почти невизуализируемых и сложно интерпретируемых с точки зрения финансовых терминов, но, тем не менее, прекрасно работающих, структур.

Скоринговая карта — это набор утвержденных банком определенных характеристик и соответствующих весовых коэффициентов (в баллах). Скоринговых карт в банках обычно несколько, поскольку они сильно зависят от кредитных продуктов. К примеру, под недвижимость необходима одна карта, а на покупку автомобиля уже совершенно другая. По мнению экспертов, можно использовать и одну общую карту, однако это неудобно для пользователей[29].

Впервые вышеописанный подход к классификации кредитов был предложен Д. Дюраном в 1941 г. Он выделил из обычно имеющихся у банка данных о заемщике факторы, позволяющие оценить степень кредитного риска, а также предложил методику оценки, состоящую в присвоении баллов за определенные значения этих факторов, суммировании баллов и сравнении полученной суммы с пороговым значением[10].

Предлагалось использовать следующие факторы и правила их учета.

возраст - 0,1 балла за каждый год свыше 20 лет (максимум - 0,30);
пол - женский (0,40), мужской (0);
срок проживания - 0,042 за каждый год в данной местности;
профессия - 0,55 - за профессию с низким риском, 0 - за профессию с высоким риском, 0,16 - другие профессии;
работа - 0,21 - предприятия в общественной отрасли, 0 - другие;
занятость - 0,059 - за каждый год работы на данном предприятии;
финансовые показатели - наличие банковского счета - 0,45, наличие недвижимости - 0,35, наличие полиса по страхованию - 0,19.

Если набранная сумма баллов не превышает 1,25, то заемщик считается неплатежеспособным, в противном случае - кредитоспособным.

В общепринятой практике кредитный скоринг определяется двумя задачами, каждая из которой имеет свои характерные аспекты и особенности.

Создание скоринговых моделей – моделей оценки кредитоспособности
Построение скоринговой инфраструктуры

Для разных банков может быть актуальна одна, и не актуальна другая задача, но, тем не менее – именно эти два направления принято рассматривать как основные в кредитном скоринге. Для каждого из направлений существуют свои инструменты и методология, при помощи которых решаются эти задачи.

В данной работе будет изучаться первая из указанных задач и лишь обзорно освещена вторая – в контексте практической части диплома.

Если определить кредитный скоринг как разработку моделей, то основные направления работы для банка можно сформулировать так:

Определение ключевой цели и типа скоринга: определение того, для чего конкретно будет использоваться скоринг – оценка заемщика, оценка динамики состояния счета или же определение оптимальной стратегии по уже «плохим» заемщикам.
Оценка, анализ и определение критериев: задание критериев оценки кредитоспособности и определение базовых параметров классификации заемщиков.
Выбор методов построения скоринговых моделей: исследование доступных методов создания скоринговых моделей на предмет максимальной адекватности имеющейся ситуации.
Оценка финансовой эффективности моделей: оценка и анализ общего влияния скоринговой модели на кредитный портфель в целом.

Постановку задачи скоринга будем формулировать следующим образом. Предположим, у нас накоплено некоторое количество информации о прошлых клиентах, где «Плохой» – тот, кто допустил просрочку в более 90 дней–дефолт (табл. 1.2).

Тогда, можно считать, что кредитная заявка описывается N-мерным вектором признаков (факторов) Х, компонентами которого являются определенным образом формализованные и, возможно, преобразованные данные, содержащиеся в анкете заемщика, иные сведения о нем, имеющиеся в банке (например, полученные из кредитной истории), а также параметры запрашиваемого кредита[10].
Таблица.2– Информация по возвратам заемщиками кредитов

Заемщики	Возраст ()	Образование()	…	Класс
Заемщик 1	30	Высшее	…	Хороший
Заемщик 2	47	Несколько высших	…	Хороший
Заемщик 3	25	Среднее	…	Хороший
Заемщик 4	50	Ученая степень	…	Хороший
Заемщик 5	29	Высшее	…	Плохой
Заемщик 6	37	Среднее	…	Хороший
…	…	…	…	…

Отметим, что при описании методов скоринга в качестве объекта, который характеризуется вектором Х, часто рассматривается заемщик. Хотя, более корректно этим объектом считать кредитную заявку, поскольку нельзя исключать возможности того, что одно и то же лицо подало несколько заявок, например, на различные кредитные продукты. Кроме того, в число признаков могут включаться параметры кредита, в частности, сумма, срок погашения, процентная ставка либо полученные с их использованием показатели, не являющиеся характеристиками заемщика.

Признаки заявки могут быть как дискретными (пол заемщика, уровень образования и т. п.), так и непрерывными (возраст заемщика, стаж работы, доходы, расходы, сумма кредита и др.). Формализация признаков состоит в том, что дискретные величины кодируются по правилам, принятым в скоринговой системе. Непрерывные величины во многих случаях преобразуются в дискретные путем задания ряда диапазонов (например, возраст 18-25 лет и т. д.), после чего также производится их кодирование. На основе некоторых исходных признаков могут вычисляться комплексные показатели, например, по заданным доходам, расходам заемщика, сумме кредита, его сроку и ставке может рассчитываться ежемесячная доля платежей по кредиту от свободных средств клиента,используемая как компонента вектора Х.

Задача скоринга является задачей классификации и состоит в том, чтобы по заданному вектору Хопределить, относится ли данная заявка к классу «Хороших» либо «Плохих»(табл.1.3).
Таблица 1.3– Информация по новому клиенту

Новый клиент

Высшее

…

???

Целевых классов может быть не два, а больше, например, классы заявок с приемлемым, умеренным и неприемлемым риском, но для простоты изложения ограничимся двумя, поскольку количество классов не имеет принципиального значения.

Перейдем непосредственно к исследованию методов построения предсказательных моделей в контексте сформулированной выше задачи.

2 АНАЛИЗ ИСТРУМЕНТОВ DATAMINING ДЛЯ ПОСТРОЕНИЯ СКОРИНГОВЫХ МОДЕЛЕЙ ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ ЗАЕМЩИКА
В данной главе будут рассмотрены основные методики построения скоринговых моделей. Большинство приемов будет проиллюстрировано на реальных примерах. Для этой цели будет использована база данных (прил. B), предоставленная кафедрой статистики Мюнхенского университета – кредитная статистика немецких банков от 1996г.

Процесс разработки скоринговой модели можно разделить на несколько уровней:

Изучение предметной области
Выборка возможных значимых факторов
Препроцессинг (подготовка данных для алгоритма)
Построение (тренировка) моделии калибровка
Применение полученной модели
Оценка эффективности и интерпретация результатов

Данные шаги можно объединить в два этапа: обработка данных и построение моделей. Рассмотрим последовательно каждый из них.

2.1 Обработка данных
Для разработки алгоритмов кредитного скоринга необходима историческая выборка данных — так называемая обучающая выборка. От качества этой выборки (на языке статистики — репрезентативности) зависит точность оценок параметров модели скоринга и соответственно эффективность (предиктивная мощность) скорингового алгоритма. Репрезентативность выборки определяется тем, насколько полно в ней присутствуют положительные и отрицательные прецеденты[31].

Следует учитывать, что качество данных и их объем оказывают намного большее влияние на итоговые показатели скоринговой системы, чем выбранная модель, поэтому именно этому пункту необходимо уделять особое внимание. К слову сказать, одной из основных проблем внедрения скоринговых систем в России являлась недостаточность и децентрализованность накопленных данных и кредитных историй.

Рассмотрим основные требования к данным для построения скоринговых моделей.

Соответствие данных постановке задачи.

При подготовке данных для скоринговой модели первое, что нужно учесть - насколько выбранные кредитные истории отвечают целям конкретной скоринговой задачи, а также что является критерием для разделения на классы «Плохой»-«Хороший». Один и тот же элемент исторической выборки может быть признан и положительным, и отрицательным для разных постановок задач. А может и вообще не подходить для включения в обучающую выборку. Например, в случае анализа кредитоспособности клиента (application-скоринг) положительными прецедентами можно считать случаи возврата кредита без опоздания, а отрицательными — все остальные случаи. Если же рассматривается задача оценки возвратности хотя бы части просроченного кредита (вариант collection-скоринга), то в качестве положительных прецедентов следует рассматривать все случаи возврата просроченных кредитов в сумме не менее этой части, а отрицательных — все остальные. Случаи же погашения кредита точно в срок вообще исключить из выборки, как не относящиеся к задаче.

От постановки задачи скоринга зависит не только способ разбивки обучающей выборки на положительные и отрицательные прецеденты, но и множество значимых факторов. Действительно, когда кредит выдан — апликант становится заемщиком, а банку доступна дополнительная информация, например о точности выполнения заемщиком текущих обязательств по уплате процентов за кредит. Кроме того, некоторые из существенных характеристик заемщика просто могут измениться за кредитный период (например, доход или семейное положение).

Во-вторых, выборка, на которой была построена скоринговая модель, должна соответствовать той выборке, на которой она будет в дальнейшем применяться (недопустимо, чтобы на основании данных по потребительским кредитам строилась скоринговая модель для ипотеки).

Размер выборки.

Как правило, чем больше накоплено информации о клиентах, тем точнее будут получатся скоринговые оценки. Однако линейной зависимости здесь нет. Это связано с тем, что информация за последнее лучше отражает современные тенденции, чем данные о кредитных историях большей давности. Более того, иногда рекомендуется даже в ущерб объему брать наиболее свежий срез данных, особенно в случае, если у банка есть объективные основания полагать, что макроэкономическая ситуация, ситуация в регионе, и пр. изменились. В таких случаях лучше откинуть даже данные по кредитам, предоставленным в прошлом[31].

Типичное число клиентских записей в базе данных:

~для «тяжелых» долгосрочных кредитов,

~для «легких» кредитов,

~для банковских карт.

Период наблюдения.

Считается, что в выборку можно включать кредитные истории старше 91 дня с момента заключения контракта. Т.е. только тех заемщиков, про которых можно утверждать, что дефолт по ним является «вызревшим» (с момента выдачи кредита прошло достаточное время для того, чтобы определить, является ли заемщик «хорошим» или «плохим»)

Фильтрация данных.

При обработке данных обязательным является указание критериев и проверок, при которых отбрасываются исходные данные с некорректными значениями. Например, важно выводить из рассмотрения случаи мошенничеств. Ведь целью скоринговой проверки является оценка возможности банкротства заемщика, а идеальные показатели данных анкет мошенников будут вносить дополнительную погрешность в модель. Ниже (рис. 2.1) представлен один из часто применяемых фильтров (Fraud – Default) для определения поддельных некорректных кредитных историй[31].

Рисунок 2.1– Временная шкала определения мошенничеств и банкротств

Fraud: просрочен на 90+

Default: просрочен на 90+

Элемент выборки признается Fraud (мошенничеством), если по кредиту не было совершено ни одного платежа, и Default (банкротом), если неплатежи по кредиту начались со второго или любого из последующих месяцев.

Помимо учета основных требований к исторической выборке, при подготовке данных приходится решать некоторое количество менее тривиальных задач. Обсудим важнейшие из них.

Случайно отсутствующие данные.

Исторические данные действительно могут быть с пропусками. Некоторые заявки могли быть заполнены не полностью, или часть информации просто не была введена в базу данных. Другой вариант — данные получены из нескольких источников с немного различающейся структурой заявки. Наконец, в анкету могли быть внесены изменения (добавлен новый вопрос), тогда в данных до этого изменения значение ответа на вопрос будет полностью отсутствовать. Во всех этих случаях отсутствие данных не представляет существенных проблем при построении модели (кроме, может быть, некоторого ухудшения качества оценки параметров).

Для борьбы со случайно отсутствующими данными данными могут применяться следующие методы.

Удаление записей с отсутствующими данными. Если отсутствующих данных относительно немного, то можно просто не учитывать те случаи, в которых есть пропуски данных.

Замена отсутствующих значений на моду. По имеющимся данным определяется распределение отсутствующего параметра, и затем во всех записях, где он отсутствует, проставляется его мода. Можно использовать как распределение одного параметра, так и условное распределение по присутствующим параметрам. Этот способ также хорошо применять, когда отсутствующих данных относительно мало.

Моделирование отсутствующих данных. Как и в предыдущем случае, определяется распределение параметра (простое или условное), но только теперь в каждом случае производится случайный эксперимент с использованием этого распределения, и на место отсутствующего значения записывается исход этого эксперимента.

Замена строки с отсутствующими данными на несколько строк с различными весами. Например, еслиP(X = 1) = 0,2,P(X = 2) = 0,8, то исходная строка, в которой отсутствовало значение X, заменяется на две строки: в первой строке X = 1, во второй — X = 2, с весами 0,2 и 0,8 соответственно.

Проблема RejectInference. Догадка об отвергнутых заемщиках.

Почти все методы скоринга предполагают, что имеются в наличиивсе значения в историческом наборе данным, используемом при построении модели. Иными словами, в таблице исторических данных не должно быть пропусков. Однако на практике это требование обычно нарушается. Выделяется два основных типа отсутствия данных, которые мы далее рассмотрим.

В процессе накопления данных по кредитным историям все заявки проходят некоторый отбор. История одобренных кредитов отслеживаются и пополняют статистику, но вот по отклоненным заявкам дальнейшая информация отсутствует. Возникает вопрос, если бы апликанту не отказали в кредите – клиент был бы хорошим или плохим (рис. 2.2.)? И можно и нужно ли данные по таким отклоненным заявкам использовать для обучения скоринговой модели.

Рисунок 2.2–Проблема RejectInference

Эта проблема в англоязычной литературе называется RejectInference[30]. Суть проблемы заключается в том, что при длительном использовании системы скоринга приходится изменять параметры модели в соответствии со вновь поступающими данными, что приводит к накоплению системной ошибки. Последствия могут быть самые разные: как недооценка риска, так и переоценка — определённые категории клиентов никогда не получат кредит, у них просто не будет возможности доказать свою кредитоспособность.

Допустим, при принятии решения о выдаче кредита к соискателям кредита применялись очень строгие критерии. Это означает, что некоторые из несостоявшихся кредитов могли бы пополнить подвыборку положительных прецедентов в обучающей выборке, если бы кредиты на самом деле были выданы. И скоринговые расчеты были бы тогда несколько другими. Но даже если бы все из отклоненных соискателей на самом деле пополнили подвыборкутолько отрицательных прецедентов, то и в этом случае с ненулевой вероятностью скоринговые расчеты отличались бы от тех, что получены по фактическим данным.

Таким образом, если в скоринговых расчетах опираться только на фактические данные по выданным кредитам (т.е. по состоявшимся заемщикам), то предиктивные оценки кредитоспособности новых соискателей будут содержать некоторую систематическую ошибку.

Смещение результатов скоринга происходит из-за того, что апликант — это еще не заемщик, и, оставляя в обучающей выборке только состоявшихся заемщиков, мы изначально ее цензурируем (т.е. искажаем). На языке статистики это означает, что новые соискатели кредита принадлежат к другой генеральной совокупности, чем та, из которой была взята обучающая выборка.

Степень этой ошибки можно оценить и частично ее снизить, если подвергнуть скорингу данные по отклоненным кредитным заявкам и включить их в повторный расчет скоринговой модели, разметив предварительно данные по отклоненным кредитам на положительные и отрицательные прецеденты, как если бы они были таковыми на самом деле. Так же можно предложить следующий подход: для клиентов, которым было отказано в кредите, произвести случайные испытания, воспользовавшись данными системы априорного скоринга, и далее использовать исход этих испытаний при построении модели скоринга.

Учет мультиколлинеарности.

Еще одна проблема, которая может возникнуть при построении большинства скоринговых моделей, это проблема мультиколиниарности: ситуации, когда две независимые переменные оказываются существенно коррелированными, что способно ухудшить предсказательную силу модели.

Обычно, для того, чтобы решить данную проблему, оставляют только одну из двух коррелированных переменных[31].

Рассмотрим эту ситуацию на примере немецкой базы данных(прил. B) и метода логистической регрессии. Модель, для построения которой были использованы следующие признаки: Amount, Savings и Numberofpreviouscredits имеет точность порядка 67% (табл.2.1), при этом модель с меньшим числом признаков показывает лучшие результаты (табл. 2.2).
Таблица 2.1– Результат применения метода логистической регрессии

w[Amount] = -0.357, w[Savings] = 0.475			Точность: 73%
	Хороший	Плохой
Предск. хороший	29	20	59.18%
Предск. плохой	61	190	75.70%
	32.22%	90.48%

Таблица 2.2– Результат применения метода логистической регрессии

w[Amount]= -0.362, w[Savings] = 0.481 w[Number of previous credits] = 0.129			Точность: 67%
	Хороший		Хороший
Предск. Хороший	27	Предск. Хороший	27
Предск. Плохой	63	Предск. Плохой	63
	30.00%		30.00%

В данном случае был показан достаточно легко обрабатываемый случай, но в реальных моделях найди подобные зависимости получается не всегда так просто и для этого приходится выполнять дополнительные расчеты.

Выделение верификационной выборки.

Выборка, на которой скоринговая модель строится (trainingdata) должна отличаться от выборки, на которой данная модель в последствии верифицируется (testdata). При этом если реальная вероятность дефолта, как функция от скорингового балла, построенная на основе данных верификационной выборки, является возрастающей функцией, то можно утверждать, что скоринговая карта нормально сегментирует «хороших» заемщиков от «плохих».

Дискретизация.

В связи с тем, что данные, с которыми приходится работать, не всегда являются числовыми, чего требуют большинство алгоритмов, приходится приводить их к таковому виду. Дискретизация – сопоставление номинальных признаков дискретным значениям (табл. 2.3)
Таблица 2.3–Дискретизация номинальных значений

Цель кредита	Дискретное значение
машина	1
мебель	2
электроника	3
бытовая техника	4
ремонт	5
образование	6
…	…

Группировка значений.

Также для некоторых алгоритмов необходимо осуществлять группировку значений, в своем роде дискретизацию признаков числовых значений (табл.2.4).
Таблица 2.4– Группировка действительных значений

Размер сбережений,тыс. руб.	Группа
< 20	1
20<= … < 50	2
50<= … < 200	3

Трансформация, добавление новых параметров.

Как правило, абсолютные значения параметров целесообразно заменить на относительные коэффициенты. Например, «среднемесячный доход» / «сумма погашения кредита», что означает долю дохода заемщика, которую он тратит на погашение кредита.

Подведем некоторые итоги. Исходных данные являются краеугольным методикDataMining. От них напрямую зависит качество построенной модели, поэтому всем описанным выше проблемам обработки данных должно уделяться повышенное внимание.

Перейдем к рассмотрению непосредственно алгоритмов построения предсказательных моделей.

1 2 3 4 5 6

	Введение 2 1 теоретические основы оценки банковских кредитных рисков 4 Анализ иструментов data mining для построения скоринговых моделей оценки кредитоспособности заемщика 26		1 Теоретические основы оценки эффективности деятельности предприятия 7 Финансовая оценка эффективности деятельности предприятия и ее значение в рыночной экономике 7
	Программа по дисциплине дс. Ф 14 Предмет, задачи, методы, теоретические основы общей и специальной дошкольной педагогики. Нормативно-правовые основы воспитания дошкольников...		Финансовая математика является основой для банковских операций и... Формулы финансовой математики применяются в пособии для расчетов кредитных, депозитных, ипотечных операций, учетов векселей, для...
	Литература I. Историко- теоретические и практические основы использования народной педагогики в системе образования		Теоретические основы развития связной русской речи учащихся в процессе работы Выводы по 3 разделу
	Определения и сокращения 2 введение 3 1 аналитический обзор литературы 5 Математические модели, положенные в основу разрабатываемого проекта, и теоретические исследования 17		Реферат «Самообразование педагога как средство повышения его профессиональной компетентности» Теоретические основы самообразования педагогов в рамках компетентностного подхода 4
	Биомедицинская этика Теоретические основы и этапы развития медицинской этики, деонтологии и биомедицинской этики		Теоретические основы проблемы исследования Современное состояние проблемы правонарушений среди подростков в России

Введение теоретические основы оценки банковских кредитных рисков

Похожие: