3.3.Построение скоринговых моделей на реальных данных
В данном разделе будут проведены численные эксперименты на полном объеме данных. Для этого будет выполнена таже последовательность шагов, что была описана в предыдущем разделе, но на других базах:
-
Основная база – содержит 150.000 строк, процент невозвратов
(6,6 %) близок к среднему уровню по России (прил. С).
-
Смоделированная база – содержит 83.000 строк, процент невозвратов
(12 %) близок к среднему уровню невозвратов по небольшим банкам, в частности специализирующих на кредитовании физлиц
Таблица 3.2–Результаты работы методов DataMiningна базе данных с процентом невозвратов 6.6%
|
Точность,
%
|
Предотвращено
невозратов
|
Упущено хороших клиентов
|
Число невозвратов
|
Время работы
|
|
%
|
|
%
|
|
|
Random Forest
|
93.36
|
554
|
18.54
|
552
|
1.31
|
2434
|
51 сек
|
Naïve
|
92.65
|
1282
|
42.90
|
1600
|
3.81
|
1706
|
6 сек
|
TAN
|
93.40
|
898
|
30.05
|
881
|
2.10
|
2090
|
6 сек
|
HillClimber
|
93.60
|
683
|
22.86
|
577
|
1.36
|
2305
|
6 сек
|
KNN
|
93.12
|
227
|
7.60
|
335
|
0.80
|
2761
|
4мин
31 сек
|
Таблица 3.3–Результаты работы методов DataMiningна базе данных с процентом невозвратов 12%
|
Точность,%
|
Предотвращено
невозратов
|
Упущено хороших клиентов
|
Число невозвратов
|
Время работы
|
|
%
|
|
%
|
|
|
Random Forest
|
89.73
|
824
|
31.69
|
871
|
3.91
|
1776
|
24 сек
|
Naïve
|
89.40
|
1271
|
48.88
|
1310
|
5.87
|
1329
|
3 сек
|
TAN
|
90.20
|
1074
|
41.31
|
913
|
4.09
|
1526
|
3 сек
|
HillClimber
|
90.38
|
1004
|
38.62
|
799
|
3.58
|
1596
|
3 сек
|
KNN
|
89.53
|
361
|
13.88
|
369
|
1.65
|
2239
|
1мин
24 сек
|
Теперь перед нами стоит задача выбора метода, основываясь на их предсказательной способности. Возникает вопрос, какой же из показателей выбрать в качестве критерия эффективности метода? Здесь необходимо отметить. Что наиболее очевидный ответ – точность – не является правильным. В качестве примера можно взять метод дерева решений (табл.3.1), который формально выдавал точность 92.62%, хотя в реальности предлагал выдавать кредиты всем желающим. А столь высокая цифра обуславливалась низким процентом невозвратов.
Так же не советуется в качестве критерия эффективности выбирать по отдельности число предотвращенных невозвратов или упущенных клиентов. Идея состоит в том, чтобы попытаться найти оптимальный метод, который будет наилучшем образом решать одновременно обе задачи: минимизировать число упущенных клиентов и при этом отсекать максимально большое число неблагонадежных заемщиков.
В общем виде задача формулируется так: , где - % предотвращенных невозвратов, - % упущенных хороших клиентов. Коэффициент , определяющий пропорциональное соотношение и , вычисляется для каждого банка и вида кредита отдельно в зависимости от процентной ставки по конкретному кредиту и проценту невозвратов.
Покажем вывод формулы. Пусть ставка по кредиту – %, а процент невозвратов - %, тогда применяя некоторую модель банк теряет: на невозвратах и на упущенных клиентах. Эти величины нам надо минимизировать:
Итого, .
Применим эту формулу к нашим данным. Например, будем считать, что процентная ставка по кредиту равна 16%.
-
База с 6.6% невозвратов:
Forest:
Naïve:
TAN:
HillClimber:
KNN:
-
База с 12% невозвратов:
Forest:
Naïve:
TAN:
HillClimber:
KNN:
Таким образом, наилучшей предсказательной моделью для оценки кредитоспособности потенциального заемщика для данного финансового учреждения является наивная байесовская сеть. В случае основной базы, процент невозвратов в которой составляет 6.6%, применение такой методики позволит более чем на треть снизить число проблемных кредитов. Для второй базы, специально подогнанной под уровень невозвратов в 12%, близкий к среднероссийскому уровню проблемных кредитов по мелким региональным банкам, специализирующимся на потребительском кредитовании, эффективность модели еще выше. Она позволяет почти вдвое сократить количество «плохих» кредитов.
ЗАКЛЮЧЕНИЕ
Кредитный риск,риск неуплаты заемщиком основного долга и процентов по нему, считается основным риском банка, который во многом определяет уровень эффективности работы данной организации.
При этом если такой факт как невозврат единичных кредитов не принесет ощутимого урона банку, поскольку сможет быть компенсирован резервами, отчисляемыми под ожидаемые потери по кредитным операциям, то высокий уровень невозвратов может привести к серьезным последствиям, вплоть до банкротства банка.
При проведении исследования было выявлено, что управление кредитным риском требует от банков постоянного контроля за структурой портфеля ссуд и их качественным составом. Более того, в рамках дилеммы «доходность – риск» банки вынуждены ограничивать норму прибыли, страхуя себя от излишнего риска и поэтому разнообразные методики снижения риска, позволяющие сохранять высокие объемы кредитования являются чрезвычайно актуальными как в нашей стране, так и в мировом масштабе.
Дальнейшее изучение проблемы показало, что методы и инструменты управления кредитными рисками прошли длительный процесс эволюции и современный этап развития кредитного риск-менеджмента ознаменован все более широким внедрением внутренних банковских моделей количественной оценки рисков портфельных ссуд, в том числе построенных на передовых методах интеллектуального анализа данных, которые позволяют выявлять скрытые, неочевидные взаимосвязи между данными и переносят бремя формулировки гипотез с человека на искусственный интеллект.
В ходе анализа были определены основные преимущества систем оценки кредитоспособности заемщиков, основанных на технологиях DataMining:
-
повышенная точность оценки заемщика,
-
высокая скорость процедуры оценки,
-
минимизирован человеческий фактор в принятии решения,
-
высокая адаптивность и возможность переобучения моделей,
-
снижение формируемых резервов на ожидаемые потери по кредитным обязательствам.
Во второй главе ключевое внимание было уделено непосредственно техникам построения предсказательных моделей. Во-первых, были изучены вопросы обработки данных. Как было выявлено, данные для предсказательных систем, построенных на основе DataMining,являются краеугольным камнем: от их качества и количества напрямую зависит эффективность получаемых систем. Отдельное внимание было уделено наиболее сложным проблемам данной области, таким, как «RejectInference» - проблеме отсутствия информации по отклоненным заявкам, следствием которой могут быть искажения в интерпретации моделями существующих связей, и проблеме разграничения мошенничеств и дефолтов.
Далее, были подробно рассмотрены разнообразные предсказательные модели и алгоритмы их построения. Отдельно следует подчеркнуть, что помимо классических алгоритмов в этой области, таких как логистическая регрессия, нейронные сети, деревья решений и метод ближайших соседей, в работе рассматривались современные подходы. Например, метод случайного леса, который был предложен лишь в 2001 году, и не многие даже специализированные программные продукты для DataMining имеют в своем составе реализации алгоритмов поддержки принятия решений, построенных на его основе. Еще одним заслуживающим внимания моментом было использование различных байесовских классификаторов для предсказания кредитоспособности заемщика.
Последняя глава посвящена практическому применению всех описанных средств DataMining для обработки информации по невозвратам и составлению моделей оценки потенциальных заемщиков. Для этой цели была взята база данных в 150. 000 записей реального финансового учреждения, содержащая информацию по кредитным платежам прошлых клиентов. Отметим, что процент невозвратов в данной базе приблизительно соответствует уровню «плохих» кредитов по России, это позволяет сделать вывод о схожести полученных на ней результатов с теми, что будут получены в российских банках. Кроме этого, была искусственно смоделирована вторая база с более высоким уровнем невозвратов, близким к уровню неплатежей в региональных банках с низким уровнем проверки благонадежности клиентов. Данные из обеих баз были обработаны в соответствии с техниками описанными во второй главе, и далее для них были построены предсказательные модели.
В работе была проведены сравнительная оценка эффективности различных методов на имеющихся данных, а также предложена техника выбора оптимальной модели на основе двух показателей: количестве предотвращенных невозвратов и количестве упущенных благонадежных клиентов.
Таким образом, было показано, что с помощью передовых технологий интеллектуального анализа данных возможно достаточно точно оценить кредитоспособность потенциальных заемщиков, чем в значительной мере позволит снизить кредитные риски банка.
СПИСОК ЛИТЕРАТУРЫ
-
О банках и банковской деятельности. Федеральный закон от 02 декабря 1990 годя № 395-1
-
О кредитных историях. Федеральный закон от 30.12.2004 г. № 218-ФЗ
-
О Центральном банке РФ (Банке России) от 10 июля 2002 № 86-ФЗ
-
Международная конвергенция измерения капитала и стандартов капитала (Базель II) от 11 мая 2004. Базельский комитет по банковскому надзору.
-
Кредитные риски и скоринг: сетевой журн. // URL: http://www.bankpress.ru/27550-0/
-
Костюченко Н.С. Анализ кредитных рисков. - СПб: Изд. Скифия, 2010. – 440с.
-
Управление рисками, риск-менеджмент на предприятии: сетевой журн.
// URL: http://www.risk24.ru/creditriski.htm
-
Чубукова И. А.Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006.– 328 с.
-
ПроектCreditRiskкомпанииEGAR Technology. // URL:http://www.creditrisk.ru/
-
ГараганC. Метод эмпирической скоринговой функции и его использование в кредитном процессе. //Банковское кредитование, 2011– №11. – с. 7-8.
-
Ефимова Ю.В. Внутренний рейтинг в системе управления кредитным риском // Банковское кредитование, 2010–№2. –с. 85-96.
-
Строев А. Внедрение системы кредитногоскоринга в банке // Расчеты и операционная работа в коммерческом банке, 2004 – №6. –с.28-33.
-
Шелкова Н.В Кредитные риски и пути их снижения. // Россия на пути выхода из экономического кризиса: сборник научных статей. СПб.: Институт бизнеса и права, 2010.–с.154-157.
-
Елманова Н. Введение в DataMining//КомпьютерПресс, 2003– №8.
-
Управление финансовыми рисками:сетевой журн. // URL: http://www.finrisk.ru
-
Кредитно-скоринговые системы. BaseGroupLabs.// URL: http://www.basegroup.ru/solutions/case/scoring_systems
-
Пищулин А. Кредитный скоринг. Не всё так страшно. // Факторинг Про: сетевой журн,2008. // URL: http://www.factoringpro.ru/index.php/credit-scoring-statya/408-skoring-statya-kredit
-
Викия: Интеллектуальный анализ данных.// URL: http://ru.math.wikia.com/wiki/Интеллектуальный_анализ_данных
-
Cкоринг в современном банке: задачи и их решения. // URL: http://www.scorto.ru/credit_scoring.htm
-
Data Mining в банках: перспектива или реальность?//Сайт Информационных Технологий. // URL: http://www.inftech.webservis.ru/it/database/datamining/ar5.html
-
Территориальный орган Федеральной службы государственной статистики по Ростовской области. // URL: http://www.rdstat.aaanet.ru.
-
Федеральная служба государственной статистики. // URL: http://www.gks.ru.
-
Data Mining Software Databases. // URL:http://www.dmoz.org/Computers/Software/Databases/Data_Mining
-
Смирнов Н. DataMining // Директор информационной службы, 2009– № 6. URL: http://www.osp.ru/cio/2009/06/8714243/
-
Задачи анализа данных в бизнес-аналитике (семинар К. В. Воронцова). // URL: http://www.machinelearning.ru/wiki/index.php?title=Задачи_анализа
_данных_в_бизнес-аналитике_(семинар_К._В._Воронцова)
-
Сергеева И. Учебно-методический комплекс по дисциплине «Информационные технологии» // URL: http://www.sergeeva-i.narod.ru
-
СайтRapidMiner.// URL:http://rapid-i.com/content/view/181/190/
-
Credit rating companies and their impact on the economy,2011. // URL:http://www.forexpromos.com/what-are-credit-rating-companies-and-their-impact-on-the-economy
-
Румянцев А. Скоринговые системы: наука помогает бизнесу // Финансовый Директор, 2006– №7. URL: http://gaap.ru/articles/51025/
-
Модели кредитного и поведенческогоскоринга// URL: http://masters.donntu.edu.ua/2006/kita/shepeleva/library/metod%20scoring.pdf
-
Стрижов В. Банковский кредитный скоринг: методы автоматического порождения и выбора моделей. // Материалы семинара «Задачи анализа данных в бизнес-аналитике»,17 октября 2010, Вычислительный центр РАН
-
LofflerG., PoschP.,Schone C. Bayesian Methods for Improving Credit Scoring Models // Dept. of Finance, University of Ulm, 2005
-
Павлов К., Стрижов В. Выбор многоуровневых моделей в задачах банковского кредитного скоринга. // Материалы конференции «Математические методы распознавания образов», 11-17 сентября 2011, г. Петрозаводск
-
Ильяшина Е. Внедрение кредитного скоринга: методологические и практические аспекты.// Информационные технологии в экономике, управлении и образовании: Сборник научных трудов / Под ред. проф. В.В.Трофимова. - СПб.: Изд-во СПбГУЭФ, 2010.–с.258-266.
-
Энциклопедия финансового риск-менеджмента / Под ред. А.А. Лобанова и А.В. Чугунова. – 3-е изд. М.: Альпина Бизнес Букс, 2007. – 878 с.
|