1502-2050 CohenNS
1502-2050 CohenNS
1502-2050 CohenNS
RIESGOS
[ENERO 2021]
Dedicatoria
1
Índice
Dedicatoria 1
Resumen Ejecutivo 4
Introducción 5
Anexos 71
2
1.1 Parte A: Material soporte referenciado en el cuerpo del trabajo ........................................... 71
1.2 Parte B: Códigos SAS y documentación técnica .................................................................. 81
1.2.1 Modelo de tarjetas .................................................................................................. 81
1.2.2 Modelo de paquetes ................................................................................................ 87
1.2.3 Modelo de préstamos personales ............................................................................ 92
3
Resumen Ejecutivo
El objetivo principal de esta tesis es evaluar el impacto que posee la utilización de datos
alternativos en la predicción acerca de la capacidad de repago ante la toma de deuda
minorista en el sector bancario argentino. La hipótesis es que los datos alternativos
mejoran la predicción acerca del riesgo crediticio de los solicitantes.
Introducción
Los modelos de score que actualmente utilizan los bancos comerciales para evaluar el
otorgamiento de crédito se basan en la utilización de variables predictoras tradicionales,
que no incorporan la nueva información que se puede desprender a partir del
aprovechamiento de los grandes volúmenes de información que reciben los bancos. Por
otro lado, las Fintech están ganando mercado otorgando créditos en base a modelos que
incorporan información no tradicional. Esta desventaja en la que se encuentran los bancos
es la que motivó el presente trabajo, el cual constituye un abordaje al análisis de
incorporar variables alternativas a los modelos de score de individuos que utilizan los
bancos con el objetivo de mejorar el poder predictivo de los mismos.
Esto es sumamente relevante dado que una mejor estimación del comportamiento futuro
de las solicitudes de crédito que recibe un banco impacta, por un lado, en sus ganancias
y, por otro lado, en las líneas de balance dado que disminuyen las pérdidas esperadas e
inesperadas. Todo lo cual potencia el negocio bancario de dar préstamos a partir de los
depósitos captados.
Los lineamientos para las regulaciones bancarias surgen para manejar los principales
riesgos que enfrentan los bancos y son definidos por un grupo de reguladores que se
encuentran en el Bank of International Settlement (BIS) en Basilea. El primer acuerdo de
Basilea surge principalmente para mitigar el riesgo de crédito y estableció capitales
mínimos que deben mantener los bancos, los cuales dependen de su cartera crediticia.
Dentro de la gestión del riesgo de crédito, como dice Bessis (2015), la evaluación de la
calidad crediticia de los deudores es un factor crítico. Para ello, existen sistemas de score,
que son modelos estadísticos diseñados para distinguir entre buenos y malos pagadores.
Dichos modelos son fundamentales para la gestión del riesgo de crédito.
With the fast growth of the credit industry all over the world and portfolio
management of huge loans, credit scoring is regarded as a one the most important
techniques in banks, and has become a very critical tool during recent decades.
Credit scoring models are widely used by financial institutions, especially banks,
to assign credit to good applicants and to differentiate between good and bad
credit. (p. 7)
Por su parte, las Fintech están haciendo uso de nuevas variables que surgen a partir del
procesamiento de Big Data para otorgar préstamos a los sectores que quedan marginados
de recibir préstamos bancarios. A continuación, presentamos un fragmento de una
6
entrevista realizada a Marcos Galperín (CEO de MercadoLibre) donde se evidencia lo
mencionado:
—¿Y por qué ustedes sí les prestan?. —¿Qué vieron que los bancos no ven en
esas pymes?
—Nosotros vemos en tiempo real toda la historia de ventas que tuvieron en
Mercado Libre o en el uso de Mercado Pago. Tenemos sistemas para trazar
un perfil muy preciso de aquellos a los que les ofrecemos o nos piden crédito.
No necesitamos papeles ni balances. Les prestamos a gente que no tiene un Veraz
perfecto, incluso. Acá, si pasás los filtros, lo único que tenés que decir es cuánto
querés, hacés doble click y te acreditamos la plata.
—¿Y qué los lleva a ustedes a determinar que ese cliente es bueno?
—Básicamente la historia de ventas que tienen en Mercado Libre. Vemos el
volumen, el tiempo que llevan con nosotros y un montón de variables, la
reputación que les dan sus contrapartes, los que les compran, cuánto tardan en
entregar los productos… (Marcos Galperín 2017, iProfesional)
7
En el tercer capítulo, se compararán modelos de riesgo crediticio con incorporación de
variables alternativas evaluándolos en diferentes productos financieros. Para abordar este
análisis, primero se realizará un estudio estadístico de las bases input utilizadas. Luego,
se construirán un modelo de score con variables alternativas y un modelo de score
restringido para cada tipo de producto; evaluando la performance de cada uno de ellos.
Finalmente, se realizará la comparación de los resultados de performance para cada tipo
de producto.
El objetivo general de esta tesis es analizar el impacto que posee la incorporación de datos
alternativos en la predicción del riesgo de crédito. Como objetivos específicos se
considera describir el uso de los grandes volúmenes de datos en la gestión del riesgo de
crédito bancario, construir un modelo de riesgo de crédito que permita evaluar la
probabilidad de default de individuos dentro del sistema bancario argentino y comparar
modelos de riesgo crediticio con incorporación de variables alternativas evaluándolos en
diferentes productos financieros.
8
“This business is only for well-managed institutions. It’s not meant to be done home alone
without adult supervision”
Michael L. Brosnan
Los bancos comerciales son entidades financieras, dado que se dedican en sus operaciones
habituales a intermediar entre la oferta y demanda de recursos financieros; y, en
Argentina, están regulados por el BCRA.
Los bancos comerciales tienen como función principal tomar los depósitos de aquellos
que poseen dinero y otorgar préstamos a los que necesitan fondeo. Tanto los que depositan
como los que piden dinero pueden ser individuos, organizaciones o gobiernos2. La
diferencia entre el interés que recibe el banco por los préstamos que realiza y el que paga
1
Cabe notar que las empresas de seguros están excluidas del precedente listado, y esto se debe a que si bien son entidades financieras
(dado que administran los ahorros del asegurado tal que puedan afrontar un eventual suceso futuro negativo), están reguladas
específicamente por la SSN.
2
La banca minorista es la que atiende a los individuos o a pequeñas empresas y la banca mayorista es la que presta servicios a grandes
organizaciones o gobiernos.
por los depósitos que recibe se denomina spread y es su principal ganancia en la mayoría
de los países (International Monetary Fund [IMF], 2012).
Los bancos comerciales toman depósitos de corto plazo y realizan préstamos a más largo
plazo, lo cual es viable, en parte, gracias a que la mayoría de los depositantes no requieren
del dinero a corto plazo y mantienen los depósitos en el banco. Asimismo, los bancos
complementan el fondeo acudiendo a los mercados financieros: emitiendo obligaciones
negociables o bonos, prestando títulos a cambio de dinero (operación denominada repo)
o a través de la titulización (también conocida por el anglicismo securitización), que
consiste en armar un paquete con préstamos que el banco posee en libros y venderlo en
el mercado (IMF, 2012).
3
El encaje es la porción de depósitos que un banco debe mantener en reservas líquidas y, por tanto, no se puede usar para inversiones
ni préstamos. El encaje mínimo lo fija el banco central y, luego, los bancos comerciales pueden decidir encajar un porcentaje superior.
Un sistema de encaje fraccionario es aquel en el cual en encaje regulatorio es menor al 100%.
4
Como menciona Rosignulo (2017), la creación secundaria de dinero presenta filtraciones (el BCRA no puede regularla
completamente) dado que depende, por un lado, de la decisión de encaje de los bancos comerciales y, por otro lado, de la decisión de
cartera de los individuos entre los distintos tipos de depósito y el efectivo.
10
1.1.2 Riesgos financieros
A continuación, pasaremos revista a los riesgos que enfrentan las entidades financieras
exceptuando al riesgo de crédito, que será tratado en el apartado siguiente dado que
constituye el núcleo del presente trabajo.
a) Riesgo de liquidez
b) Riesgo de mercado
11
El riesgo de mercado es el riesgo de que la entidad sufra pérdidas debidas a fluctuaciones
adversas del mercado que deprecien el valor de sus posiciones; las causas de las
fluctuaciones incluyen a las tasas de interés, a los índices de acciones, al precio de
commodities y a los tipos de cambio (Bessis, 2015). El riesgo de mercado se controla
mediante límites en las exposiciones y en los nocionales con el indicador denominado
valor en riesgo (VaR)5 y con supervisiones específicas de los administradores de riesgo
(Risk Managers).
El riesgo de tasa de interés es la posibilidad que las tasas de fondeo crezcan por encima
de las tasas que reciben las entidades financieras por sus colocaciones. Según Freixas y
Rochet (2008), los bancos tienen una función de transformación de activos tal que
transforman depósitos de corto plazo en préstamos de largo plazo y el riesgo de tasa de
interés surge con la posibilidad de que las tasas de los depósitos crezcan por encima de
las tasas contractuales de los préstamos que ofrecen.
d) Riesgo operacional
e) Riesgo de titulización
5
El VaR es una medida estadística para medir el riesgo de una inversión. Indica la pérdida máxima que puede sufrir la entidad en un
horizonte temporal determinado con un nivel de confianza dado.
12
riesgo de mercado debido a la variación adversa en los precios. También, las titulizaciones
compradas poseen riesgo de concentración dependiendo de las características de los
activos subyacentes. Finalmente, pueden surgir dificultades legales que impidan que una
titulización en proceso de estructuración pueda ser vendida.
f) Riesgo de concentración
g) Riesgo reputacional
Es aquel asociado a una percepción negativa sobre la entidad financiera por parte de las
contrapartes, accionistas, inversores, tenedores de deuda, analistas de mercado que
afecten adversamente la capacidad de la entidad para continuar con sus relaciones
comerciales, para iniciar nuevos negocios o para acceder a fuentes de fondeo (BCRA,
2013). Cabe aclarar que la confianza del público y de los inversores en la entidad
dependen de su reputación, por lo tanto, mantener el prestigio es importante para
mantener el nivel de pasivos.
h) Riesgo estratégico
Es el riesgo asociado a que la entidad financiera sea utilizada por terceros para realizar
actos de lavado de dinero y/o financiamiento al terrorismo. Con la resolución 30/2017 la
Unidad de Información Financiera (UIF) estableció que las entidades financieras deben
incorporar en su proceso de autoevaluación de capital los riesgos asociados en cada una
de sus líneas de negocio a que su estructura sea utilizada por terceros para los fines
comentados y evaluar la efectividad de los controles realizados.
13
1.2 Sobre el riesgo de crédito y las principales regulaciones existentes
En este apartado, en primer lugar, repasaremos el concepto de riesgo de crédito para las
entidades financieras y los factores utilizados para medirlo. Luego, estudiaremos las
principales regulaciones que existen para administrarlo y controlarlo.
El riesgo de crédito nace a partir de las dificultades que presentan los deudores para el
cumplimiento de pago de sus obligaciones contractuales, lo cual produce una
incertidumbre sobre los flujos que esperan recibir las entidades financieras producto de
los contratos pautados. Como dice Jorion (2007, p. 25), “Credit risk is the risk of losses
owing to the fact that counterparties may be unwilling or unable to fulfill their contractual
obligations. Its effect is measured by the cost of replacing cash flows if the other party
defaults.”
Como menciona Bessis (2015), el riesgo de crédito para la entidad también puede
aumentar en aquellos casos que la calidad crediticia del deudor empeore, volviendo al
crédito otorgado a dicha contraparte más riesgoso.
Las pérdidas potenciales que puede sufrir la entidad financiera son el principal, los
intereses y los costos asociados a los esfuerzos de recuperación. Los factores para medir
las pérdidas potenciales del riesgo de crédito son tres: la probabilidad de default (PD), la
exposición al momento del default (EAD) y las pérdidas generadas a partir del default
(LGD). Estos tres componentes de riesgo se utilizan para caracterizar el estado actual que
posee un cliente o un producto frente al riesgo de crédito. De esta forma, si un deudor
sufre un empeoramiento en su capacidad de pago, se va a ver reflejado en un aumento de
la PD, por lo que migrará de estado.
Las características específicas a partir de las cuales se declara que una deuda está en
default depende de la entidad que haga la evaluación. Las agencias de rating (entidades
14
cuya función principal es otorgar una valoración de riesgo de crédito a compañías o
productos financieros) consideran que el default se produce al momento en que transcurre
un día de atraso de al menos un dólar en el cumplimiento de las obligaciones pactadas
(Bessis, 2015). Para los reguladores de las entidades financieras, el default de la cartera
crediticia se define de forma distinta.
Los acuerdos de Basilea son recomendaciones sobre regulación bancaria emitidos por el
Comité de Basilea de Supervisión Bancaria (CBSB) y tienen como objetivo conseguir
una unidad normativa para los bancos de los distintos países. Según los acuerdos de
Basilea II, el default ocurre si se da alguna o todas de las siguientes casuísticas: a) el
banco considera improbable que el deudor pague completamente sus obligaciones sin
mediar acciones por parte del banco, como la venta de garantías y b) el deudor está atraso
en más de 90 días en cualquier obligación significativa con el banco (CBSB, 2006). Según
los acuerdos de Basilea, los bancos deben utilizar esta definición de default para sus
estimaciones internas de PD, LGD y EAD:
A bank must use the reference definition of default for its internal estimations of
PD and/or LGD and EAD. However, as detailed in paragraph 454, national
supervisors will issue guidance on how the reference definition of default is to be
interpreted in their jurisdictions. Supervisors will assess individual banks’
application of the reference definition of default and its impact on capital
requirements. (CBSB, 2006, p. 213)
Esta definición está alineada con el grado igual o superior a tres de la clasificación de
deudores del BCRA, según la comunicación “A” 7156 (BCRA, 2020).
Los grandes bancos comerciales pueden calcular las PDs a partir de sus propias bases de
datos con información histórica, dado que poseen grandes volúmenes de clientes para
15
realizar el cálculo; de esta forma, pueden contar los defaults observados y generar
frecuencias de default para distintos momentos del tiempo (Bessis, 2015).
La EAD es una estimación de la exposición (saldo de deuda) que tendrá el deudor con la
entidad al momento del default, la cual es desconocida hasta que efectivamente se
produce el default, dado que depende de factores inciertos.
Por otro lado, el banco ofrece productos que poseen saldos fuera de balance, como las
tarjetas de crédito o los adelantos de cuenta corriente. El saldo dentro de balance es el
saldo efectivamente consumido por el cliente y el saldo fuera de balance es la diferencia
entre el total de crédito otorgado por la entidad financiera y el consumo del cliente; ambos
saldos son inciertos. Dado que se espera que los clientes aumenten el consumo de la línea
de crédito en situaciones de dificultad financiera, es que se estima un Credit Conversion
Factor (CCF) para estimar el saldo al momento del default de los productos con saldos
fuera de balance (CBSB, 2006).
Cuando un deudor entra en default con una exposición determinada, la entidad financiera
incurre en costos para recuperar el saldo adeudado. Estos costos son parte de las pérdidas
generadas a partir del default y forman parte de la pérdida total. Asimismo, gracias a los
esfuerzos de recuperación y las garantías que posea el crédito otorgado, se generan flujos
positivos para la entidad financiera a lo largo de los meses posteriores al evento de default.
La tasa de recupero es el porcentaje que representa el valor actual de los recobros menos
los gastos sobre el total de la deuda al momento del default; la LGD es el complemento
de la tasa de recupero.
La posibilidad de generar recobros a partir de las garantías que poseen los créditos va a
depender de la liquidez de las garantías y de las condiciones de mercado. La
incertidumbre acerca del valor al cual se venderán las garantías al momento de ejecutarlas
16
es incierto, por lo que el valor reconocido de las mismas por la entidad financiera es menor
a su precio. Esta diferencia se denomina haircut y se utiliza como amortiguador de las
fluctuaciones futuras (Bessis, 2015).
Los riesgos financieros deben ser regulados y una de las formas de hacerlo es a través de
la implementación de regulaciones sobre el capital. Estas regulaciones tienen el objetivo
de aumentar la resiliencia de los bancos, tal que el capital sea la última línea de defensa
para evitar el colapso en situaciones de stress. En 1988 se establece el primer acuerdo de
Basilea que tiene como objetivo definir el capital regulatorio, que es el mínimo nivel de
capital que deben mantener los bancos para hacer frente a pérdidas inesperadas. En este
acuerdo se regula principalmente el riesgo de crédito.
6
Cabe aclarar que, según lo establecido por BIS (2006), solo los bancos que poseen sistemas internos de rating pueden realizar
estimaciones propias de los factores de riesgo de crédito. El resto de las entidades debe seguir un enfoque estandarizado, utilizando
ponderadores fijados por el supervisor.
17
En este segundo acuerdo, se estableció también que los bancos deben presentar un
informe de autoevaluación de capital (IAC) en el que realicen su propia evaluación
respecto al capital necesario para cubrir las pérdidas inesperadas teniendo en cuenta todos
los riesgos que enfrentan; este capital se denomina capital económico. Para el cálculo del
capital económico, Basilea permite el uso de modelos propios de valuación de riesgo y
establece que debe ser comparado con el capital regulatorio a fin de aumentarlo en caso
de ser necesario. Como se establece en el acuerdo de Basilea: “The approach used must
be based on the firm’s internal economic capital approach, be well-documented and be
subject to independent validation (BIS, 2006, p. 262).”7 Sin embargo, como menciona
Hull (2015), los bancos intentan mantener el capital económico por debajo del capital
regulatorio para no tener que aumentarlo.
7
BIS (2006) establece que aquellos bancos que sigan el enfoque estandarizado (utilizando las estimaciones de PD, LGD y EAD
establecidas por el regulador para el cálculo del capital regulatorio), deben utilizar sus estimaciones propias de parámetros en la
evaluación del capital económico.
18
Fuente: Elaboración propia
Según Bessis (2015), el nivel de confianza para determinar el capital económico final es
un parámetro clave para el banco dado que, si el capital económico está definido con una
confianza del 99%, en promedio, en el 1% de los casos las pérdidas inesperadas serán
superiores al capital, volviendo al banco insolvente. Por lo tanto, el complemento del
nivel de confianza es la probabilidad de default del banco, la cual tiene una incidencia
directa en el rating que le darán al banco las calificadoras de riesgo y, por ende, en su
costo de financiamiento.
Si bien las regulaciones sobre el capital permiten administrar las pérdidas inesperadas,
también existen regulaciones sobre las provisiones contables para administrar la pérdida
crediticia esperada.
Para obtener la pérdida esperada total por riesgo de crédito, se suman las pérdidas
esperadas de cada préstamo. Basilea establece que para cubrir las pérdidas esperadas los
bancos deben realizar provisiones contables que estén alineadas a las Normas
19
Internacionales de Información Financiera (NIIF). Argentina, al ser un miembro del G-
20 adopta las normativas de Basilea y son adaptadas localmente a través de los
comunicados del BCRA.
While in the past lenders looked at only a few metrics like FICO score and
income, companies have started looking at an individual’s entire life and even
their vast digital footprint to determine how likely they are to default. This is
referred to as “alternative data” about potential borrowers. The idea is that extra
20
data provides not just more insight into people with established FICO scores, but
that it can be particularly useful for determining the creditworthiness of people
without a traditional credit history. (Emerj, 2020)
Los modelos tradicionales de score crediticio que construyen los bureaus de crédito para
el sistema financiero dependen principalmente de las siguientes variables: cantidad y tipo
de cuentas de crédito que posee el individuo, longitud del historial crediticio, historial de
pagos de los créditos tomados (en productos como: tarjetas de crédito, préstamos
personales, préstamos prendarios, préstamos hipotecarios) y el porcentaje de crédito
utilizado respecto al crédito otorgado (Equifax, s.f.)
Las variables alternativas que pueden ser utilizadas por los modelos de score comprenden,
y no se limitan, a las siguientes:
Registros gubernamentales
Hábitos de consumo
Por ejemplo, el bureau de crédito FICO (creador de los scores con insignia FICO, los
cuales son utilizados en la mayoría de las decisiones de crédito en Estados Unidos)
incorporó información de pagos de alquileres lanzando en 2014 el modelo de score
denominado FICO9. Asimismo, actualmente están analizando incorporar datos
provenientes del uso de las cuentas a la vista y observan que les permite puntuar a 15
millones de consumidores estadounidenses que no tienen información suficiente para ser
puntuados por su modelo de score tradicional (FICO, 2019).
21
También, las empresas FICO, Equifax y LexisNexis desarrollaron en conjunto un modelo
de score denominado “FICO Score XD”8 para la población estadounidense con poco o
nulo historial crediticio en el sistema financiero que combina información tradicional con
información de pagos telefónicos (fijos y celulares), de pagos de cable y de otros
servicios, permitiendo valuar el riesgo crediticio de más del 70% de las solicitudes de
crédito que quedaban sin ser puntuadas por el modelo de score tradicional (FICO, 2019).
Cabe aclarar, que no toda la información alternativa disponible resulta valiosa para ser
incluida en los modelos de score. Según FICO (2015), la información debe contar con
seis requisitos para que pueda formar parte de sus modelos de score: cumplir con los
estándares regulatorios, tener suficiente profundidad histórica, cubrir la mayor cantidad
de población posible, ser precisa, contar con poder predictivo y cumplir con el requisito
de ortogonalidad (agregar valor por sobre la información contenida en el resto de las
variables explicativas).
8
Se lanzó una primera versión en 2016 denominada FICO Score XD y una versión mejorada en 2018 que cubre un mayor porcentaje
de población.
22
Experian (uno de los principales bureaus de crédito de Estados Unidos) para el mercado
estadounidense: “Many fintech and other nonbank lenders routinely use an array of
alternative data; banks and credit unions are incorporating limited forms of alternative
data into their processes at a slower pace” (Experian, 2018).
23
“Don´t worry if you borrow – worry if you lend.”
Proverbio ruso
Los modelos de score son utilizados para estimar la calidad crediticia de los deudores
minoristas. Son modelos estadísticos que, en función de las características que posee cada
individuo, le asignan un número con el objetivo de distinguir entre buenos y malos
pagadores. Cuanto mejor gestionado esté el riesgo de crédito y, por ende, más precisa sea
la estimación del riesgo de los créditos otorgados, menor será la morosidad de la cartera,
impactando en las ganancias del banco.
Cabe aclarar que para estimar el riesgo de crédito de las empresas e instituciones se
utilizan escalas de rating, las cuales ordenan a los deudores según su calidad crediticia.
Estos ratings se construyen en función de datos cuantitativos, de datos cualitativos y del
juicio experto del analista.
Los modelos de score son utilizados en distintos procesos de gestión dentro de los bancos,
en mi opinión, los más relevantes son los siguientes:
En este trabajo se analizarán los modelos de score de admisión, los cuales tienen
incidencia en las nuevas solicitudes de crédito que reciben los bancos.
Es importante destacar que, según el informe de inclusión financiera del BCRA (2020),
el 37,3% de los adultos contaban a septiembre 2019 con al menos un financiamiento
otorgado por entidades financieras, cifra que se eleva al 48,8% considerando al sistema
financiero ampliado (que incluye a los proveedores de crédito no considerados entidades
financieras por el BCRA, como los créditos de las Fintech o las financiaciones de
empresas comerciales). En dicho informe, se observa que el porcentaje de adultos
financiados no tuvo variaciones significativas en los últimos tres años, pero sí varía por
provincia9.
9
Ver gráficos A.1 y A.2 del anexo.
25
%Saldo Moroso de cartera asimilable
Entidad financiera
a consumo para diciembre 2019
BCO NACION 4.0%
BCO GALICIA 6.8%
BCO SANTANDER 5.2%
BANCO PROVINCIA BS AS 4.8%
MACRO SA 5.8%
BANCO BBVA 3.5%
CIUDAD DE BS AS 6.0%
HSBC BANK 9.3%
ICBC 10.5%
BO PATAGONIA 6.3%
Total sistema financiero 5.6%
Los modelos de score tienen el objetivo de discriminar entre buenos y malos pagadores
dentro de una población de individuos. La función de score es una combinación de las
distintas variables explicativas y tiene como output el score estimado para cada cliente.
Los coeficientes asociados a cada variable explicativa son el aporte que cada atributo le
proporciona al score estimado.
En mi opinión, para construir un modelo de score hay que identificar, en primer lugar, si
es un modelo de admisión o de comportamiento; en segundo lugar, se debe identificar el
evento a explicar y la ventana temporal de observación y comportamiento; en tercer lugar,
se debe definir la técnica estadística con la que se arma el modelo; luego, se debe contar
con una base de datos y revisar la integridad de la información; a continuación, se deben
seleccionar las variables explicativas y finalmente evaluar la performance del modelo con
26
la base utilizada para generarlo (in the sample) y con una base de testeo (out of the
sample).
I. Admisión o comportamiento
Los modelos de admisión se utilizan para evaluar el riesgo crediticio de nuevas solicitudes
de crédito (ya sea para nuevos clientes o para clientes existentes que solicitan nuevos
créditos); en cambio, los modelos de comportamiento se utilizan para evaluar el
desempeño que tendrán los créditos vigentes y utilizan información sobre el desempeño
pasado en la entidad (Bessis, 2015). Un modelo de seguimiento puede servir para decidir
a qué clientes se les varía el límite del descubierto de cuenta corriente o el límite de
compra de las tarjetas de crédito.
Para evaluar el riesgo de crédito de solicitudes nuevas o de la cartera sana del banco (sin
días de atraso) el evento que se intenta explicar suele ser el default del crédito otorgado
con una ventana de desempeño de seis o doce meses. Para la cartera irregular, el evento
a explicar puede ser la probabilidad de regularización o la probabilidad de pasar de un
ciclo de atraso al siguiente en los próximos tres o seis meses (por ejemplo: de pasar de
tener entre 1 y 30 días de atraso a tener entre 31 y 60 días de atraso). Los modelos de
score sobre la cartera irregular suelen utilizarse para que la entidad pueda aplicar
estrategias de cobro diferenciales segmentando a la población atrasada.10
Entre las técnicas utilizadas para construir los modelos de scoring se encuentra el análisis
discriminante, los árboles de decisión, el aprendizaje automático a partir de patrones
(inteligencia artificial), las redes neuronales y los modelos estadísticos logit y probit. En
este trabajo no apuntamos a discutir las distintas técnicas, sino que utilizaremos el modelo
logit porque la relación entre las variables explicativas y la explicada se obtiene
fácilmente, porque los scores calculados se trasladan fácilmente a una probabilidad de
default (cuanto mayor sea el score, mayor será la probabilidad de default) y porque, como
10
Por ejemplo, habrá una población “distraída” que luego de tener unos pocos días de mora, regulariza el pago sistemáticamente;
pero, otros grupos de población serán de mayor riesgo y el sector de recuperaciones de la entidad bancaria tendrá que poner más
esfuerzos de recobro.
27
dicen Crouhy, Galai y Mark (2006), es la técnica comúnmente utilizada para construir
modelos de score. En el apartado 2.2 detallaremos esta técnica.
En esta instancia, se realiza un análisis univariado sobre las variables que forman parte
de la base. El objetivo es conocer la distribución de las variables, la cantidad de valores
faltantes y evaluar el poblamiento para cada valor posible de las variables (si una variable
toma un mismo valor para todos los registros, no va a ser útil para discernir riesgo).
Como dice Mermelstein (2006), las variables predictoras del modelo a implementar deben
tener sentido económico y estadístico. Es decir, por un lado, deben tener una lógica
económica a priori que fundamente incorporarlas en el modelo y, por otro lado, a partir
del análisis de los datos, deben demostrar a posteriori la validez de incluirlas dentro del
modelo.
28
Respecto a las variables predictoras, como mencionamos previamente, los modelos de
score tradicionales que utilizan los bancos se basan en información socioeconómica y en
información provista por burós crediticios. Por ejemplo, en el modelo de score para
individuos que construyen Crouhy, Galai y Mark (2006, p. 215), se utilizan las siguientes
variables explicativas: años en el trabajo actual, casa propia o alquilada, nivel de
bancarización del individuo (si posee caja de ahorro, cuenta corriente o tarjetas de
crédito), ocupación, edad del solicitante y referencias crediticias.
El objetivo del modelo es generar scores que discriminen la población que será morosa
de la población que será sana. Los modelos se suelen construir de forma tal que, a mayor
nivel de score, menor la morosidad esperada. Para evaluar la performance del modelo
construido y también para comparar modelos entre sí, se pueden utilizar diversos
indicadores estadísticos, como ser la prueba de Kolmogorov – Smirnov (KS), el
coeficiente de Gini y el AUC (área bajo la curva ROC). Otra medida que suele utilizarse
es la probabilidad de cometer el error de tipo 1 y la probabilidad de cometer el error de
tipo 2. Los indicadores de performance serán explicados en el apartado 2.3.
Los modelos logit, al igual que los modelos probit, utilizan la técnica de regresión
estadística multivariada (Bessis, 2015).11
11
El término multivariada significa que hay más de una variable explicativa en el modelo especificado.
29
Dónde la variable explicada salario representa el salario por hora que recibe un
trabajador; educ son los años de escolaridad formal; exper refiere a los años de
experiencia laboral y capacitación representa las semanas de capacitación laboral.
Dónde 𝛽0 , 𝛽1 , 𝛽2 son los parámetros del modelo econométrico que se van a estimar a
través de algún método de optimización matemática12 y 𝑢 es el término de error, que
contiene a otras variables no observables que afectan a la variable dependiente.
El modelo de regresión lineal 𝑦 = 𝛽0 + 𝛽𝑋 + 𝑢13, para una variable binaria que toma
valor 1 en caso de pago y valor 0 en caso de no pago, tiene la ventaja que convierte la
probabilidad que suceda el evento una función lineal de las variables explicativas. Esto
sucede porque la variable Y toma dos valores: 1 y 0, por lo tanto, su esperanza es:
12
Entre los más frecuentes, se encuentra el método de mínimos cuadrados y el método de máxima verosimilitud.
13
Cabe aclarar que 𝛽 y 𝑋 son vectores, por lo cual el término 𝛽𝑋 representa la suma del producto entre cada parámetro y la variable
explicativa correspondiente.
30
Despejando, obtenemos:
Por definición de Y:
Por propiedad de la esperanza y dado que la esperanza del error es cero, obtenemos lo
comentado previamente:
Sin embargo, la desventaja del modelo lineal es que la variable dependiente puede tomar
cualquier valor real, es decir, no está acotada entre 0 y 1.
El modelo logit sigue expresando a la variable Y como función lineal de las variables
independientes (𝑌 = 𝛽0 + 𝛽′𝑋 + 𝑢), pero en lugar de interpretar directamente a Y como
valor de probabilidad, inserta la función F(Y) como argumento de la función de
distribución acumulada logística. Por lo tanto, la probabilidad de Y queda expresada de la
siguiente forma:
La función de distribución acumulada posee valores entre 0 y 1, por lo tanto, cada valor
de la función Y (que dependerá de los valores que toman las variables independientes)
tendrá asociado un valor entre 0 y 1, solucionando el problema que presentaba el modelo
de regresión lineal.
Dado que la función de distribución es monótona creciente, cuanto menor sea Y, menor
será la probabilidad acumulada, por lo tanto, menor será la probabilidad que pertenezca
al grupo de individuos que cumplen con el pago de la deuda. Asimismo, cuanto mayor
sea Y, mayor será la probabilidad acumulada, por lo tanto, mayor será la probabilidad que
pertenezca al grupo de individuos que cumplen con el pago.
14
Es un modelo paramétrico ya que la forma funcional es conocida y los parámetros son desconocidos.
32
La función objetivo lleva el nombre de función de verosimilitud, si es diferenciable
respecto al parámetro, el estimador de máxima verosimilitud debe satisfacer el siguiente
sistema de condiciones de primer orden15:
𝑛 (9)
∂ log 𝑓
∑ ( 𝑦𝑖 , 𝑥𝑖 , 𝛽̂ ) = 0
∂β
𝑖=1
En el caso del modelo logit, la función de densidad está dada por la distribución de
Bernoulli17:
𝑦𝑖 1−𝑦𝑖
1 exp(−𝑋 ′ 𝛽) ( 10 )
𝑓(𝑦𝑖 , 𝑥𝑖 , 𝛽) = [ ] [ ]
1 + exp(−𝑋 ′ 𝛽) 1 + exp(−𝑋 ′ 𝛽)
15
Habrá tantas condiciones de primer orden como cantidad de parámetros.
16
Deben cumplirse las condiciones de regularidad que, generalmente, se cumplen en las aplicaciones de riesgo de crédito.
17
Recordar la función de probabilidad de Bernoulli: 𝑓(𝑥) = 𝑝 𝑥 (1 − 𝑝)1−𝑥 𝑐𝑜𝑛 𝑥 = {1,0}.
33
Los residuos miden la diferencia entre el verdadero riesgo de cada individuo (𝑦𝑖 ) y su
1
riesgo estimado (1+exp(−𝑋 ′ 𝛽̂)). Por lo tanto, estas condiciones de primer orden reflejan la
ortogonalidad que debe existir entre las variables explicativas (𝑥𝑖 ) y los residuos
1
(𝑦𝑖 − 1+exp(−𝑋 ′ 𝛽̂)). La ortogonalidad significa que los residuos y cada una de las
Con los parámetros estimados, la probabilidad que la variable Y sea igual a uno, es decir,
la probabilidad que el individuo sea un buen pagador (si se define que 1 indica pago y 0
indica falta de pago) será la siguiente:
Esta probabilidad es el score que tendrá el individuo. Cuanto mayor sea el score, mayor
será la probabilidad que el individuo pague la deuda tomada. El score es utilizado por el
banco para generar un ranking de solicitudes de crédito y, mediante un cut-off elegido por
el banco según su apetito al riesgo, separará a las solicitudes entre las aceptadas y las
rechazadas.
34
más difusa sea la tendencia observada en la tasa de malos a medida que nos movemos de
un bucket al siguiente, menor poder de discriminación poseerá dicha variable.
Dado que la probabilidad de default disminuye a medida que aumenta el score de veraz,
se puede deducir que el score de veraz es una buen predictor de la probabilidad de default.
18
Los tramos de scores fueron separados en deciles.
19
El gráfico fue realizado utilizando los datos del modelo de tarjetas, el cual será presentado en el capítulo siguiente.
35
Otro análisis bivariado que se puede realizar para observar la relación entre la variable
explicativa y la variable objetivo es el cálculo del weight of evidence (WOE) y del
information value (IV).
El WOE mide, para cada rango de valores de la variable explicativa, el desvío porcentual
entre la distribución de buenos y la distribución de malos; de esta forma analiza el poder
predictivo de cada rango de la variable explicativa en relación con la variable objetivo.
%𝐵𝑢𝑒𝑛𝑜𝑠𝑖 ( 13 )
𝑊𝑂𝐸 = ln ( )
%𝑀𝑎𝑙𝑜𝑠𝑖
Para obtener el IV, en cada rango, se multiplica el WOE (que mide el desvío porcentual
de las distribuciones) por la diferencia entre la distribución de buenos y malos (que mide
la importancia entre las diferencias); luego, se realiza la sumatoria para todos los rangos.
Dado que el IV analiza el poder predictivo total de la variable explicativa en relación con
la variable objetivo, la medida puede utilizarse para comparar el poder predictivo con
otras variables explicativas (Lin, 2013).
%𝐵𝑢𝑒𝑛𝑜𝑠𝑖 ( 14 )
𝐼𝑉 = ∑((%𝐵𝑢𝑒𝑛𝑜𝑠𝑖 − %𝑀𝑎𝑙𝑜𝑠𝑖 ) ∗ ln ( ))
%𝑀𝑎𝑙𝑜𝑠𝑖
𝑖
La regla de oro para entender el poder predictivo de cada variable es la siguiente (Tibco,
s.f.):
36
Para testear la significatividad de una variable dentro de un modelo logit se puede utilizar
la prueba de Wald. La misma consiste en plantear como hipótesis nula que la variable
explicativa no es significativa para explicar el evento (H0: 𝛽 = 0). Se rechaza H0 cuando
el estimador asociado a dicha variable explicativa (𝛽̂ ) es suficientemente distinto de cero.
𝜉𝑤 = 𝛽̂ ′(𝑉̂𝛽̂ )−1 𝛽̂ ( 15 )
Siendo c el nivel de confianza con el cual se realiza la prueba (en general, se realiza al
95% de confianza).
Los indicadores de performance de modelo que suelen utilizarse son el test Kolmogórov-
Smirnov (KS), el coeficiente de Gini y el área debajo de la curva de la característica
operativa del receptor (AUROC).
I. KS
20
Cuando se realiza una prueba sobre una sola variable explicativa, r es igual a uno. Si r es mayor a uno, se trata de una prueba para
evaluar la significatividad de varias variables explicativas.
37
probabilidad acumuladas. Por lo tanto, es una medida del poder de discriminación del
modelo.
Para calcular el KS, se separa a la población en grupos de igual tamaño en función del
score (e.g. deciles) y, para cada grupo, se obtiene la probabilidad acumulada de buenos
pagadores y de malos pagadores. Luego, para cada grupo, se compara la diferencia
absoluta entre ambas probabilidades acumuladas. El KS es la máxima diferencia absoluta
encontrada.
Gráfico 2.521: KS
Probabilidad Probabilidad
Decil Acumulada Acumulada
Diferencia Distribución por rango de score
absoluta 100%
Malos Buenos
90%
1 0.331 0.082 0.25
Probabilidad acumulada
80%
2 0.561 0.172 0.39 70%
3 0.713 0.268 0.44 60% KS
4 0.829 0.366 0.46 50%
5 0.888 0.470 0.42 40%
6 0.935 0.574 0.36 30%
20%
7 0.968 0.679 0.29
10%
8 0.986 0.785 0.20 0%
9 0.995 0.893 0.10 1 2 3 4 5 6 7 8 9 10
10 1.000 1.000 0.00 Deciles de score
KS 0.46 Probabilidad Acumulada Malos Probabilidad Acumulada Buenos
II. Gini
El Gini es un coeficiente que surge luego de los primeros trabajos de Lorenz (1905) para
medir la desigualdad distributiva. Para visualizar la desigualdad, el autor presenta la
Curva de Lorenz; la misma ordena la población por percentiles (de menor a mayor) en
función de su ingreso relativo; el eje de las ordenadas mide el ingreso relativo acumulado
de cada percentil. La igualdad perfecta ocurre en la línea de 45°donde cada percentil de
la población posee el mismo ingreso.
21
El gráfico fue realizado utilizando los datos del modelo de tarjetas, el cual será presentado en el capítulo siguiente.
38
Así como el coeficiente de Gini para medir desigualdad distributiva se mide a través de
la Curva de Lorenz, el cálculo del Gini para medir el poder de discriminación de los
modelos de score se realiza a partir del cumulative accuracy profile (CAP). El CAP
grafica el porcentaje acumulado de la población en default para cada fracción de
población ordenada de forma decreciente según su riesgo (de menor a mayor score). Si
la tasa de default es de un 10%, un modelo de discriminación perfecta acumulará el 100%
de la población en default en el primer decil de score. De esta forma, el límite superior
del CAP se alcanza si el modelo discrimina perfectamente el riesgo. Por el contrario, si
el score es independiente de la tasa de default (el modelo no discrimina riesgo), cada
percentil de score tendrá la misma frecuencia relativa de default. De esta forma, el límite
inferior del CAP está representado por la línea de 45°.
El coeficiente de Gini es el cociente entre dos áreas: el área desde el límite superior al
límite inferior y el área desde el CAP hasta el límite inferior. Cuanto mejor sea la
discriminación del modelo, mayor será el valor del Gini. El valor 0 indica que el modelo
no discrimina el riesgo y el valor 1 indica discriminación perfecta; un coeficiente de Gini
por encima de 0.6 se considera aceptable (Bessis, 2015).
39
El cálculo del coeficiente de Gini se lleva a cabo de diversas formas; una de las más
extendidas es la fórmula de Brown (1994)22:
𝑘−1 ( 17 )
𝐺𝑖𝑛𝑖 = 1 − ∑(𝑌𝑖+1 + 𝑌𝑖 )(𝑋𝑖+1 − 𝑋𝑖 )
𝑖=0
En mi opinión, el Gini es una medida más completa que el KS ya que tiene en cuenta toda
la distribución de probabilidad de buenos y malos pagadores y no solo la máxima
diferencia entre ellas.
III. AUROC
Matriz de confusión
no rechazado rechazado
Verdadero
no moroso Falso negativo
positivo
22
La derivación matemática de la fórmula de Gini se puede ver en Derby (2003).
23
El punto de corte es el score a partir del cual la entidad acepta una solicitud de crédito.
40
negativo/cantidad total de morosos). El complemento de la especificidad es el error de
tipo I: probabilidad de aceptar un crédito malo (falso positivo/cantidad total de morosos).
El error de tipo I implica una pérdida de capital y de intereses para el banco, en cambio,
el error de tipo II es un costo de oportunidad por no haber otorgado el crédito a un buen
pagador (Bessis, 2015). El prestatario debe elegir un punto de corte que maximice su
ganancia esperada, la cual depende de la ganancia por los créditos buenos otorgados, de
la pérdida por los créditos malos otorgados y del costo de oportunidad de rechazar buenos
pagadores24.
Cuanto mayor sea el punto de corte que establezca el prestatario para aceptar el
otorgamiento de un crédito, mayor será la probabilidad de cometer el error de tipo II y
menor será la probabilidad de cometer el error de tipo I (y viceversa) 25. Si el modelo de
score permite separar completamente la distribución de buenos pagadores de la
distribución de malos pagadores, el modelo de score es perfecto, ya que existirá un punto
de corte para el cual la probabilidad de cometer ambos errores es cero. En este caso, el
área debajo de la curva ROC es igual a 1. A continuación, presentamos un gráfico que
ejemplifica lo comentado.
Aquí se observa que, aunque el modelo discrimine perfectamente entre buenos y malos
pagadores, si se establece un punto de corte demasiado bajo, se estarán aceptando créditos
24
Para más información sobre el cálculo del punto de corte óptimo, ver capítulo 2 de Gourieroux y Jasiak (2010).
25
Esto ocurre en aquellos modelos de score que poseen un desempeño normal: la distribución de buenos pagadores se concentra en
scores más altos y la distribución de malos pagadores se concentra en scores más bajos.
41
malos (1-especificidad > 0) y si se establece un punto de corte demasiado alto, se estarán
dejando de aceptar algunos créditos buenos (sensibilidad < 1).
El error de tipo I y el error de tipo II no son cero en los modelos reales, por lo tanto, el
área debajo de la curva ROC (AUROC) es menor a 1. A continuación, presentamos un
gráfico que ejemplifica lo comentado.
En mi opinión, es una medida de performance más interesante que el Gini dado que no
solo nos provee un valor para determinar cuán bueno es el modelo, sino que indica en qué
medida el modelo distinguirá correctamente una solicitud de crédito.
𝐺𝑖𝑛𝑖 + 1 ( 18 )
𝐴𝑈𝑅𝑂𝐶 =
2
42
“Torture the data and it will confess to anything”
Ronald Coase
Las bases de datos utilizadas fueron provistas por un banco anónimo de Argentina. Se
recibieron tres bases de datos con información de las características de nuevos préstamos
otorgados a individuos entre enero y abril del 2018. Si bien el banco contaba con bases
de datos para una ventana temporal más amplia, la información de las variables
alternativas incluidas en las mismas solamente estaba disponible para el primer
cuatrimestre del 2018 y, por ese motivo, se solicitaron las bases de información para la
ventana temporal mencionada. La primera base agrupa solicitudes de tarjetas de crédito,
la segunda base contiene solicitudes de paquetes bancarios26 y la tercera base posee
solicitudes de préstamos personales.
26
El paquete bancario consiste en el otorgamiento de una cuenta corriente, de una tarjeta de crédito y de un préstamo pre acordado.
Las bases de tarjetas y paquetes poseen las mismas variables. A continuación, se presenta
una tabla que las lista.
27
Si m es la cantidad de valores que puede tomar la variable cualitativa, se crean m-1 variables dummy. Otra forma de ingresar variables
cualitativas dentro del modelo logit es asignándole a cada valor posible de la variable cualitativa su weight of evidence..
28
Para mantener el anonimato de los clientes del banco, se modificó la variable por números enteros aleatorios.
44
Tipo de renta: indica el segmento de renta al cual pertenece el cliente que solicita
el préstamo. Hay cuatro segmentos posibles: hasta $30.000 de ingresos, de
$30.000 a $50.000, de $50.000 a $80.000 y desde $80.000.
Ingreso mensual ordinario: es el ingreso mensual del cliente. Si bien, a priori,
puede parecer multicolineal con la variable anterior, el banco otorga beneficios
especiales para cada tipo de renta, por lo tanto, la información que presentan
ambas variables es distinta.
Marca pyme: indica si el préstamo solicitado es para el comercio del individuo o
no.
Marca antigüedad cliente hasta doce meses: indica con valor uno a los préstamos
otorgados a clientes con antigüedad menor o igual a doce meses en la entidad
bancaria. Es de esperar que los clientes antiguos tengan un mejor comportamiento;
como menciona FICO (s.f.) en su página web, un mayor historial crediticio es
señal de menor riesgo.
Marca antigüedad empleo hasta 24 meses: indica con valor uno a los préstamos
otorgados a clientes con antigüedad menor o igual a 24 meses en su empleo. Es
esperable que los clientes con mayor antigüedad en su empleo tengan mejor
desempeño crediticio.
Cantidad de tarjetas de crédito: indica la cantidad de tarjetas de crédito que posee
el cliente. Es de esperar que cuantas más tarjetas de crédito tenga el individuo,
mejor será su probabilidad de pago; la página web de Equifax (s.f.) señala que la
cantidad de productos crediticios que posee el individuo es un indicador relevante
para los prestadores.
Estado civil: indica con valor “S” a los clientes solteros, con valor “M” a los
clientes casados, con valor “D” a los divorciados y con valor “W” a los viudos.
Marca automóvil: identifica a los clientes que poseen automóvil al momento de la
solicitud del préstamo.
Marca caja de ahorro: indica si el cliente posee una caja de ahorro o no al momento
de la solicitud.
Nivel estudios: indica el grado de educación que posee el solicitante del préstamo
al momento de la solicitud. Los valores que toma la variable son: A (sin
educación), B (primario completo), C (secundario completo), D (terciario
completo), E (universitario completo) y F (posgrado completo). La educación que
45
poseen los individuos puede ser una variable significativa para explicar
comportamiento crediticio. En Gasparini y Cicowiez (2007) se realizan estudios
que demuestran que los trabajadores con mayor nivel educativo poseen un ingreso
mayor que los menos educados y que esta brecha se está incrementando con el
paso del tiempo.
Tipo de vivienda: identifica el tipo de vivienda del individuo al momento de la
solicitud. Los valores que toma la variable son: H (propia), R (alquilada), P (vive
con su familia) o M (ninguna de las anteriores).
Referencia cuenta corriente y caja de ahorro: indica si el cliente posee cuenta
corriente y/o caja de ahorro. Los valores que puede tomar la variable son: A (no
posee ninguna), B (posee cuenta corriente solamente), C (posee caja de ahorro
solamente) y D (posee caja de ahorro y cuenta corriente). Dado que existe en la
base una variable que indica si el cliente posee caja de ahorro, va a existir
multicolinealidad entre ambas variables y se excluirá esta última de los modelos.
Grupo de edad: indica el segmento etario al cual pertenece el cliente. La variable
puede tomar los siguientes valores: “Menor de 40 años”, “Entre 40 y 60 años” y
“Mayor a 60 años”.
Cantidad de consultas veraz: indica la cantidad de veces que se pidió un informe
de veraz29 del cliente.
Regular veraz: indica con valor uno a los clientes bancarizados y sin antecedentes
negativos.
Score de veraz: es el score de bureau generado por la empresa Equifax30. El rango
de valores que puede tomar la variable es de 1 a 999. Es de esperar que cuanto
mayor sea el score veraz, mejor sea el desempeño crediticio del cliente.
Indicador de uso de home banking: indica si el cliente utiliza o no la página web
de la entidad bancaria. Es una variable alternativa ya que no pertenece al conjunto
de variables que tradicionalmente utilizan los bancos para armar los scores (al
igual que las tres variables que se mencionan a continuación).
Cantidad de transacciones por home banking: indica la cantidad de transacciones
que el cliente realizó mediante la página web del banco en el mes de la solicitud
del nuevo préstamo.
29
El informe de veraz contiene información del historial crediticio del cliente en el sistema financiero.
30
En la sección 1.3 se presenta el detalle de las principales variables con las cuales se conforma el score.
46
Indicador de uso de mobile banking: indica si el cliente utiliza o no la aplicación
del banco en su celular.
Cantidad de transacciones por mobile banking: indica la cantidad de transacciones
que el cliente realizó mediante la aplicación móvil del banco en el mes de la
solicitud del nuevo préstamo.
Indicador de buen desempeño (variable objetivo): identifica con valor uno a los
clientes que no tuvieron retraso de más de 90 días en los doce meses posteriores
al otorgamiento del crédito y con valor cero al caso contrario.
47
A continuación, se describen aquellas variables pertenecientes a la base de préstamos
personales que no forman parte de las bases de tarjetas y paquetes.
Marca garantía: indica si el préstamo otorgado por el banco está asegurado por
una garantía.
Porcentaje de financiación: es el llamado loan to value. Es el porcentaje que
representa el préstamo solicitado respecto al bien total que se desea adquirir con
dicho préstamo.
Cuota del préstamo: es el valor de la primera cuota mensual que el cliente deberá
pagar.
Monto del préstamo: es el valor del préstamo solicitado.
Plazo del préstamo: es la cantidad de meses que dura el contrato que realizó el
cliente con la entidad bancaria.
Relación cuota-ingreso: es el porcentaje que representa la primera cuota mensual
respecto al ingreso mensual del cliente al momento de la solicitud.
Cantidad de personas a cargo: es la cantidad de personas que dependen
económicamente del cliente.
Antes de proceder al detalle de las bases, es menester aclarar que, dado que los datos
disponibles abarcan la ventana temporal de enero a abril 2018 (con observación de
desempeño durante los doce meses posteriores), se seleccionará la ventana muestral de
enero a marzo para el desarrollo de los modelos y la ventana de abril para la validación
out of sample de los mismos.
Base de tarjetas
La base posee un total de 59.715 de tarjetas otorgadas entre enero y abril de 2018, el 7,3%
(4.378 tarjetas) cae en default en alguno de los siguientes doce meses. Se encontraron
valores faltantes (missings) solamente en tres variables y con un porcentaje relativo bajo:
2,3% en la variable ingresoMensualOrdinario, 0,02% en la variable CantidadConsultas
y 2,35% en la variable scoreVeraz. El tratamiento realizado sobre los valores faltantes
48
consistió en reemplazar dichos valores por los valores medios encontrados para cada
variable en la base de tarjetas.
Respecto a la variable marca_pyme, se encontró que solamente el 0,1% posee valor uno;
dada su baja volumetría, posiblemente no sea una variable discriminante en el modelo de
tarjetas.
En relación con las variables alternativas, la proporción de clientes que usa home banking
es mayor a la proporción que utiliza mobile banking (68,6% vs 50,7%); los clientes
realizan un promedio mensual de 31,33 transacciones a través de la página web y 38,45
mediante la aplicación móvil.
Base de paquetes
La base posee un total de 54.144 de paquetes otorgados entre enero y abril de 2018, el
12,9% (6.976 paquetes) cae en default en los siguientes doce meses.
Se observan valores faltantes en las mismas tres variables que para el caso de tarjetas y
con un porcentaje relativo también bajo; se aplicó el mismo tratamiento que para la base
de tarjetas (reemplazar los valores faltantes por lo valores medios de cada variable en la
base de paquetes). Respecto a la variable marca_pyme, el porcentaje de registros con
valor igual a uno no es insignificante como en el caso de tarjetas, por lo cual, puede ser
una variable útil para discernir riesgo.
49
Respecto a la variable de antigüedad en el banco, se observa que la mayor parte tiene una
antigüedad inferior al año; lo cual es contrario a lo que sucede en la base de tarjetas. Esta
casuística se considera razonable dado que es lógico que los clientes más nuevos soliciten
paquetes y los clientes con mayor antigüedad quieran añadir una tarjeta a sus productos
existentes.
En relación con las variables alternativas, el uso de la página web y de la aplicación móvil
es menor que el encontrado en la base de tarjetas: el 57,5% utiliza home banking (con un
promedio mensual de transacciones de 16) y el 30.1% utiliza la aplicación móvil (con un
promedio mensual de transacciones de 18,32%).
La base posee un total de 12.020 de préstamos personales otorgados entre enero y abril
de 2018, el 8,1% (968 paquetes) cae en default en los siguientes doce meses.
La mayor parte de la población posee una antigüedad en el banco mayor al año, una
antigüedad en el empleo mayor a los dos años y presenta una garantía para respaldar el
préstamo.
Los resultados encontrados se consideran razonables, dado que muestran que el banco
prefiere otorgar préstamos personales a clientes con mayores ingresos, con antigüedad en
el banco y en su trabajo, con un score veraz alto y con garantía que respalde los mismos.
Respecto a las variables alternativas: el 57% utiliza home banking (con un promedio
mensual de transacciones de 29) y el 35% utiliza la aplicación móvil (con un promedio
mensual de transacciones de 28%).
50
En el apartado siguiente, se va a construir un modelo de score para cada tipo de producto
y se analizará su performance. Para ello, vamos a partir de las variables iniciales que
recién comentamos y se seleccionarán aquellas que expliquen el comportamiento de la
variable objetivo.
Para seleccionar los predictores que formen parte de los modelos de score vamos a utilizar
una metodología de selección iterativa. La misma consiste en descartar las variables
explicativas que no superan la prueba de significatividad individual considerando un nivel
de confianza del 95%, de forma tal que el modelo final quede explicado solamente por
las variables estadísticamente significativas. Como comentamos previamente, se
seleccionaron los datos de enero a marzo 2018 para el desarrollo de los modelos de score
y seleccionaron los datos de abril 2018 para la validación out of the sample de estos.
El objetivo de este apartado es construir un modelo completo, que tenga en cuenta todas
las variables explicativas y, a la vez, construir un modelo restringido, el cual no contemple
las variables alternativas.
31
El punto de corte que se definió en todos los modelos para determinar el error de tipo 1 y el error de tipo 2 fue la cantidad de clientes
no morosos respecto al total de la muestra. En las entidades bancarias el punto de corte depende del apetito al riesgo de cada sector.
51
Modelo de tarjetas completo
En primer lugar, se seleccionaron todas las variables que forman parte de la base (a
excepción de las variables descriptivas), incluyendo las variables alternativas y se realizó
la prueba de significatividad individual para todas ellas. A continuación, se presenta el
resultado que arrojó la primera prueba de significatividad individual.
En tercer lugar, se ejecutó la regresión logística en SAS Studio con las variables
explicativas mencionadas. A continuación, se presentan los estimadores puntuales
obtenidos para cada variable.
Tabla 3.4: Variables explicativas del modelo final de tarjetas y sus estimadores
52
Parameter Estimate
Intercept 1.211
ingresoMensualOrdina 0.00002
marca_cliente_antig_ -0.4297
marca_antig_empleo_h -0.1572
cantidadTarjetaCredi 0.0931
cantidadConsultas -0.1715
regulares_veraz 0.2477
scoreVeraz 0.00348
INDICA_USA_HOME_BANK 0.1971
CANT_TRANSAC_HOME_BA 0.00375
INDICA_USA_MOBILE 0.3872
CANTIDAD_TRANSACCION -0.0018
tipo_renta Desde 30.000 hasta 50.000 0.2804
tipo_renta Desde 50.000 hasta 80.000 0.2529
tipo_renta Desde 80.000 0.000946
tipo_renta Hasta 30.000 0
estadoCivil D -0.2454
estadoCivil M -0.1095
estadoCivil S -0.4811
estadoCivil W 0
nivelEstudios A -0.4715
nivelEstudios B -0.7635
nivelEstudios C -0.4053
nivelEstudios D -0.2509
nivelEstudios E -0.3035
nivelEstudios F 0
tipoVivienda H -0.5646
tipoVivienda M -0.3545
tipoVivienda P -0.0335
tipoVivienda R 0
refCtaCorrienteYAhor A -0.7603
refCtaCorrienteYAhor B -0.6775
refCtaCorrienteYAhor C -0.4135
refCtaCorrienteYAhor D 0
Grupo_edad Desde 60 0.5947
Grupo_edad Entre 40 y 60 0.0705
Grupo_edad Menor a 40 0
Se observa que los estimadores puntuales de las variables indicadoras de uso de home
banking y de uso de mobile banking son mayores a cero, lo cual indica que el uso de
dichas plataformas es señal de un buen comportamiento de pago del producto de tarjetas
(recordemos que la variable objetivo toma valor uno si el cliente no entró en default en
los siguientes doce meses del otorgamiento del crédito y cero en caso contrario).
Cabe aclarar que el estimador puntual igual a cero observado en ciertos valores de las
variables cualitativas significa que dicho valor de la variable cualitativa quedó
incorporado en el intercepto (recordar que por cada variable cualitativa con k posibles
valores, se generaron k-1 variables dummy).
53
En cuarto lugar, se realizaron las pruebas de performance sobre el modelo construido. A
continuación, se presentan los resultados de las mismas junto con el CAP (cumulative
accuracy profile), el cual grafica la probabilidad acumulada de malos por rango de
score32.
Finalmente, se realizó una validación out of the sample a partir de los datos de abril 2018.
El proceso consistió en utilizar las variables explicativas y los estimadores puntuales del
modelo de desarrollo y aplicarlos a las solicitudes de abril 2018 con el objetivo de evaluar
la precisión del modelo en una población distinta a la utilizada para construirlo. Los
indicadores de performance out of the sample muestran resultados similares a aquellos
obtenidos para el desarrollo, lo cual le agrega robustez al modelo presentado33.
32
Los indicadores de performance fueron calculados de acuerdo a la metodología detallada en el capítulo anterior.
33
Los indicadores de performance de la validación del modelo no restringido son los siguientes: error de tipo 1: 36,8% - error de tipo
2: 21,4%, KS: 42,1%, Gini 58%, AUROC: 79%.
54
Modelo de tarjetas restringido
Para obtener el modelo final de tarjetas sin variables alternativas (modelo restringido), se
realizó el mismo procedimiento que describimos anteriormente, pero, partiendo de todas
las variables excepto las alternativas. Luego de los sucesivos filtros, se obtuvo un set de
variables explicativas finales y se ejecutó la regresión logística. En el cuadro A.6 del
anexo se presentan los estimadores puntuales de las variables explicativas que conforman
el modelo restringido de tarjetas.
Al igual que para el modelo completo, se validó el modelo de tarjetas restringido con los
datos del mes de abril 2018 y se obtuvieron indicadores de performance similares a
aquellos obtenidos en el modelo construido34.
De esta forma, concluimos con el trabajo sobre el producto de tarjetas y pasamos a detallar
el procedimiento y los resultados obtenidos para el producto de paquetes.
Al igual que para el modelo de tarjetas, el primer paso consistió en seleccionar todas las
variables que forman parte de la base (a excepción de las variables descriptivas). A cada
variable se le realizó la prueba de significatividad individual con el objetivo de determinar
34
Los indicadores de performance de la validación del modelo restringido son los siguientes: error de tipo 1: 36,9% - error de tipo 2:
19,5%, KS: 43,7%, Gini 56,8%, AUROC: 78,4%.
55
cuáles de ellas son posibles candidatas del modelo final. A continuación, se presenta el
resultado que arrojó la primera prueba de significatividad individual.
Se observa que tres de las variables seleccionadas no superan dicha prueba, pero, a vez,
todas las variables alternativas la superaron, por lo que son candidatas del modelo final.
Como segundo paso, se seleccionaron solamente las variables con p valor menor al 5% y
se volvieron a realizar las pruebas de significatividad individuales. Todas las variables
superaron las mismas, por lo que formarán parte del modelo final de paquetes.
Como tercer paso, se ejecutó la regresión logística para las variables seleccionadas;
obteniendo los siguientes estimadores puntuales para cada una de ellas:
Tabla 3.6: Variables explicativas del modelo final de paquetes y sus estimadores
56
Parameter Estimate
Intercept 0.681
marca_pyme -0.4162
marca_cliente_antig_ -0.5383
marca_antig_empleo_h 0.0737
cantidadTarjetaCredi 0.0634
marcaPoseeAuto -0.1156
cantidadConsultas -0.1917
scoreVeraz 0.0035
INDICA_USA_HOME_BANK 0.2185
CANT_TRANSAC_HOME_BA 0.00505
INDICA_USA_MOBILE 0.439
CANTIDAD_TRANSACCION -0.0024
tipo_renta Entre 30.000 y 50.000 0.2382
tipo_renta Entre 50.000 y 80.000 0.282
tipo_renta Mayor a 80.000 0.5377
tipo_renta Menor a 30.000 0
nivelEstudios A -0.0282
nivelEstudios B -0.3061
nivelEstudios C 0.0311
nivelEstudios D 0.043
nivelEstudios E 0.139
nivelEstudios F 0
tipoVivienda H -0.4476
tipoVivienda M -0.3554
tipoVivienda P -0.2975
tipoVivienda R 0
refCtaCorrienteYAhor A -0.4097
refCtaCorrienteYAhor B -0.4884
refCtaCorrienteYAhor C -0.2008
refCtaCorrienteYAhor D 0
Grupo_edad Desde 60 0.2629
Grupo_edad Entre 40 y 60 -0.0196
Grupo_edad Menor a 40 0
Al igual que para el modelo completo de tarjetas, se observa que las variables indicadoras
de uso de home banking y de mobile banking poseen estimadores puntuales mayores a
cero, indicando que, según el modelo, se espera un aumento de la probabilidad de pago
si los solicitantes utilizan dichas plataformas. Asimismo, se observa que el grupo de
mayores ingresos (renta superior a 80.000 ARS) posee un estimador puntual superior al
resto de grupos de renta y que el score veraz posee un estimador puntual positivo;
resultados coherentes con lo esperado para dichas variables.
57
AUROC: 74,6%
Finalmente, se realizó la validación out of the sample con los datos de abril 2018,
observando indicadores de performance del modelo similares a los del desarrollo (el KS
y la especificidad fueron incluso superiores en la validación)35.
35
Los indicadores de performance de la validación del modelo completo fueron los siguientes: error de tipo 1: 35,9% - error de tipo
2: 27,5%, KS: 36,6%, Gini 48,7%, AUROC: 74,4%.
58
AUROC: 73,7%
Para validar el modelo, se utilizaron los datos de abril 2018 y se obtuvieron resultados
superiores a los del desarrollo (mayores valores en KS, Gini y AUROC y menores valores
en el error de tipo 1 y en el del tipo 2)36.
36
Los indicadores de performance de la validación out of sample para el modelo restringido de paquetes son los siguientes: error de
tipo 1 – 36,3%, error de tipo 2 – 28,7%, KS – 34,9%, Gini – 47,6% y AUROC – 73,8%.
59
cantidad de tarjetas de crédito, cantidad de consultas al sistema veraz, score de veraz,
cantidad de transacciones realizadas por home banking, marca si el cliente utiliza mobile
banking y estado civil. Como se observa, dos de las variables alternativas forman parte
del grupo reducido de variables explicativas del modelo final.
Como paso siguiente, se ejecutó la regresión logística con las variables seleccionadas y
se obtuvieron los estimadores puntuales para cada una de ellas. Los mismos se presentan
a continuación.
Tabla 3.7: Variables explicativas del modelo final de préstamos personales y sus
estimadores
Parameter Estimate
Intercept -1.1526
marca_garantia 0.9571
marca_cliente_antig_ -0.3581
marca_antig_empleo_h -0.2188
cantidadTarjetaCredi 0.1437
cantidadConsultas -0.2571
scoreVeraz 0.00423
CANT_TRANSAC_HOME_BA 0.00369
INDICA_USA_MOBILE 0.2384
estadoCivil D 0.3486
estadoCivil M 0.6413
estadoCivil S 0.2061
estadoCivil W 0
Se observa que ambas variables explicativas poseen un estimador puntual mayor a cero,
indicando que a mayor uso de los sistemas de mobile y home banking, mejor
comportamiento de pago posee el cliente. Asimismo, tal como se esperaba, las variables
de garantía, score veraz y cantidad de tarjetas de crédito poseen valores mayores a cero
(indicando un mejor comportamiento de pago cuanto más elevadas sean estas variables).
60
AUROC: 81,5%
Como paso final, se realizó la validación out of sample con los datos de abril 2018
obteniendo resultados aceptables en relación con aquellos obtenidos para el desarrollo37.
37
Los indicadores para la validación del modelo no restringido de préstamos personales son los siguientes: error de tipo 1 – 8,3%,
error de tipo 2 – 11,9%, KS – 44,7%, Gini - 56,9% y AUROC – 78,5%.
61
Gráfico 3.5: CAP del modelo de préstamos personales restringido
Para finalizar la construcción del modelo restringido, se realizó la validación del modelo
con datos de abril 2018, obteniendo indicadores de performance cercanos a los del modelo
restringido38.
38
Los indicadores de performance de la validación del modelo restringido son los siguientes: error de tipo 1: 8,1% - error de tipo 2:
12,7%, KS: 43,2%, Gini 58,3%, AUROC: 79,1%.
62
Tabla 3.7: Comparación de resultados para el producto Tarjetas
Otro de los indicadores calculados fue el KS; se observa que el modelo A de tarjetas y
paquetes presenta un KS más elevado que el modelo B, lo cual significa que las
distribuciones por score de buenos pagadores y de malos pagadores del modelo A tienen
un punto máximo de alejamiento mayor a las respectivas curvas del modelo B. Por lo
tanto, bajo la medida de KS, el modelo A tiene un mayor poder de discriminación de
riesgo que el modelo B.
63
Además de los indicadores mencionados, el contraste respecto al Gini y al AUROC,
refleja el mejor resultado que posee el modelo A de tarjetas y paquetes. Esto nos indica
que el modelo A clasifica mejor las solicitudes que el modelo B.
Los contrastes realizados parecen reflejar que los modelos de tarjetas y paquetes que
incorporan datos alternativos presentan mejores resultados que los modelos restringidos
que no incluyen variables alternativas.
Indicador de performance
Modelo sin variables
producto: préstamos Modelo completo (A)
alternativas (B)
personales
Error de tipo 1 7,5% 7,4%
Error de tipo 2 8,7% 8,9%
KS 46,3% 46,0%
Gini 63,1% 62,6%
AUROC 81,5% 81,3%
A partir de la matriz de confusión, obtuvimos los valores de los errores de tipo 1 y de tipo
2. Respecto al primero de ellos, podemos observar que el modelo A presenta un valor
levemente superior al valor del modelo B; esto quiere decir que el modelo B posee una
menor proporción de aceptación de solicitudes morosas. Respecto al error de tipo 2, el
modelo A presenta un menor valor en comparación al modelo B. Esto quiere decir que el
modelo A posee una menor proporción de rechazo de solicitudes no morosas.
Por lo tanto, si bien para la mayoría de los indicadores el modelo con información
alternativa resulta preferible al modelo sin datos alternativos, los resultados en cuanto al
64
error de tipo 1 muestran resultados contrarios, indicando que el uso del modelo sin datos
alternativos traería aparejado un menor costo de crédito por el rechazo de solicitudes
morosas.
65
Conclusiones y futuras líneas de investigación
El segundo objetivo específico planteado fue sentar las bases para la construcción de un
modelo de score que ayude a evaluar la capacidad de repago de los clientes minoristas;
el cual fue trabajado en el capítulo 2. En este capítulo, se explicó en qué consiste un
modelo de score; luego, se hizo foco en el modelo de regresión logística y las fórmulas
que lo componen; finalmente, se presentaron los principales indicadores de performance
para los modelos de scoring.
66
financieros. Por otro lado, en cuanto al producto de préstamos personales, el modelo con
variables alternativas indica una mejor precisión en cuanto a la discriminación general de
riesgo; pero, el modelo sin datos alternativos posee una leve diferencia a favor en cuanto
al error que se comete aceptando créditos morosos. Es por este motivo que, si bien
corroboramos la hipótesis del trabajo para los productos de tarjetas y paquetes, no
podemos corroborarla para el producto de préstamos personales.
Por otro lado, el presente trabajo se realizó con datos de aplicaciones a créditos de los
primeros cuatro meses de abril 2018 (con observación de desempeño durante los doce
meses siguiente; en este sentido, una futura línea de investigación podría ser realizar este
mismo análisis en una ventana temporal más reciente. No obstante, hay que tener en
cuenta que, durante la crisis de salud provocada por el Coronavirus en el año 2020, el
gobierno otorgó moratorias en los vencimientos de créditos bancarios; por lo tanto, los
datos de comportamiento de pago del 2020 difícilmente puedan ser utilizados para un
análisis similar (al menos sin realizar un ajuste sobre los mismos), dado que el
comportamiento frente a las obligaciones de deuda de los individuos se ve distorsionado
al existir la opción legal de aplazar las mismas.
67
Bibliografía y Referencias bibliográficas
Abdou, H., & Pointon, J. (2011). Credit scoring, statistical techniques and evaluation criteria: a
review of the literature. Greater Manchester, Inglaterra: John Wiley & Sons, Ltd.
Altman, E., & Saunders, A. (1998). Credit risk measurement: Developments over the last 20
years. Journal of Banking & Finance, 1721-1742.
Banco Central de la República Argentina. (13 de febrero de 2013). Comunicación "A" 5398.
Obtenido de http://www.bcra.gov.ar/pdfs/comytexord/A5398.pdf
Banco Central de la República Argentina. (12 de enero de 2018). Comunicación "A" 6430.
Obtenido de http://www.bcra.gov.ar/Pdfs/comytexord/A6430.pdf
Basel Committee on Banking Supervision. (2006). Sound credit risk assessment and valuation
for loans. Basel, Switzerland: Bank for International Settlements.
Bessis, J. (2015). Risk Management in Banking. West Sussex, Inglaterra: John Wiley & Sons, Ltd.
Brown, M. C. (1994). Using gini-style indices to evaluate the spatial patterns of health
practitioners: Theoretical considerations and an application based on Alberta data.
Social Science & Medicine, 1243-1256.
Business Wire. (18 de julio de 2016). ZestFinance Receives Funding from Baidu to Fuel
Development of Search-Based Underwriting Technology. Obtenido de
https://www.businesswire.com/news/home/20160717005040/en/ZestFinance-
Receives-Funding-Baidu-Fuel-Development-Search-Based
Crouhy, M., Galai, D., & Mark, R. (2006). The essentials of Risk Management. Estados Unidos:
McGraw-Hill.
Derby, N. (2003). Mathematical Definition of the Gini Index. Washington, Estados Unidos:
University of Washington.
68
Emerj. (3 de abril de 2020). Artificial Intelligence Applications for Lending and Loan
Management. Obtenido de https://emerj.com/ai-sector-overviews/artificial-
intelligence-applications-lending-loan-management/
Equifax. (2 de mayo de 2018). Credit Through the Ages: How Technology is Revolutionizing the
Way We Assess Consumer Financial Behavior. Obtenido de
https://insight.equifax.com/credit-ages-technology/?intcmp=search
Experian Information Solutions, Inc. (2018). Alternative Data Across the Loan Life Cycle: How
FinTech and Other Lenders Use It and Why. Obtenido de
https://www.experian.com/assets/consumer-
information/reports/Experian_Aite_AltDataReport_Final_120418.pdf?elqTrackId=7714
eff9f5204e7ca8517e8966438157&elqaid=3910&elqat=2
Farris, F. A. (2010). The Gini Index and Measures of Inequality. The American Mathematical
Monthly, 851-864.
FICO. (8 de diciembre de 2015). Not All Alternative Data Is Created Equal. Obtenido de
https://www.fico.com/blogs/not-all-alternative-data-created-equal
FICO. (29 de marzo de 2018). FICO Continues to Expand Access to Credit with New FICO® Score
XD 2. Obtenido de https://www.fico.com/en/newsroom/fico-continues-expand-
access-credit-new-fico-score-xd-2
FICO. (22 de mayo de 2019). Leveraging Alternative Data to Extend Credit to More Borrowers.
Obtenido de https://www.fico.com/blogs/leveraging-alternative-data-extend-credit-
more-borrowers
Forbes. (14 de agosto de 2019). Alternative Data: The Great Equalizer To Lending Inequalities?
Obtenido de
https://www.forbes.com/sites/forbestechcouncil/2019/08/14/alternative-data-the-
great-equalizer-to-lending-inequalities/?sh=1e92db392449
Freixas, X., & Rochet, J.-C. (2008). Microeconomics of Banking. Cambridge, Estados Unidos: MIT
Press.
Gasparini, L., & Cicowiez, M. (26-27 de Abril de 2007). The socio-economic conditions in
Argentina. Buenos Aires, Argentina: Centro de Estudios Distributivos, Laborales y
Sociales. Obtenido de researchgate:
https://www.researchgate.net/profile/Leonardo_Gasparini2/publication/228458988_
THE_SOCIO-
ECONOMIC_CONDITIONS_IN_ARGENTINA/links/55dc55ae08ae9d6594945212/THE-
SOCIO-ECONOMIC-CONDITIONS-IN-ARGENTINA.pdf
69
Gourieroux, C., & Jasiak, J. (2007). The Econometrics of Individual Risk. Credit, Insurance, and
Marketing. New Jersey, Estados Unidos: Princeton University Press.
Hull, J. C. (2000). Options, futures, and other derivatives. Boston, Estados Unidos: Prentice Hall.
Hull, J. C. (2015). Risk Management and Financial Institutions. New Jersey, Estados Unidos:
John Wiley & Sons, Inc.
International Monetary Fund. (marzo 2012). What Is a Bank? Finance & Development, 38 - 39.
Jorion, P. (2007). Value at Risk. The new benchmark for managing financial risk. Estados
Unidos: McGraw-Hill.
Lin, A. Z. (2013). Variable Reduction in SAS by Using Weight of Evidence and Information Value.
Obtenido de https://support.sas.com/resources/papers/proceedings13/095-2013.pdf
Road Show. (13 de febrero de 2019). Scoring crediticio: cómo avanza Equifax en el uso de “data
alternativa”. Obtenido de https://www.roadshow.com.ar/scoring-crediticio-como-
avanza-equifax-en-el-uso-de-data-alternativa/
70
Anexos
71
Fuente: Informe de inclusión financiera (BCRA, abril 2020, p. 32)
marca_pyme 0 1 Missings
201801 14,980 19 0
201802 15,187 12 0
201803 17,551 23 0
201804 11,931 12 0
frecuencia media 99.9% 0.1% 0.0%
marca_cliente_antig_hasta12m 0 1 Missings
201801 12,510 2,489 0
201802 12,857 2,342 0
201803 14,842 2,732 0
201804 10,004 1,939 0
frecuencia media 84.1% 15.9% 0.0%
marca_antig_empleo_hasta24m 0 1 Missings
201801 9,523 5,476 0
201802 9,240 5,959 0
201803 10,944 6,630 0
201804 7,073 4,870 0
frecuencia media 61.6% 38.4% 0.0%
72
Estado Civil D M S W Missings
201801 235 1,231 13489 44 0
201802 193 1,167 13808 31 0
201803 263 1,400 15861 50 0
201804 146 827 10938 32 0
frecuencia media 1.4% 7.7% 90.6% 0.3% 0.0%
marcaPoseeAuto 0 1 Missings
201801 11,805 3,194 0
201802 11,980 3,219 0
201803 13,698 3,876 0
201804 9,373 2,570 0
frecuencia media 78.5% 21.5% 0.0%
marcaPoseeCajaAhorro 0 1 Missings
201801 443 14,556 0
201802 679 14,520 0
201803 1,041 16,533 0
201804 1,118 10,825 0
frecuencia media 5.5% 94.5% 0.0%
TipoVivienda H M P R Missings
201801 3,116 9,075 2693 115 0
201802 3,521 9,225 2357 96 0
201803 4,371 10,141 2938 124 0
201804 3,345 6,963 1579 56 0
frecuencia media 24.0% 59.3% 16.0% 0.7% 0.0%
refCtaCorrienteYAhorro A B C D Missings
201801 382 61 7735 6821 0
201802 619 60 7973 6547 0
201803 968 73 8528 8005 0
201804 1,045 73 6060 4765 0
frecuencia media 5.0% 0.4% 50.7% 43.8% 0.0%
regulares_veraz 0 1 Missings
201801 3,681 11,318 0
201802 4,322 10,877 0
201803 4,884 12,690 0
201804 3,859 8,084 0
frecuencia media 28.0% 72.0% 0.0%
INDICA_USA_HOME_BANKING 0 1 Missings
201801 4,370 10,629 0
201802 5,213 9,986 0
201803 5,277 12,297 0
201804 3,913 8,030 0
frecuencia media 31.4% 68.6% 0.0%
73
INDICA_USA_MOBILE 0 1 Missings
201801 7,290 7,709 0
201802 7,706 7,493 0
201803 8,465 9,109 0
201804 5,996 5,947 0
frecuencia media 49.3% 50.7% 0.0%
no_default 0 1 Missings
201801 1,043 13,956 0
201802 1,160 14,039 0
201803 1,265 16,309 0
201804 910 11,033 0
frecuencia media 7.3% 92.7% 0.0%
CANT_TRANSAC_HOME_BA
cantidad missings suma promedio desvío mínimo Q1 Q2 Q3 máximo
NKING
201801 14,999 0 569,672.00 37.98 69.47 0.00 0.00 9.00 49.00 2,269.00
201802 15,199 0 484,381.00 31.87 59.71 0.00 0.00 5.00 41.00 1,441.00
201803 17,574 0 549,036.00 31.24 62.84 0.00 0.00 3.00 38.00 2,378.00
201804 11,943 0 289,544.00 24.24 50.56 0.00 0.00 1.00 27.00 724.00
promedio 14,929 0 473,158.25 31.33 60.64 0.00 0.00 4.50 38.75 1,703.00
CANTIDAD_TRANSACCIONE
cantidad missings suma promedio desvío mínimo Q1 Q2 Q3 máximo
S_MOBILE
201801 14,999 0 599,914.00 40.00 70.77 0.00 0.00 3.00 56.00 948.00
201802 15,199 0 551,305.00 36.27 67.94 0.00 0.00 0.00 49.00 1,510.00
201803 17,574 0 746,023.00 42.45 75.70 0.00 0.00 3.00 58.00 1,521.00
201804 11,943 0 418,884.00 35.07 66.23 0.00 0.00 0.00 47.00 1,454.00
promedio 14,929 0 579,031.50 38.45 70.16 0.00 0.00 1.50 52.50 1,358.25
marca_pyme 0 1 Missings
201801 12,810 515 0
201802 13,068 605 0
201803 15,630 687 0
201804 10,264 565 0
frecuencia media 95.6% 4.4% 0.0%
74
marca_cliente_antig_hasta12m 0 1 Missings
201801 3,373 9,952 0
201802 3,192 10,481 0
201803 4,009 12,308 0
201804 2,496 8,333 0
frecuencia media 24.1% 75.9% 0.0%
marca_antig_empleo_hasta24m 0 1 Missings
201801 8,986 4,339 0
201802 8,775 4,898 0
201803 10,324 5,993 0
201804 6,627 4,202 0
frecuencia media 64.1% 35.9% 0.0%
marcaPoseeAuto 0 1 Missings
201801 10,655 2,670 0
201802 10,866 2,807 0
201803 12,706 3,611 0
201804 8,553 2,276 0
frecuencia media 79.0% 21.0% 0.0%
marcaPoseeCajaAhorro 0 1 Missings
201801 5,193 8,132 0
201802 5,095 8,578 0
201803 6,355 9,962 0
201804 4,488 6,341 0
frecuencia media 39.0% 61.0% 0.0%
TipoVivienda H M P R Missings
201801 3,802 7,134 2,260 129 0
201802 3,956 7,365 2,238 114 0
201803 5,014 8,977 2,202 124 0
201804 3,405 5,884 1,475 65 0
frecuencia media 29.9% 54.2% 15.1% 0.8% 0.0%
refCtaCorrienteYAhorro A B C D Missings
201801 4,569 624 4,983 3,149 0
201802 4,507 588 5,605 2,973 0
201803 5,629 726 6,321 3,641 0
201804 4,006 482 3,950 2,391 0
frecuencia media 34.6% 4.5% 38.5% 22.4% 0.0%
regulares_veraz 0 1 Missings
201801 3,970 9,355 0
201802 4,674 8,999 0
201803 6,000 10,317 0
201804 4,247 6,582 0
frecuencia media 34.9% 65.1% 0.0%
75
INDICA_USA_HOME_BANKING 0 1 Missings
201801 5,168 8,157 0
201802 6,267 7,406 0
201803 6,726 9,591 0
201804 4,755 6,074 0
frecuencia media 42.3% 57.7% 0.0%
INDICA_USA_MOBILE 0 1 Missings
201801 9,236 4,089 0
201802 9,665 4,008 0
201803 11,290 5,027 0
201804 7,636 3,193 0
frecuencia media 69.9% 30.1% 0.0%
no_default 0 1 Missings
201801 1,676 11,649 0
201802 1,716 11,957 0
201803 2,127 14,190 0
201804 1,457 9,372 0
frecuencia media 12.9% 87.1% 0.0%
CANT_TRANSAC_HOME_BAN
cantidad missings suma promedio desvío mínimo Q1 Q2 Q3 máximo
KING
201801 13,325 0 263,829.00 19.80 47.46 0.00 0.00 1.00 17.00 1,011.00
201802 13,673 0 228,614.00 16.72 52.31 0.00 0.00 0.00 12.00 3,363.00
201803 16,317 0 251,116.00 15.39 42.18 0.00 0.00 0.00 8.00 1,321.00
201804 10,829 0 129,727.00 11.98 35.56 0.00 0.00 0.00 4.00 942.00
promedio 13,536 0 218,321.50 15.97 44.38 0.00 0.00 0.25 10.25 1,659.25
CANTIDAD_TRANSACCIONES
cantidad missings suma promedio desvío mínimo Q1 Q2 Q3 máximo
_MOBILE
201801 13,325 0 256,825.00 19.27 51.97 0.00 0.00 0.00 11.00 956.00
201802 13,673 0 235,682.00 17.24 47.01 0.00 0.00 0.00 8.00 796.00
201803 16,317 0 318,459.00 19.52 52.42 0.00 0.00 0.00 10.00 1,144.00
201804 10,829 0 186,782.00 17.25 48.11 0.00 0.00 0.00 8.00 928.00
promedio 13,536 0 249,437.00 18.32 49.88 0.00 0.00 0.00 9.25 956.00
76
Desde 30.000 a Desde 50.000 a
tipo_renta Hasta 30.000 Desde 80.000 Missings
50.000 80.000
201801 617 766 960 656 0
201802 567 795 981 631 0
201803 670 959 1,178 836 0
201804 453 612 780 559 0
frecuencia media 19.2% 26.1% 32.4% 22.3% 0.0%
marca_garantia 0 1 Missings
201801 416 2583 0
201802 435 2539 0
201803 513 3130 0
201804 366 2038 0
frecuencia media 14.4% 85.6% 0.0%
marca_pyme 0 1 Missings
201801 2,315 684 0
201802 2,331 643 0
201803 2,754 889 0
201804 1,844 560 0
frecuencia media 76.9% 23.1% 0.0%
marca_cliente_antig_hasta12m 0 1 Missings
201801 2,431 568 0
201802 2,568 406 0
201803 3,167 476 0
201804 2,081 323 0
frecuencia media 85.2% 14.8% 0.0%
marca_antig_empleo_hasta24m 0 1 Missings
201801 2,569 430 0
201802 2,523 451 0
201803 3,086 557 0
201804 1,991 413 0
frecuencia media 84.6% 15.4% 0.0%
marcaPoseeAuto 0 1 Missings
201801 2,934 65 0
201802 2,893 81 0
201803 3,539 104 0
201804 2,318 86 0
frecuencia media 97.2% 2.8% 0.0%
marcaPoseeCajaAhorro 0 1 Missings
201801 1,068 1931 0
201802 1,066 1908 0
201803 1,317 2326 0
201804 856 1548 0
frecuencia media 35.8% 64.2% 0.0%
TipoVivienda H M P R Missings
201801 1,967 511 499 22 0
201802 1,952 481 524 17 0
201803 2,413 558 650 22 0
201804 1,591 376 422 15 0
frecuencia media 65.9% 16.0% 17.4% 0.6% 0.0%
77
refCtaCorrienteYAhorro A B C D Missings
201801 765 251 404 1,579 0
201802 825 207 374 1,568 0
201803 1,024 287 472 1,860 0
201804 688 166 343 1,207 0
frecuencia media 27.5% 7.6% 13.3% 51.7% 0.0%
regulares_veraz 0 1 Missings
201801 247 2752 0
201802 251 2723 0
201803 363 3280 0
201804 263 2141 0
frecuencia media 9.4% 90.6% 0.0%
INDICA_USA_HOME_BANKING 0 1 Missings
201801 1,158 1841 0
201802 1,277 1697 0
201803 1,642 2001 0
201804 1,112 1292 0
frecuencia media 43.2% 56.8% 0.0%
INDICA_USA_MOBILE 0 1 Missings
201801 1,872 1127 0
201802 1,946 1028 0
201803 2,443 1200 0
201804 1,608 796 0
frecuencia media 65.5% 34.5% 0.0%
no_default 0 1 Missings
201801 219 2780 0
201802 214 2760 0
201803 314 3329 0
201804 221 2183 0
frecuencia media 8.1% 91.9% 0.0%
CANT_TRANSAC_HOME_B
cantidad missings suma promedio desvío mínimo Q1 Q2 Q3 máximo
ANKING
201801 2,999 0 110,222.00 36.75 66.76 0.00 0.00 5.00 47.50 758.00
201802 2,974 0 94,614.00 31.81 60.87 0.00 0.00 3.00 37.75 611.00
201803 3,643 0 95,439.00 26.20 54.94 0.00 0.00 0.00 27.50 783.00
201804 2,404 0 52,317.00 21.76 50.38 0.00 0.00 0.00 22.00 914.00
promedio 3,005 0 88,148.00 29.13 58.24 0.00 0.00 2.00 33.69 766.50
78
CANTIDAD_TRANSACCIO
cantidad missings suma promedio desvío mínimo Q1 Q2 Q3 máximo
NES_MOBILE
201801 2,999 0 89,654.00 29.89 67.40 0.00 0.00 0.00 32.00 1,040.00
201802 2,974 0 82,159.00 27.63 63.83 0.00 0.00 0.00 25.00 961.00
201803 3,643 0 97,364.00 26.73 62.36 0.00 0.00 0.00 19.00 618.00
201804 2,404 0 64,530.00 26.84 65.54 0.00 0.00 0.00 21.00 1,050.00
promedio 3,005 0 83,426.75 27.77 64.78 0.00 0.00 0.00 24.25 917.25
79
Parameter Estimate
Intercept 1.7304
ingresoMensualOrdina 0.000026
marca_cliente_antig_ -0.3686
marca_antig_empleo_h -0.1563
cantidadTarjetaCredi 0.1206
cantidadConsultas -0.1522
regulares_veraz 0.2577
scoreVeraz 0.00355
tipo_renta Desde 30.000 hasta 50.000 0.2441
tipo_renta Desde 50.000 hasta 80.000 0.0924
tipo_renta Desde 80.000 -0.2451
tipo_renta Hasta 30.000 0
estadoCivil D -0.3681
estadoCivil M -0.2742
estadoCivil S -0.666
estadoCivil W 0
nivelEstudios A -0.5387
nivelEstudios B -0.846
nivelEstudios C -0.4657
nivelEstudios D -0.3159
nivelEstudios E -0.3414
nivelEstudios F 0
tipoVivienda H -0.7186
tipoVivienda M -0.4987
tipoVivienda P -0.1248
tipoVivienda R 0
refCtaCorrienteYAhor A -0.9111
refCtaCorrienteYAhor B -0.8731
refCtaCorrienteYAhor C -0.4559
refCtaCorrienteYAhor D 0
80
Fuente: Salida Sas Studio
Parameter Estimate
Intercept -1.6023
marca_garantia 0.9924
marca_cliente_antig_ -0.3076
cantidadTarjetaCredi 0.1708
regulares_veraz 0.3006
cantidadConsultas -0.2536
scoreVeraz 0.00435
estadoCivil D 0.4714
estadoCivil M 0.772
estadoCivil S 0.3667
estadoCivil W 0
Gráfico B.1: Código de SAS Studio para la primera iteración del modelo completo de
tarjetas
81
Fuente: Elaboración propia
Gráfico B.2: Salida de SAS Studio para la primera iteración del modelo completo de
tarjetas
Gráfico B.3: Código de SAS Studio para el modelo final de tarjetas no restringido
Gráfico B.4: Salida de SAS Studio para el modelo final de tarjetas no restringido
82
Fuente: Salida de SAS Studio
Se observa que todos los p valores son inferiores al 5%, por lo que este modelo no
requiere una iteración adicional.
Gráfico B.5: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final de
tarjetas no restringido
A continuación, se presentan los cálculos realizados para la validación out of the sample
(OOS) del modelo final de tarjetas no restringido.
83
Gráfico B.6: Matriz de confusión y cálculo del KS, Gini y AUROC de la validación
OOS del modelo final de tarjetas no restringido
Gráfico B.7: Código de SAS Studio para la primera iteración del modelo de tarjetas
restringido
Gráfico B.8: Salida de SAS Studio para la primera iteración del modelo de tarjetas
restringido
84
Fuente: Salida de SAS Studio
Como se observa, tres de las variables poseen un p valor superior al 5%, por lo que se
realiza una segunda iteración sin las mismas.
Gráfico B.9: Código de SAS Studio para el modelo final de tarjetas restringido
Gráfico B.10: Salida de SAS Studio para el modelo final de tarjetas restringido
Se observa que todos los p valores son inferiores al 5%, por lo que este modelo no
requiere una iteración adicional.
85
Gráfico B.11: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final
de tarjetas restringido
A continuación, se presentan los cálculos realizados para la validación out of the sample
(OOS) del modelo final de tarjetas restringido.
Gráfico B.12: Matriz de confusión y cálculo del KS, Gini y AUROC de la validación
OOS del modelo final de tarjetas restringido
86
1.2.2 Modelo de paquetes
Se importa la tabla input de paquetes y se ejecuta la regresión logística con todas las
variables explicativas como posibles predictoras.
Gráfico B.13: Código de SAS Studio para la primera iteración del modelo completo de
paquetes no restringido
Gráfico B.14: Salida de SAS Studio para la primera iteración del modelo completo de
paquetes no restringido
87
Como se observa, tres de las variables explicativas presentan un p valor mayor al 5%;
por lo tanto, se realiza una segunda regresión logística sin considerar dichas variables. A
continuación, se presenta el código SAS.
Gráfico B.15: Código de SAS Studio para el modelo final de paquetes no restringido
Gráfico B.16: Salida de SAS Studio para el modelo final de paquetes no restringido
Todas las variables poseen un p valor inferior al 5%, por lo que no se requiere una
iteración adicional.
Gráfico B.17: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final
de paquetes no restringido
88
Fuente: Elaboración propia
A continuación, se presentan los cálculos realizados para la validación out of the sample
(OOS) del modelo final de paquetes no restringido.
Gráfico B.18: Matriz de confusión y cálculo del KS, Gini y AUROC de la validación
OOS del modelo final de tarjetas no restringido
Gráfico B.19: Código de SAS Studio para la primera iteración del modelo de paquetes
restringido
89
Fuente: Elaboración propia
Gráfico B.20: Salida de SAS Studio para la primera iteración del modelo de paquetes
restringido
Como se observa, tres de las variables explicativas presentan un p valor mayor al 5%;
por lo que se ejecuta una segunda regresión logística sin considerar dichas variables. A
continuación, se presenta el código SAS.
Gráfico B.21: Código de SAS Studio para el modelo final de paquetes restringido
Gráfico B.22: Salida de SAS Studio para el modelo final de paquetes restringido
90
Fuente: Salida de SAS Studio
Dado que todos los p valores son inferiores al 5%, no se requiere una iteración
adicional.
Gráfico B.23: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final
de paquetes restringido
A continuación, se presentan los cálculos realizados para la validación out of the sample
(OOS) del modelo final de paquetes restringido.
Gráfico B.24: Matriz de confusión y cálculo del KS, Gini y AUROC de la validación
OOS del modelo final de tarjetas restringido
91
Fuente: Elaboración propia
Gráfico B.25: Código de SAS Studio para la primera iteración del modelo completo de
préstamos personales no restringido
Gráfico B.26: Salida de SAS Studio para la primera iteración del modelo completo de
préstamos personales no restringido
92
Fuente: Salida de SAS Studio
Gráfico B.27: Código de SAS Studio para la segunda iteración del modelo completo de
préstamos personales no restringido
Gráfico B.28: Salida de SAS Studio para la segunda iteración del modelo completo de
préstamos personales no restringido
93
Fuente: Salida de SAS Studio
Hay una de las variables cuyo p valor es superior al 5%, por lo que se ejecuta una
iteración adicional sin considerar la misma.
Gráfico B.29: Código de SAS Studio para el modelo final de préstamos personales no
restringido
Gráfico B.30: Salida de SAS Studio para el modelo final de préstamos personales no
restringido
Todas las variables presentan un p valor inferior al 5%, por lo que no se requiere una
iteración adicional.
94
Gráfico B.31: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final
de préstamos personales no restringido
A continuación, se presentan los cálculos realizados para la validación out of the sample
(OOS) del modelo final de préstamos personales no restringido.
Gráfico B.32: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final
de préstamos personales no restringido
95
A continuación, se detallan los códigos y documentación técnica involucrados en la
generación del modelo final de préstamos personales restringido.
Gráfico B.33: Código de SAS Studio para la primera iteración del modelo de préstamos
personales restringido
Gráfico B.34: Salida de SAS Studio para la primera iteración del modelo de préstamos
personales restringido
Como se observa, solo ocho de las variables explicativas presentan un p valor por debajo
del 5%; por lo que se ejecuta una segunda regresión logística considerando solamente
dichas variables. A continuación, se presenta el código SAS.
Gráfico B.35: Código de SAS Studio para la segunda iteración del modelo de
préstamos personales restringido
96
Fuente: Elaboración propia
Gráfico B.36: Salida de SAS Studio para la segunda iteración del modelo de préstamos
personales restringido
Hay una de las variables cuyo p valor es superior al 5%, por lo que se ejecuta otra
iteración sin considerar la misma.
Gráfico B.37: Código de SAS Studio para el modelo final de préstamos personales
restringido
Gráfico B.38: Salida de SAS Studio para el modelo final de préstamos personales
restringido
Gráfico B.39: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final
de préstamos personales restringido
Finalmente, se presentan los cálculos realizados para la validación out of the sample
(OOS) del modelo final de préstamos personales restringido.
Gráfico B.40: Matriz de confusión y cálculo del KS, Gini y AUROC del modelo final
de préstamos personales restringido