Alternativas de construcción de modelos de segmentación y credit scoring

El credit scoring es un método estadístico para estimar la probabilidad de incumplimiento (default) de un prestatario, usando su información histórica y estadística para obtener un indicador que permita distinguir los buenos deudores de los malos deudores. Los modelos de scoring de crédito son empleados para evaluar el riesgo de crédito a nivel individual de un deudor o persona que este solicitando un crédito.

En términos de metodologías de análisis para construir segmentación y para construir credit scoring, hace algunos años en términos de crédito, por ejemplo, lo que se hacía era que el pull de expertos daban una serie de ponderaciones  basados en el conocimiento del negocio y tomaban una decisión sobre quién era un sujeto de crédito confiable o no, y esas alternativas han venido cambiando, pero ese cambio se ha dado fundamentalmente por avances en la tecnología y en ese sentido, construir nuevas técnicas de análisis de datos va mucho más allá de lo que convencionalmente se ha hecho.

Los cambios tecnológicos han hecho que aparezcan nuevas maneras y nuevas formas de datos que antes no existían y que nosotros necesitamos tener en consideración para poder construir modelos de segmentación y modelos de credit scoring:  

  • Nuevas fuentes de información
  • Nuevos tipos de datos
  • Nuevas metodologías de análisis

Datos estructurados, datos que tiene un modelo definido o provienen de un campo determinado en un registro. Ejemplo: precios de acciones, base de datos de compras y rastreo web.

Datos no estructurados, no tienen un modelo predefinido o no están organizados de alguna manera. Ejemplo: fotografías, documentos de texto y video.

Las entidades antes se preocupaban por tener pocos datos, ahora el problema es que tienen demasiados, y se preguntan  ¿qué hago yo con eso? ¿Cómo analizar los datos?, ¿de qué manera poder tener o poder tomar una decisión?. De hecho, por ejemplo, en los ejercicios de segmentación realizados con algunas entidades, el número de registros alcanzan a ser hasta de un millón, de transacciones hechas, y la pregunta final es ¿cómo yo saco patrones en un millón de transacciones? Entonces, es en este punto en donde se habla de un cambio de paradigma en términos de análisis de datos, porque es que ya no es tan simple ver relaciones en variables sino es mucho más complejo porque es que la cantidad de información disponible es grande.  Pero todas esas cosas que tiene el big data, generan varios problemas que están en el debate y están sobre la mesa en muchas situaciones, tales como:

  • Problemas de privacidad
  • Discriminación
  • Representatividad de la información
  • Demanda tecnológica
  • Personal capacitado

Vale la pena destacar el papel de la inteligencia artificial entendida como una máquina que tiene funciones similares a las que tiene el cerebro humano, es decir, que tiene la posibilidad de percibir, razonar, aprender y resolver problemas, con una característica fundamental, sin instrucciones.

Los sistemas de inteligencia artificial, tienen una parte que se llama aprendizaje automático, es decir, el estudio de los algoritmos y los modelos estadísticos que le permiten a las máquinas poder representar esas funciones, es decir, percibir, razonar, aprender y solucionar problemas, de nuevo, siendo específicos en, sin darle instrucciones específicas,  hay una que se llama el aprendizaje profundo, es a través de algo que se llama las redes neuronales artificiales, es decir, utilizar modelos que representen una red neuronal para representar cómo sería la realidad, cómo sería ese proceso de toma de decisiones.

Para finalizar, es el momento de mencionar y analizar y definir los dos modelos de análisis:

Modelo de análisis supervisado En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados”, intentado encontrar una función que, dadas las variables de entrada, les asigne la etiqueta de salida adecuada. El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor da salida.

El aprendizaje supervisado se suele usar en problemas de clasificación, como identificación de dígitos, diagnósticos, o detección de fraude de identidad.  También se usa en problemas de regresión, como predicciones meteorológicas, de expectativa de vida, de crecimiento etc. Estos dos tipos principales de aprendizaje supervisado, clasificación y regresión, se distinguen por el tipo de variable objetivo.

Modelo de análisis no supervisado El aprendizaje no supervisado tiene lugar cuando no se dispone de datos “etiquetados”  para el entrenamiento. Sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar algún tipo de organización que simplifique el análisis.

El aprendizaje no supervisado se suele usar en problemas de clustering, agrupamientos de co-ocurrencia y profiling. Sin embargo, los problemas que implican tareas de encontrar similitud, predicción de enlaces o reducción de datos, pueden ser supervisados o no.

Ponente Fernando Santa tomado del Congreso de Asoriesgo

Redacción Perspectiva

Perspectiva

Somos el medio aliado y especializado en el sector solidario colombiano. Llevamos más de seis años brindando información de interés general, para enaltecer la economía solidaria.

No hay comentarios aún

Dejar un comentario

Your email address will not be published.