Técnicas de análisis multivariada para la puntuación
Objetivos
El curso trata de la modelística previsiva a través del uso del software SAS/STAT, poniendo una atención particular al Proc LOGISTIC. Para el desarrollo de los Árboles Decisionales se usa el software Enterprise Miner. Objetivo del curso es construir un entero proceso previsional respecto a un evento target binario, ilustrando las modalidades para la correcta individuación y definición del evento, la selección de las variables explicativas, la valoración de los modelos, el tratamiento de los valores que falten y las técnicas más eficientes para la gestión de grandes volúmenes de datos.
Destinatarios
Analistas estadísticos, expertos de data mining, usuarios del negocio; los argumentos presentados se refieren en particular a las áreas de bases de datos de marketing, evaluación de los riesgos de crédito, relevación de los fraudes y, más en general, a las aplicaciones de modelística previsiva.
Requisitos
Se requiere una experiencia de base en el uso del lenguaje SAS y un conocimiento por lo menos escolástico de la estadística. Es aconsejable una experiencia de base en el análisis de los datos.
Contenidos
Preparación de la Base Datos
- Definición del fenómeno que se debe analizar (intervalo temporal de análisis)
- Individuación de las fuentes de datos
- Diseño y Construcción de la Tabla de Clientes
- Construcción de la variable TARGET
- Determinación de la muestra de desarrollo (DESARROLLO/VALIDACIÓN)
- Análisis de las características (missing, outlier, ...)
Regresión Logística
- Hipótesis subyacentes al modelo
- Estima de los parámetros
- Significatividad del modelo
- Significatividad de los regresores individuales
- Diagnósticos de Fit
- Análisis de residuos
- Análisis de influencia
- Interacción entre variables
- Multicolinearidad
- Procedimientos de selección
Árboles decisonales
- Hipótesis subyacentes al modelo
- Fases del algoritmo: partición iterativa, podadura
- Criterios de split: Chi-square, Entropía, Gini; ajustes
- Árbol decisional de regresión
- Tratamiento Missing
- Sobreajustes
Evaluación
- Comparación de modelos estimados
- Valoración de las performance y de indicios de pérdidas/beneficios de los modelos estimados