Tecniche di analisi multivariata per lo scoring
Obiettivi
Il corso tratta la modellistica previsiva tramite l’utilizzo del software SAS/STAT, ponendo una particolare attenzione alla Proc LOGISTIC. Per lo sviluppo degli Alberi Decisionali si utilizza il software Enterprise Miner. Obiettivo del corso è costruire un intero processo previsionale rispetto ad un evento target binario, illustrando le modalità per la corretta individuazione e definizione dell’evento, la selezione delle variabili esplicative, la valutazione dei modelli, il trattamento dei valori mancanti e le tecniche più efficienti per la gestione di grandi volumi di dati.
Destinatari
Analisti statistici, esperti di data mining, business user; gli argomenti presentati si riferiscono in particolare alle aree dei database di marketing, della valutazione dei rischi di credito, della rilevazione frodi e, più in generale, alle applicazioni di modellistica previsiva.
Requisiti
È richiesta un’esperienza di base nell’utilizzo del linguaggio SAS e una conoscenza almeno scolastica della statistica. È consigliabile un’esperienza di base nell’analisi dei dati.
Contenuti
Preparazione della Base Dati
- Definizione del fenomeno da analizzare (intervallo temporale di analisi)
- Individuazione delle fonti dati
- Disegno e Costruzione della Customer Table
- Costruzione della variabile TARGET
- Determinazione del campione di sviluppo (TRAINING/VALIDATION)
- Analisi delle caratteristiche (missing, outlier, ...)
Regressione Logistica
- Ipotesi sottostanti il modello
- Stima dei parametri
- Significatività del modello
- Significatività dei singoli regressori
- Diagnostiche di Fit
- Analisi dei residui
- Analisi di influenza
- Interazione tra variabili
- Multicollinearità
- Procedure di selezione
Alberi Decisionali
- Ipotesi sottostanti il modello
- Fasi dell’algoritmo: partizione iterativa, pruning
- Criteri di split: Chi-square, Entropia, Gini; aggiustamenti
- Albero Decisionale di Regressione
- Trattamento Missing
- Overfitting
Assessment
- Confronto di modelli stimati
- Valutazione delle performance e di indici di lost/profit dei modelli stimati
Durata
Il corso ha una durata di 3 giorni.