english | español

contatti

Text Mining: teoria e applicazioni

la copertina del libro
We are being drowned in information
while being starved for knowledge
and distracted from wisdom.
N. Myers,
Challenge and Opportunity in an Age of Change

Prefazione

di Alberto Saccardi

La crescente disponibilità di dati offre la grande opportunità di progredire nella comprensione di quelle interazioni che caratterizzano il vivere sociale, mediante un lavoro di organizzazione, sintesi e analisi del dato stesso.

Motore di questa crescente disponibilità di informazioni è la misurazione dei comportamenti: ogniqualvolta compro o non compro un determinato prodotto, aderisco o non aderisco ad un servizio, effettuo una telefonata o un versamento sul mio conto corrente è possibile tracciare in forma digitale l’azione compiuta, generando così un dato che crea i presupposti per l’impiego di metodi statistici finalizzati all’analisi di fenomeni complessi.

Di questi comportamenti conosco la dimensione temporale, ossia quando sono stati effettuati, e la loro “intensità”, effettuo una telefonata di dieci minuti oppure verso mille euro sul conto. Detto in altre parole, tali comportamenti sono direttamente misurabili in variabili quantitative che costituiscono l’input ai processi di Data Mining.

Quando queste azioni sono valutazioni od opinioni non riconducili a modalità prestabilite, ad esempio l’espressione di un giudizio in relazione ad un particolare servizio, oppure il proprio pensiero sull’offerta della concorrenza, emerge la difficoltà di analizzare, con metodi tradizionali, variabili il cui contenuto sia un testo. È in questo scenario che bisogna collocare il Text Mining, come l’impiego di tecniche di analisi dei dati basate sulla ricerca di regolarità tra stringhe di caratteri memorizzate su variabili aperte. Si consideri che stiamo assistendo alla proliferazione di una massa impressionante di informazione “nascosta” sotto forma di documenti di testo non strutturato, resa disponibile grazie all’introduzione di nuovi strumenti/canali quali netnews, messaggi e-mail, pagine Web, ecc. Contemporaneamente si registra lo sviluppo dell’infrastruttura hardware-software in termini di velocità computazionale e di capacità gestionale. In definitiva, la circolazione di una grande ricchezza di informazione in linguaggio naturale e l’aumentata possibilità di trattare questo tipo di dato rende di grande interesse l’approccio all’analisi dei dati testuali.

Da un punto di vista applicativo gli scenari in cui è possibile sfruttare metodi di Text Mining sono molteplici. Si pensi, ad esempio, ai call center: le note inserite dagli operatori sono spesso una miniera di informazioni preziose per cogliere elementi caratteristici dei clienti; così come è possibile creare dei classificatori automatici dei motivi di chiamata, eliminando problemi di tipo interpretativo. Un altro scenario possibile è quello relativo agli acquisti on line: in questo contesto è possibile analizzare non solo i dati di vendita, ma anche le descrizioni testuali dei prodotti commercializzati al fine di rendere più completa la profilazione dei clienti.

Questo il contesto in cui si colloca il presente volume, la cui struttura è caratterizzata dalla sequenza di una prima parte metodologica e di una seconda applicativa. Nella prima parte lo sforzo è stato quello di individuare uno schema concettuale nel quale collocare il Text Mining, organizzando in una visione unitaria la teoria esistente, espressione di lavori di ricerca finalizzati alla soluzione di specifici problemi. Nella seconda parte, invece, si riportano alcune applicazioni esemplificative di casi realmente analizzati. Tali applicazioni offrono l’indicazione di soluzioni utili e ripetibili per affrontare problematiche riconducibili a quelle presentate.