Presentazione

Organizzazione della Didattica

DM270
SCIENZE STATISTICHE ORD. 2014

Analisi dei dati (data mining)

9

Corsi comuni

 

Frontali Esercizi Laboratorio Studio Individuale
ORE: 34 0 30 69

Periodo

AnnoPeriodo
I anno2 semestre

Frequenza

Facoltativa

Erogazione

Convenzionale

Lingua

Italiano

Calendario Attività Didattiche

InizioFine
01/03/201611/06/2016

Tipologia

TipologiaAmbitoSSDCFU
caratterizzanteStatisticoSECS-S/019


Responsabile Insegnamento

ResponsabileSSDStruttura
Prof. SCARPA BRUNOSECS-S/01Dipartimento di Scienze Statistiche

Altri Docenti

Non previsti

Attività di Supporto alla Didattica

Non previste

Bollettino

Modelli statistici II Classificazione e Analisi dei dati Multidimensionali, un primo corso di Programmazione, un primo corso di Algebra Lineare



- Nozioni generali: motivazioni e contesto, contrasto tra aderenza ai dati e complessità del modello ovvero contrasto tra distorsione e varianza, tecniche generali per la selezione del modello (AIC, BIC, convalida incrociata, oltre ai test statistici classici), suddivisione dei dati in un insieme di lavoro e uno di verifica. - Metodi di regressione: richiami sui modelli lineari e sui glm; regressione non parametrica mediante il metodo della regressione locale, splines di regressione, splines di lisciamento, modelli additivi, alberi, mars, projection pursuit, reti neurali (cenni). - Metodi di classificazione: mediante la regressione lineare, richiami sulla regressione logistica e multilogit, modelli additivi, alberi, polymars, reti neurali, combinazione di classificatori (bagging, boosting, foreste casuali), support vector machines. - Metodi di analisi interna: nozioni sui metodi di raggruppamento: dissimilarità, metodo delle k-medie, metodi gerarchici. Analisi delle associazioni tra variabili, algoritmo Apriori. Reti sociali (cenni). - Miscellanea: sentiment analysis (cenni), tecniche di visualizzazione dei dati, cenni ad aspetti computazionali.

La prova d'esame consta di tre parti: una parte "teorica", una "pratica" ed una "orale".


Azzalini, A. e Scarpa, B., Data analysis and data mining: an introduction. New York: Oxford University Press, 2012 Azzalini, A. e Scarpa, B., Analisi dei dati e data mining. : Springer-Verlag Italia, 2004

Strumenti informatici Lo strumento di calcolo primario adottato per questo corso è l'ambiente di programmazione R; questo può essere prelevato, assieme alla relativa documentazione, da una postazione CRAN.