Presentazione

Organizzazione della Didattica

DM270
INFORMATICA ORD. 2014

Data mining

6

Corsi comuni

 

Frontali Esercizi Laboratorio Studio Individuale
ORE: 34 0 16 102

Periodo

AnnoPeriodo
I anno2 semestre

Frequenza

Facoltativa

Erogazione

Convenzionale

Lingua

Inglese

Calendario Attività Didattiche

InizioFine
25/02/201914/06/2019

Tipologia

TipologiaAmbitoSSDCFU
affine/integrativo Nessun ambitoSECS-S/016


Responsabile Insegnamento

ResponsabileSSDStruttura
Dott.ssa CATTELAN MANUELASECS-S/01Dipartimento di Scienze Statistiche

Altri Docenti

DocenteCoperturaSSDStruttura
Dott. CANALE ANTONIOIstituzionaleSECS-S/01Dipartimento di Scienze Statistiche
Dott. RISSO DAVIDEIstituzionaleSECS-S/01Dipartimento di Scienze Statistiche

Attività di Supporto alla Didattica

Non previste

Bollettino

Conoscenze di Informatica di base, Basi di Dati. Conoscenze di base di Probabilità e Statistica sono utili anche se non indispensabili.

Ci si attende che lo studente acquisisca le seguenti conoscenze e abilità: - padronanza dei principi di data mining per l’analisi di insiemi di dati anche ad elevata dimensionalità; - costruzione di modelli appropriati per l’analisi di insiemi di dati e la previsione; - analisi dei dati tramite il software R, considerando sia analisi grafiche sia analisi di modellazione; - valutazione ed interpretazione critica dei risultati ottenuti; - capacità di comunicazione delle analisi dei dati effettuate e dei risultati conseguiti.

L’attività prevede 1) lezioni frontali, nelle quali vengono illustrati i contenuti del corso tramite l’utilizzo di slides relative agli aspetti teorici e all’analisi di insiemi di dati, con l’obiettivo di promuovere la discussione e la riflessione critica in aula; 2) esercitazioni in laboratorio informatico, per introdurre gli studenti all’analisi di insiemi dati reali tramite l’utilizzo del software R.

- Introduzione al corso: l’analisi dei dati come strumento di supporto per le decisioni. Motivazioni e contesto per il data mining. - Modello lineare semplice e multiplo: stima, intervalli di confidenza, test di verifica d’ipotesi, livello di significatività osservato, previsione, selezione del modello, analisi dei residui, correlazione spuria, multicollineaerità - Metodi di classificazione: regressione logistica, analisi discriminante lineare ed estensioni - Criteri per la selezione del modello: validazione incrociata, R2 aggiustato, AIC, BIC, selezione automatica - Regolarizzazione: regression ridge e lasso - Regressione con componenti principali - Regressione semiparametrica: splines di regressione, splines di lisciamento, modelli additivi generalizzati

L’esame consiste in due prove scritte. 1) La prima prova (durata 1 ora) riguarda il modello di regressione lineare e consiste in una serie di domande a risposta multipla ed esercizi. Gli esercizi si riferiscono all’analisi di un insieme di dati reali e comprendono analisi numeriche, interpretazione di output da analisi effettuate in R e commenti di analisi grafiche. La prima prova si svolgerà dopo la prima metà del corso. Durante la prima prova è ammesso l’utilizzo di una calcolatrice tascabile. 2) La seconda prova si svolge in laboratorio informatico (durata 2 ore e 30 minuti) ed è costituita dall’analisi di un insieme di dati reali tramite il software R. Si richiede la scrittura di un report che descriva l’analisi condotta, riportando le principali rappresentazioni grafiche e stime dei modelli e un'adeguata interpretazione dei risultati conseguiti. Durante la prova lo studente può consultare il materiale del corso, quale il libro di testo, le slides, le dispense di laboratorio. La valutazione finale della prova è una media dei risultati delle due prove scritte. Gli studenti che non effettueranno la prima prova a metà del corso potranno sostenerla immediatamente dopo la seconda prova in laboratorio.

La prova d’esame d’esame ha lo scopo di 1) valutare le conoscenze acquisite relativamente alla costruzione e selezione di un modello di regressione lineare ed alla interpretazione critica dei risultati grafici e analitici conseguiti; 2) valutare le conoscenze acquisite relativamente all'applicazione di tecniche di modellazione appropriate per l’analisi di insieme di dati reali di natura diversa e per la previsione, con attenzione al caso di dati ad alta dimensionalità; 3) valutare le capacità di utilizzo delle funzionalità del software R per condurre una completa analisi di insiemi di dati reali; 4) valutare le capacità di interpretazione e comunicazione dei risultati dell’analisi di un insieme di dati reali.

Gareth, J., Witten, D., Hastie, T., Tibshirani, R., An Introduction to Statistical Learning with Applications in R. : Springer, 2013

Libro di testo. Sulla piattaforma Moodle sarà reso disponibile del materiale aggiuntivo, che include 1) le slides del corso; 2) le dispense di laboratorio informatico con R; 3) articoli e note dalla letteratura statistica e di data mining.