Presentazione

Organizzazione della Didattica

DM270
SCIENZE STATISTICHE ORD. 2014


9

Corsi comuni

 

Frontali Esercizi Laboratorio Studio Individuale
ORE: 64 0 0 69

Periodo

AnnoPeriodo
I anno2 semestre

Frequenza

Facoltativa

Erogazione

Convenzionale

Lingua

Inglese

Calendario Attività Didattiche

InizioFine
26/02/201801/06/2018

Tipologia

TipologiaAmbitoSSDCFU
affine/integrativo Nessun ambitoING-INF/059


Responsabile Insegnamento

ResponsabileSSDStruttura
Prof. MELUCCI MASSIMOING-INF/05Dipartimento di Ingegneria dell'Informazione

Altri Docenti

DocenteCoperturaSSDStruttura
DA ASSEGNARE-N.D.

Attività di Supporto alla Didattica

Non previste.

Bollettino

I prerequisiti sono relativamente semplici, ma necessari: elementi di strutture di dati (variabile, file, vettore, matrice), algoritmi elementari, sistemi di elaborazione, e sistemi di gestione delle basi di dati. La conoscenza di un linguaggio di programmazione e' utile, ma non strettamente necessaria.

S’intende fornire le conoscenze concrete di metodi e strumenti informatici affinché uno studente possegga maggiore competenza in Statistica di un informatico e maggiore competenza in Informatica di uno statistico. Particolare enfasi sarà posta su programmazione e gestione dei dati.

I contenuti saranno trattati in forma prevalentemente laboratoriale mediante lo sviluppo di programmi e l’utilizzo di librerie software in Python. Gli elementi metodologici saranno introdotti allo scopo di conoscere le problematiche sottostanti, di progettare e realizzare progetti, e di utilizzare gli strumenti in modo consapevole.

1. Introduzione a Python: ambiente, costrutti, primi esempi. 2. Raccolta, organizzazione e gestione di grandi masse di dati: pattern matching, parsing, SQL, XML, JSON. 3. Strutture di dati fondamentali: liste, hash, grafi, alberi. 4. Algoritmi fondamentali: ricorsione, ricerca, ordinamento. 5. Architetture distribuite, parallele e cloud: Hadoop, MapReduce. 6. Motori di ricerca: crawling, indexing, ranking, Relevance Feedback. 7. Reti, link e click-through: WWW, Link Analysis, HITS, Pagerank, Learning to Rank. 8. Latent Semantic Analysis, decomposizione. 9. Topic Modeling e dati in streaming: Latent Dirichlet Allocation, Probabilistic Latent Semantic Analysis, Streaming (Twitter), Spark.

Data la natura e le modalità d’insegnamento, la prova d’esame sarà orale e si baserà sulla discussione di un progetto d'approfondimento delle tematiche affrontate. Il progetto prevederà la programmazione e la gestione dei dati.

Si valuterà la comprensione delle problematiche e la capacità di trovare e di progettare soluzioni automatizzate per l'organizzazione, la gestione e l'analisi di dati allo scopo di svolgere i compiti illustrati nei contenuti e previsti dal progetto della prova orale.

Leskovec, Juri; Rajaraman, Anand; Ullman, Jeffrey D., Mining Massive Datasets. : Cambridge University Press, 2014 Melucci, Massimo, Information Retrieval. : Franco Angeli, 2013 Aho, Alfred; Ullmann, Jeffrey D., Fondamenti di informatica. : Zanichelli, Atzeni, et al, Basi di dati. : McGraw-Hill, 2014

Materiale didattico sarà distribuito durante le lezioni in aggiunta ai testi di riferimento. Alcuni testi, specialmente quelli per la programmazione e la gestione dei dati, saranno indicati all'inizio delle lezioni.