Insegnamento
DATA MINING
SC01111799, A.A. 2018/19

Principali informazioni sull'insegnamento
Corso di studio Corso di laurea magistrale in
INFORMATICA
SC1176, ordinamento 2014/15, A.A. 2018/19
1173421
Crediti formativi 6.0
Denominazione inglese DATA MINING
Sito della struttura didattica http://informatica.scienze.unipd.it/2018/laurea_magistrale
Dipartimento di riferimento Dipartimento di Matematica
Obbligo di frequenza No
Lingua di erogazione ITALIANO
Sede PADOVA

Docenti
Responsabile ANNAMARIA GUOLO SECS-S/01

Dettaglio crediti formativi
Tipologia Ambito Disciplinare Settore Scientifico-Disciplinare Crediti
AFFINE/INTEGRATIVA Attività formative affini o integrative SECS-S/01 6.0

Modalità di erogazione
Periodo di erogazione Secondo semestre
Anno di corso I Anno
Modalità di erogazione frontale

Organizzazione della didattica
Tipo ore Crediti Ore di
Corso
Ore Studio
Individuale
Turni
LABORATORIO 2.0 16 34.0 Nessun turno
LEZIONE 4.0 34 66.0 Nessun turno

Calendario
Inizio attività didattiche 25/02/2019
Fine attività didattiche 14/06/2019

Syllabus
Prerequisiti: Conoscenze di Informatica di base, Basi di Dati. Conoscenze di base di Probabilità e Statistica sono utili anche se non indispensabili.
Conoscenze e abilita' da acquisire: Ci si attende che lo studente acquisisca le seguenti conoscenze e abilità:

- padronanza dei principi di data mining per l’analisi di insiemi di dati anche ad elevata dimensionalità;
- costruzione di modelli appropriati per l’analisi di insiemi di dati e la previsione;
- analisi dei dati tramite il software R, considerando sia analisi grafiche sia analisi di modellazione;
- valutazione ed interpretazione critica dei risultati ottenuti;
- capacità di comunicazione delle analisi dei dati effettuate e dei risultati conseguiti.
Modalita' di esame: L’esame consiste in due prove scritte.
1) La prima prova (durata 1 ora) riguarda il modello di regressione lineare e consiste in una serie di domande a risposta multipla ed esercizi. Gli esercizi si riferiscono all’analisi di un insieme di dati reali e comprendono analisi numeriche, interpretazione di output da analisi effettuate in R e commenti di analisi grafiche. La prima prova si svolgerà dopo la prima metà del corso.
Durante la prima prova è ammesso l’utilizzo di una calcolatrice tascabile.

2) La seconda prova si svolge in laboratorio informatico (durata 2 ore e 30 minuti) ed è costituita dall’analisi di un insieme di dati reali tramite il software R. Si richiede la scrittura di un report che descriva l’analisi condotta, riportando le principali rappresentazioni grafiche e stime dei modelli e un'adeguata interpretazione dei risultati conseguiti.
Durante la prova lo studente può consultare il materiale del corso, quale il libro di testo, le slides, le dispense di laboratorio.

La valutazione finale della prova è una media dei risultati delle due prove scritte.

Gli studenti che non effettueranno la prima prova a metà del corso potranno sostenerla immediatamente dopo la seconda prova in laboratorio.
Criteri di valutazione: La prova d’esame d’esame ha lo scopo di
1) valutare le conoscenze acquisite relativamente alla costruzione e selezione di un modello di regressione lineare ed alla interpretazione critica dei risultati grafici e analitici conseguiti;
2) valutare le conoscenze acquisite relativamente all'applicazione di tecniche di modellazione appropriate per l’analisi di insieme di dati reali di natura diversa e per la previsione, con attenzione al caso di dati ad alta dimensionalità;
3) valutare le capacità di utilizzo delle funzionalità del software R per condurre una completa analisi di insiemi di dati reali;
4) valutare le capacità di interpretazione e comunicazione dei risultati dell’analisi di un insieme di dati reali.
Contenuti: - Introduzione al corso: l’analisi dei dati come strumento di supporto per le decisioni. Motivazioni e contesto per il data mining.
- Modello lineare semplice e multiplo: stima, intervalli di confidenza, test di verifica d’ipotesi, livello di significatività osservato, previsione, selezione del modello, analisi dei residui, correlazione spuria, multicollineaerità
- Metodi di classificazione: regressione logistica, analisi discriminante lineare ed estensioni
- Criteri per la selezione del modello: validazione incrociata, R2 aggiustato, AIC, BIC, selezione automatica
- Regolarizzazione: regression ridge e lasso
- Regressione con componenti principali
- Regressione semiparametrica: splines di regressione, splines di lisciamento, modelli additivi generalizzati
Attivita' di apprendimento previste e metodologie di insegnamento: L’attività prevede
1) lezioni frontali, nelle quali vengono illustrati i contenuti del corso tramite l’utilizzo di slides relative agli aspetti teorici e all’analisi di insiemi di dati, con l’obiettivo di promuovere la discussione e la riflessione critica in aula;
2) esercitazioni in laboratorio informatico, per introdurre gli studenti all’analisi di insiemi dati reali tramite l’utilizzo del software R.
Eventuali indicazioni sui materiali di studio: Libro di testo. Sulla piattaforma Moodle sarà reso disponibile del materiale aggiuntivo, che include
1) le slides del corso;
2) le dispense di laboratorio informatico con R;
3) articoli e note dalla letteratura statistica e di data mining.
Testi di riferimento:
  • Gareth, J., Witten, D., Hastie, T., Tibshirani, R., An Introduction to Statistical Learning with Applications in R. --: Springer, 2013. Cerca nel catalogo