Fondamenti di Data Science: Integrazione, Machine Learning e Modelli Statistici
Inviato da Anonimo e classificato in Matematica
Scritto il in
con una dimensione di 5,33 KB
Integrazione dei Dati
L’integrazione dei dati serve a unire fonti diverse in un’unica interfaccia, rendendo l'elaborazione automatica e veloce anche con volumi massicci di informazioni.
Il processo parte dalla ricerca di fonti credibili e comparabili, per poi passare all'ETL: si estraggono i dati (via API o download), si trasformano per renderli omogenei e si caricano nel sistema. Fondamentale è la mappatura tramite ID:
- Sistema centralizzato (es. Codice Fiscale): flessibile ma richiede continue operazioni di JOIN per collegare le tabelle.
- Sistema distribuito: più rapido perché evita i JOIN, ma più rigido da gestire.
Infine, l'integrazione può essere discreta (ad intervalli programmati) o continua (in tempo reale). Una volta consolidato, il database permette analisi statistiche profonde e lo scambio di dati con altre tecnologie.
Metriche di Valutazione
- Accuracy: misura la complessità.
- Precision: con quale frequenza la previsione di un risultato positivo è corretta.
- Recall (True Positive Rate): di tutti i positivi effettivi, quanti ne sono stati previsti.
- False Positive Rate: percentuale di falsi allarmi.
Modelli di Apprendimento
Previsione (Regressione)
Utilizzata se l'obiettivo è prevedere risultati numerici. L'output è continuo (può assumere qualsiasi valore su una scala).
Classificazione
Utilizzata per classificare un input. I problemi ruotano su una classificazione binaria (Sì/No) o multinomiale (es. scala Likert 0-5). Si calcola la probabilità di appartenenza e si seleziona quella più alta.
L'obiettivo è avere un modello con basso Bias (flessibilità) e bassa Varianza (robustezza).
Feature Engineering
Il feature engineering è il processo di trasformazione dei dati grezzi in variabili utilizzabili nei modelli di apprendimento automatico per efficientare il sistema.
- Creazione: generazione di nuove feature basate sulla conoscenza del dominio.
- Trasformazione: conversione delle caratteristiche (normalizzazione, ridimensionamento, trasformazioni matematiche).
- Estrazione: riduzione, combinazione tramite interazione tra variabili e aggregazione.
- Selezione: scelta delle caratteristiche rilevanti tramite filtri statistici o metodi wrapped.
La maledizione della dimensionalità consiste in un aumento proporzionale delle variabili che rende i dati "sparsi" e difficili da analizzare.
Riduzione della Dimensionalità
PCA (Principal Component Analysis)
Metodo lineare che trasforma i dati in un nuovo sistema di coordinate (componenti principali) preservando la varianza globale. Include: standardizzazione (Z-score), calcolo della matrice di covarianza, autovettori e autovalori.
UMAP
Tecnica non lineare basata sulla topologia algebrica. Preserva la struttura globale e locale, risultando ideale per la visualizzazione pre-clustering.
Algoritmi di Clustering
- Linkage completo: crea cluster compatti, resistente al rumore.
- Linkage singolo: eccellente per cluster allungati, rischia il concatenamento.
- Linkage medio: bilancia gli effetti del completo e del singolo.
- Centroid linkage: efficiente per cluster sferici.
- Metodo di Ward: minimizza la varianza intracluster (SSE).
Nel DBSCAN, il parametro eps si determina tramite il "punto a gomito" nel grafico k-N, mentre minPts si imposta solitamente come dimensione del dataset + 1.
Modelli Supervisionati
Regressione Lineare
Modella la relazione tra una variabile continua Y e una variabile X. Si basa sul metodo dei minimi quadrati (OLS). Assunzioni: linearità, indipendenza degli errori, omoschedasticità, normalità dei residui e assenza di multicollinearità.
Decision Tree (CART)
Algoritmo non parametrico che suddivide lo spazio in aree decisionali. Utilizza criteri di pre-pruning (restrizione profondità/dimensione) o post-pruning (costo-complessità con parametro alfa).
Regressione Logistica
Utilizza la funzione sigmoidea per calcolare probabilità (0-1). La performance si valuta tramite matrice di confusione e curva AUC-ROC.
Support Vector Machine (SVM)
Cerca l'iperpiano che massimizza il margine tra le classi. Il Kernel Trick permette di gestire dati non linearmente separabili proiettandoli in spazi a dimensione superiore.
Serie Temporali
- ACF: misura la correlazione includendo effetti indiretti.
- PACF: misura la correlazione rimuovendo l'influenza dei lag intermedi.
- AR (Auto Regressive): regressione rispetto ai valori passati.
- MA (Moving Average): il valore dipende dagli errori passati.
- ARIMA(p,d,q): unione di AR e MA con differenziazione (d).