Fondamenti di Data Science: Integrazione, Machine Learning e Modelli Statistici

Inviato da Anonimo e classificato in Matematica

Scritto il in con una dimensione di 5,33 KB

Integrazione dei Dati

L’integrazione dei dati serve a unire fonti diverse in un’unica interfaccia, rendendo l'elaborazione automatica e veloce anche con volumi massicci di informazioni.

Il processo parte dalla ricerca di fonti credibili e comparabili, per poi passare all'ETL: si estraggono i dati (via API o download), si trasformano per renderli omogenei e si caricano nel sistema. Fondamentale è la mappatura tramite ID:

  • Sistema centralizzato (es. Codice Fiscale): flessibile ma richiede continue operazioni di JOIN per collegare le tabelle.
  • Sistema distribuito: più rapido perché evita i JOIN, ma più rigido da gestire.

Infine, l'integrazione può essere discreta (ad intervalli programmati) o continua (in tempo reale). Una volta consolidato, il database permette analisi statistiche profonde e lo scambio di dati con altre tecnologie.

Metriche di Valutazione

  • Accuracy: misura la complessità.
  • Precision: con quale frequenza la previsione di un risultato positivo è corretta.
  • Recall (True Positive Rate): di tutti i positivi effettivi, quanti ne sono stati previsti.
  • False Positive Rate: percentuale di falsi allarmi.

Modelli di Apprendimento

Previsione (Regressione)

Utilizzata se l'obiettivo è prevedere risultati numerici. L'output è continuo (può assumere qualsiasi valore su una scala).

Classificazione

Utilizzata per classificare un input. I problemi ruotano su una classificazione binaria (Sì/No) o multinomiale (es. scala Likert 0-5). Si calcola la probabilità di appartenenza e si seleziona quella più alta.

L'obiettivo è avere un modello con basso Bias (flessibilità) e bassa Varianza (robustezza).

Feature Engineering

Il feature engineering è il processo di trasformazione dei dati grezzi in variabili utilizzabili nei modelli di apprendimento automatico per efficientare il sistema.

  • Creazione: generazione di nuove feature basate sulla conoscenza del dominio.
  • Trasformazione: conversione delle caratteristiche (normalizzazione, ridimensionamento, trasformazioni matematiche).
  • Estrazione: riduzione, combinazione tramite interazione tra variabili e aggregazione.
  • Selezione: scelta delle caratteristiche rilevanti tramite filtri statistici o metodi wrapped.

La maledizione della dimensionalità consiste in un aumento proporzionale delle variabili che rende i dati "sparsi" e difficili da analizzare.

Riduzione della Dimensionalità

PCA (Principal Component Analysis)

Metodo lineare che trasforma i dati in un nuovo sistema di coordinate (componenti principali) preservando la varianza globale. Include: standardizzazione (Z-score), calcolo della matrice di covarianza, autovettori e autovalori.

UMAP

Tecnica non lineare basata sulla topologia algebrica. Preserva la struttura globale e locale, risultando ideale per la visualizzazione pre-clustering.

Algoritmi di Clustering

  • Linkage completo: crea cluster compatti, resistente al rumore.
  • Linkage singolo: eccellente per cluster allungati, rischia il concatenamento.
  • Linkage medio: bilancia gli effetti del completo e del singolo.
  • Centroid linkage: efficiente per cluster sferici.
  • Metodo di Ward: minimizza la varianza intracluster (SSE).

Nel DBSCAN, il parametro eps si determina tramite il "punto a gomito" nel grafico k-N, mentre minPts si imposta solitamente come dimensione del dataset + 1.

Modelli Supervisionati

Regressione Lineare

Modella la relazione tra una variabile continua Y e una variabile X. Si basa sul metodo dei minimi quadrati (OLS). Assunzioni: linearità, indipendenza degli errori, omoschedasticità, normalità dei residui e assenza di multicollinearità.

Decision Tree (CART)

Algoritmo non parametrico che suddivide lo spazio in aree decisionali. Utilizza criteri di pre-pruning (restrizione profondità/dimensione) o post-pruning (costo-complessità con parametro alfa).

Regressione Logistica

Utilizza la funzione sigmoidea per calcolare probabilità (0-1). La performance si valuta tramite matrice di confusione e curva AUC-ROC.

Support Vector Machine (SVM)

Cerca l'iperpiano che massimizza il margine tra le classi. Il Kernel Trick permette di gestire dati non linearmente separabili proiettandoli in spazi a dimensione superiore.

Serie Temporali

  • ACF: misura la correlazione includendo effetti indiretti.
  • PACF: misura la correlazione rimuovendo l'influenza dei lag intermedi.
  • AR (Auto Regressive): regressione rispetto ai valori passati.
  • MA (Moving Average): il valore dipende dagli errori passati.
  • ARIMA(p,d,q): unione di AR e MA con differenziazione (d).

Voci correlate: