Fondamenti di Data Mining e Modellazione Statistica

Classificato in Matematica

Scritto il in italiano con una dimensione di 3,15 KB

Definizioni Principali nel Data Mining

  • Previsione: consiste nello stimare il valore futuro di una variabile che è soggetta a cambiamenti casuali nel tempo. Viene rigorosamente applicata su serie temporali, ovvero insiemi di dati il cui dominio è il tempo.
  • Regressione: la regressione è una generalizzazione della classificazione (quando il dominio delle classi è continuo) e della previsione. A seconda del significato delle variabili dipendenti e indipendenti, il modello risultante è di classificazione o di previsione. L'obiettivo è quello di trovare un modello matematico o statistico che metta in relazione propriamente la variabile dipendente con le variabili indipendenti. Geometricamente, la regressione consiste nel trovare una funzione che passi il più vicino possibile (in media) ai punti (osservazioni) che fanno parte del campione.
  • Partenariato: il partenariato affronta temi come la Market Basket Analysis, al fine di individuare le tendenze di acquisto dei clienti. Trova la possibile relazione fra due eventi apparentemente indipendenti.


Approcci Algoritmici e Attività degli Algoritmi MD

Di seguito sono elencate le attività principali che soddisfano gli algoritmi di Data Mining (MD):

Stima

La stima della popolazione viene effettuata a partire dal campione (matrice dei dati, X) a disposizione. Questi parametri rappresentano informazioni che possono essere molto utili, soprattutto negli studi di mercato. Un esempio di parametro è il livello della domanda di computer portatili nella città di Merida nel 2010.

Determinazione dei Gruppi (Clustering)

Consiste nel dividere un campione in due o più gruppi, cercando di fare in modo che la varianza all'interno dei gruppi sia minima e che la varianza tra i gruppi sia elevata. Questo significa che gli individui che fanno parte di un gruppo dovrebbero essere il più possibile simili tra loro. Geometricamente, ciò implica che gli individui (punti nello spazio p-dimensionale) debbano essere il più vicino possibile. A loro volta, persone provenienti da diversi gruppi devono essere il più lontano possibile. Ogni gruppo diventa una classe; in questi compiti non vengono utilizzati o costruiti modelli preventivi.

Voto (Classificazione)

Consiste nello sviluppo o nella costruzione di un modello che serve per assegnare una classe a un individuo in base alla sua posizione nello spazio (secondo i valori assunti in ogni variabile). La variabile dipendente di questo modello è il tipo di categoria, mentre le variabili indipendenti si riferiscono alle caratteristiche individuali. I parametri di questo modello dipendono dal campione utilizzato. Il campione contiene un insieme di n individui, ciascuno dei quali appartiene a una delle classi C esistenti.

Voci correlate: