Concetti Fondamentali di Statistica Descrittiva: Indici e Grafici
Classificato in Matematica
Scritto il in
italiano con una dimensione di 5 KB
Coefficiente di Variazione (CV) e Omogeneità
Una regola empirica per valutare l'omogeneità di un insieme di dati basata sul Coefficiente di Variazione:
- Se il CV è inferiore al 35%, l'insieme di dati è considerato omogeneo.
- Se il CV è superiore al 35%, l'insieme di dati è considerato eterogeneo.
Coefficiente di Asimmetria (Skewness o Bias)
Definizione: Il coefficiente di asimmetria (o bias) misura il grado di simmetria di una distribuzione di frequenze.
Regole di Interpretazione
- Se il coefficiente è positivo (+), la distribuzione presenta asimmetria positiva (coda a destra).
- Se il coefficiente è negativo (-), la distribuzione presenta asimmetria negativa (coda a sinistra).
- Se il coefficiente è pari a zero, la distribuzione è simmetrica.
Quantili
I quantili sono valori che partizionano l'insieme di dati ordinati in parti uguali. I più comuni sono:
- Quartili: Dividono la distribuzione di frequenza in 4 parti uguali.
- Decili: Dividono la distribuzione di frequenza in 10 parti uguali.
- Percentili: Dividono la distribuzione di frequenza in 100 parti uguali.
Rappresentazioni Grafiche
Grafico a Torta (o Circolare)
Questo grafico rappresenta le frequenze assolute o relative all'interno di un cerchio. Per determinare l'ampiezza in gradi di ogni settore corrispondente a una frequenza, si utilizza una proporzione matematica.
Diagramma Ramo-Foglia (Stem-and-Leaf)
È una rappresentazione semi-grafica utilizzata per variabili quantitative. Le cifre di ogni dato vengono separate in due parti:
- Ramo (Stem): Definisce una classe e corrisponde a una o più cifre iniziali del dato.
- Foglia (Leaf): Corrisponde alla cifra successiva e rappresenta la frequenza all'interno di quella classe.
La rappresentazione avviene tramite una colonna per i rami (disposti in ordine crescente e senza ripetizioni) e, a fianco, le rispettive foglie ordinate.
Misure di Tendenza Centrale
Questi indici sintetizzano la posizione centrale di una distribuzione di dati.
Moda
È il valore o la categoria che si presenta con la massima frequenza. Può essere utilizzata con qualsiasi tipo di variabile.
Mediana
È il valore che divide la distribuzione ordinata in due parti uguali. Metà dei casi si trova al di sotto della mediana e l'altra metà al di sopra. È utilizzabile con livelli di misurazione ordinale, a intervalli o a rapporti.
Media Aritmetica
È la somma di tutti i valori divisa per il numero totale di casi. Si applica solo a variabili misurate su scala a intervalli o a rapporti.
Esempio: Media di 3, 5, 6 -> (3 + 5 + 6) / 3 = 14 / 3 ≈ 4.67
Misure di Dispersione o Variabilità
Sono indici che misurano la dispersione o la variabilità dei dati in una serie di valori. Quantificano quanto i valori di una distribuzione siano simili o diversi tra loro, solitamente rispetto a un indice di tendenza centrale. Sono applicabili a variabili quantitative (es. età, reddito, istruzione).
I più comuni sono:
- Campo di Variazione (Range)
- Range Interquartile
- Varianza
- Deviazione Standard (o Scarto Quadratico Medio)
- Coefficiente di Variazione
Varianza
È uno degli indici più utili nelle applicazioni statistiche. È definita come la media degli scarti al quadrato di ogni valore dalla media aritmetica della serie. Il suo calcolo varia a seconda che i dati siano:
- Dati singoli o non raggruppati.
- Dati raggruppati in distribuzioni di frequenza.
- Dati raggruppati in classi.
Deviazione Standard
È definita come la radice quadrata della varianza. Indica la dispersione media dei dati attorno alla media aritmetica ed è espressa nella stessa unità di misura dei dati. Viene indicata con σ (per la popolazione) o s (per il campione).
In una distribuzione con andamento normale (gaussiano):
- Circa il 68% delle osservazioni si trova entro ±1 deviazione standard dalla media.
- Circa il 95% delle osservazioni si trova entro ±2 deviazioni standard dalla media.
- Circa il 99.7% delle osservazioni si trova entro ±3 deviazioni standard dalla media.
Coefficiente di Variazione (CV)
Esprime la variabilità dei dati come percentuale (è un numero puro, adimensionale). Viene utilizzato per confrontare la dispersione di due o più distribuzioni, anche se hanno medie o unità di misura diverse.