Distribuzioni e test statistici: Poisson, ipergeometrica, errori e potenza

Classificato in Matematica

Scritto il in italiano con una dimensione di 5,21 KB

La distribuzione di Poisson

Si assuma che un intervallo sia diviso in un numero molto grande di sottointervalli, in modo che la probabilità del verificarsi di un evento in ogni sottointervallo sia molto piccola. Le ipotesi di base della Poisson sono:

  • La probabilità del verificarsi di un evento è costante per tutti i sottointervalli.
  • L'evento non può verificarsi più di una volta in ciascuno dei sottointervalli.
  • Eventi che si verificano in intervalli disgiunti sono indipendenti.

Una variabile casuale di Poisson è una variabile casuale discreta che può assumere qualsiasi valore intero non negativo. È un modello probabilistico utilizzato per rappresentare situazioni di conteggio del numero di occorrenze di certi eventi in una unità di tempo o, più precisamente, il numero di “successi” in un certo intervallo continuo (di tempo, di superficie, di lunghezza).

Si dimostra che, al crescere del numero delle prove con una probabilità di successo in ogni singola prova molto piccola, la distribuzione binomiale può essere approssimata con la distribuzione di Poisson.

Distribuzioni doppie

Assumiamo di avere nella popolazione che stiamo studiando le variabili statistiche X e Y. Il nostro obiettivo è osservabile congiuntamente dando vita a una variabile doppia (X, Y). La distribuzione congiunta (o distribuzione doppia) è l'elencazione di tutte le possibili coppie di osservazioni. In questo modo otterremo una distribuzione doppia per le unità osservate.

Per ogni unità generica avremo una coppia (X, Y). A questo punto possiamo costruire una tabella di frequenza a doppia entrata che ci permette di osservare le frequenze relative a tutte le possibili coppie (X, Y).

Definire l'errore di primo e di secondo tipo nella verifica delle ipotesi

Errore di primo tipo (α): si verifica quando si rifiuta un'ipotesi nulla vera. In altre parole, è il falso positivo del test.

Errore di secondo tipo (β): si verifica quando non si rifiuta un'ipotesi nulla falsa. È il falso negativo del test.

Livello di significatività

Il livello di significatività è la probabilità di rifiutare l'ipotesi nulla quando essa è vera. Viene indicato con la lettera α e può essere espresso in termini percentuali o decimali (ad esempio α = 0,05 corrisponde al 5%).

Concetto di potenza di un test

Si definisce potenza di un test la probabilità di rifiutare l'ipotesi nulla quando questa è falsa. La potenza è pari a 1 − β, dove β è la probabilità di errore di secondo tipo.

Esempio di test

Possiamo avere, su una singola popolazione, ad esempio:

  • verifica di ipotesi sulla media di una popolazione distribuita normalmente;
  • verifica di ipotesi sulla varianza di una popolazione distribuita normalmente.

Su più popolazioni:

  • verifica di ipotesi sulla differenza tra medie di due popolazioni;
  • verifica sull'uguaglianza tra le varianze di due popolazioni distribuite normalmente.

Le fasi di una procedura di test di ipotesi

Le fasi principali in un test di ipotesi sono:

  1. Definizione delle ipotesi nulla (H0) e alternativa (H1).
  2. Scelta del livello di significatività α per il test da effettuare.
  3. Definizione esplicita della regola di decisione del test (regione di rifiuto) basata sui precedenti passaggi.
  4. Calcolo della statistica del test e confronto con la regione di rifiuto per decidere se rifiutare o non rifiutare H0.
  5. Valutazione della probabilità di errore di secondo tipo (β) e, se necessario, della potenza del test.

Regione di rifiuto e regione di accettazione

Definiamo regione di rifiuto l'insieme dei valori della statistica del test che portano al rifiuto dell'ipotesi nulla. L'intervallo complementare a tale regione è la regione di accettazione, cioè l'insieme dei valori per i quali non si rifiuta l'ipotesi nulla.

Distribuzione ipergeometrica

Assumiamo di dover scegliere 4 oggetti da un gruppo di 10 oggetti che possono avere caratteristiche diverse, ad esempio palline nere o bianche.

Se ogni estrazione fosse stata con reinserimento (ossia rimettendo la pallina nel contenitore dopo ogni estrazione), la distribuzione binomiale sarebbe stata la più appropriata.

In questo caso, poiché le probabilità di estrazione cambiano da estrazione a estrazione (estrazioni senza reinserimento), dobbiamo usare la distribuzione ipergeometrica per calcolare la probabilità di ottenere, ad esempio, nessuna pallina bianca estratta oppure il numero di palline di un certo colore presenti nel campione.

Voci correlate: