Statistica Descrittiva: Concetti Fondamentali e Applicazioni
Classified in Matematica
Written at on italiano with a size of 7,93 KB.
Concetti Fondamentali di Statistica Descrittiva
Parametri, Stimatori e Stime
- Parametro: Valore ignoto della popolazione (es. media della popolazione).
- Stimatore: Variabile utilizzata per stimare il parametro ignoto della popolazione (es. media campionaria).
- Stima: Valore dello stimatore osservato all'interno del campione.
Proprietà degli Stimatori
- Correttezza: Uno stimatore è corretto se il suo valore atteso coincide con il parametro da stimare, E(T) = θ. Altrimenti, lo stimatore è distorto. La distorsione è data da E(T) - θ. La media campionaria è uno stimatore corretto della media della popolazione. La varianza campionaria è uno stimatore distorto della varianza della popolazione. Per questo motivo, si utilizza la varianza campionaria corretta, S2c.
- Consistenza: Uno stimatore è consistente se, all'aumentare della numerosità campionaria n, diventa più preciso, ovvero l'errore standard tende a 0.
Attraverso l'analisi di un campione, è possibile risalire ai valori dell'intera popolazione. Con il campione estratto, si stima il parametro della popolazione.
Errore Standard dello Stimatore: Misura l'imprecisione dello stimatore. σ(T) rappresenta lo scarto quadratico medio calcolato su tutte le stime effettuate sui campioni dello spazio campionario. Un errore standard minore indica una maggiore precisione dello stimatore, rendendolo più efficiente.
Distribuzione Normale
La distribuzione normale è una variabile caratterizzata da una funzione di densità simmetrica. La sua legge distributiva è governata da due parametri: μ e σ2. σ2 individua la dispersione della variabile attorno a μ e determina la forma della distribuzione: quanto più è elevato, tanto più piatta risulta la curva normale. Al variare dei parametri, si possono individuare infinite distribuzioni normali. Ognuna può essere ricondotta a una distribuzione normale "tipo", detta normale standardizzata, che presenta valore atteso nullo e varianza unitaria. In questo modo, si ha un'unica distribuzione di riferimento. I vantaggi sono che si hanno a disposizione i valori della funzione di ripartizione per diversi valori di z.
Teorema Centrale del Limite (TCL): All'aumentare del numero di prove n, le distribuzioni tendono ad assumere una forma di curva normale con parametri μ = nT e σ2 = nT(1-T).
Verifica di Ipotesi
Un test di ipotesi prevede un sistema composto da un'ipotesi nulla (H0) e un'ipotesi alternativa (H1). Il test consiste nell'individuare, all'interno dello spazio campionario, una regione di rifiuto e una regione di accettazione (il suo complemento). Se il campione osservato cade nella regione critica, si rifiuta l'ipotesi nulla e si accetta l'alternativa. Esistono due tipi di errore:
- Errore di prima specie: Rifiutare un'ipotesi vera.
- Errore di seconda specie: Accettare un'ipotesi falsa.
L'errore di prima specie è considerato più grave. Le probabilità di commettere un errore di prima o seconda specie sono indicate rispettivamente con α e β.
La probabilità α, detta significatività o ampiezza del test, è associata all'errore di prima specie. 1-β, detta potenza del test, è indicata con γ.
Non è possibile far tendere a 0 entrambi gli errori contemporaneamente: una riduzione di α implica un aumento di β e viceversa. Data la gravità dell'errore di prima specie, è preferibile controllarlo fissando α, stabilendo cioè il rischio massimo che si è disposti a correre nel rifiutare H0. In funzione di tale probabilità, si determina la regione critica (RC) e, successivamente, la potenza del test. Si costruisce una statistica test opportuna.
P-value: Rappresenta la probabilità che il possibile rifiuto dell'ipotesi nulla sia dovuto al caso. In pratica, è la probabilità di osservare valori più estremi della statistica test osservata. È il valore più piccolo di α per cui l'ipotesi nulla può essere rifiutata sulla base del campione osservato.
Intervalli di Confidenza
La stima puntuale del parametro di popolazione tramite lo stimatore può risultare insufficiente. Per ovviare a questo problema, è preferibile ricorrere a una valutazione campionaria meno precisa, in quanto non più puntuale, ma più affidabile probabilisticamente. Si preferisce fornire un intervallo di valori che contenga, con probabilità elevata, il valore del parametro di popolazione.
La probabilità che l'intervallo aleatorio contenga al suo interno il vero parametro della popolazione è pari al livello prefissato 1-α. Estraendo un campione, non si sa a quale dei gruppi appartenga, ma si può sperare, con un grado di fiducia 1-α, che esso rientri nel primo gruppo.
1-α è detto anche livello di confidenza, mentre l'intervallo costruito sulla base del campione, non più aleatorio, viene detto intervallo di confidenza. A seconda del parametro, si ottengono diversi intervalli di confidenza.
Grado di Associazione e Dipendenza
Si parla di grado di associazione perché un'associazione perfetta non può esistere. Possiamo calcolare il grado di associazione tramite l'indice chi quadrato (χ2). Questo indice serve per osservare la distanza tra la tabella osservata e la tabella di indipendenza. χ2 = 0 indica indipendenza assoluta (nessun legame), mentre valori crescenti indicano un legame sempre più forte. Per capire se il valore dell'indice è elevato, lo si deve rapportare al suo massimo.
Quando c'è dipendenza perfetta, la variabilità è nulla (Dint = 0) e Dest = Dtot(x).
Tra due variabili con linearità perfetta (X = 1) c'è una massima connessione. X = 0 indica indipendenza assoluta, mentre un valore nullo di X indica assenza di relazione lineare.
Medie Condizionate
Si calcolano le medie generali di x/y e y/x e le si confrontano. Se una delle medie parziali risulta più bassa, necessariamente anche le altre due dovranno risultare diverse dalla media generale, perché la media generale è una media ponderata delle medie parziali.
Si ha dipendenza in media quando c'è diversità tra le medie condizionate.
L'indipendenza in media si verifica quando c'è uguaglianza tra le medie condizionate.
Il grado di diversità dalla media si misura con la varianza e la devianza. Per capire il tipo di dipendenza, si calcolano le medie condizionate e la distanza che c'è tra loro (Dest e Dtot).
Concentrazione
La concentrazione serve per capire se l'ammontare delle unità tende a concentrarsi su una singola unità o a distribuirsi in maniera più equa. Si ha massima concentrazione quando tutte le Xi sono nulle tranne una, che coincide con l'ammontare totale.
Indipendenza Assoluta: Si verifica quando è possibile ottenere la frequenza all'interno della tabella come prodotto tra il totale marginale di riga e colonna diviso il totale generale.
Dipendenza Assoluta: Si verifica quando per ogni X o Y c'è una frequenza non nulla. Condizioni: le tabelle devono essere quadrate e il totale di riga deve corrispondere al totale di colonna.