Validità e Affidabilità: Fondamenti della Misurazione Psicometrica
Classificato in Matematica
Scritto il in italiano con una dimensione di 11,13 KB
Validità e Affidabilità
Validità
La validità fornisce una prova diretta di come un test adempie alla sua funzione. Per determinarla, richiede criteri esterni, indipendenti da ciò che il test cerca di misurare.
Tipi di Validità
Validità di Costrutto
Si cerca di determinare se il test è coerente con il quadro teorico su cui si basa, verificando una buona operativizzazione del costrutto da misurare. Richiede l'accumulo graduale di varie fonti di informazione.
Per verificarla, si possono citare le correlazioni con altri strumenti simili come prova che il test misura la stessa area di comportamento rispetto ad altri con lo stesso nome. Se la correlazione è molto alta, tuttavia, significa che il nuovo test è una ripetizione.
Esempio: se le tre dimensioni della teoria dell'ansia di un autore sono empiriche, la tecnica dovrebbe misurare i tre livelli.
Validità di Contenuto
Si valuta con il lavoro di giudici esperti e una revisione sistematica degli elementi di contenuto. Questa validità è valutata solo all'inizio, dalla scelta degli item da utilizzare e dalla specificazione dell'area da misurare.
Determina se il test copre un campione rappresentativo dell'area di comportamento da misurare.
Validità di Criterio (Empirica)
Allude all'impiego pratico del test nel campo di applicazione, indicando l'efficacia dello stesso nel prevedere le prestazioni individuali in attività specifiche.
Validità Concorrente
Consiste nel determinare se la tecnica fornisce le stesse informazioni che possono essere ottenute con altri mezzi di misurazione dello stesso attributo. È necessario confrontarla con un altro strumento. Serve a diagnosticare lo stato attuale, piuttosto che a prevedere risultati futuri.
Lo strumento è valido in quanto fornisce un sostituto più semplice, più veloce e meno costoso.
Esempio: TC (tumori) + autopsia. Test di Bender + osservazione di un bambino di 5 settimane: è un test valido in quanto consente di risparmiare tempo.
Validità Predittiva
Valuta la capacità di una tecnica, somministrata ora, di prevedere cosa accadrà alla variabile in futuro. È la meno usata perché è difficile prevedere in psicologia ed è difficile effettuare studi longitudinali a lungo termine. Non è sempre necessario farlo.
È ampiamente utilizzata per i test impiegati nella selezione del personale e nella classificazione.
La validità di criterio è interpretata tramite il "coefficiente di correlazione". Correlazione significa covariazione tra le variabili, ovvero fino a che punto variano insieme. Ciò non implica causalità.
- Se entrambe le variabili aumentano o diminuiscono: correlazione positiva (+).
- Se una variabile aumenta e l'altra diminuisce: correlazione negativa (-).
- Non esiste alcuna relazione tra le variabili quando r = 0.
- C'è una relazione totale quando r = 1. Più r si avvicina a 1, più forte è la relazione tra le variabili.
- Validità concorrente: i punteggi del test sono correlati al punteggio di un criterio esterno misurato contemporaneamente.
- Validità predittiva: i punteggi del test sono correlati a un criterio futuro.
Validità Apparente (o di Facciata)
Si riferisce a ciò che il test sembra misurare, non a ciò che misura realmente. Viene studiata quando il test viene applicato a piccoli gruppi nella fase di gestione pilota. Si riferisce alla percezione che il soggetto ha della validità della tecnica; se il soggetto non la ritiene valida, potrebbe non rispondere sinceramente. Si cerca di favorire un atteggiamento di risposta migliore da parte dei soggetti.
Per una persona che lavora in una fabbrica, se il test è percepito come valido, è più probabile che, ad esempio, indichi problemi relativi alle operazioni con le macchine.
Non si può supporre che il miglioramento della validità apparente migliori anche la validità oggettiva del test.
Affidabilità
- Si riferisce alla fiducia che si può avere nei risultati ottenuti con la tecnica, a differenza della validità che riguarda il costrutto misurato.
- Si riferisce alla coerenza dei punteggi ottenuti dalle stesse persone che applicano la stessa prova o una equivalente.
- È strettamente legata agli errori di misurazione, poiché la stima dell'affidabilità permette di determinare la proporzione della varianza totale dei punteggi dovuta alla varianza d'errore.
- Si riferisce alla qualità dello strumento di misurazione.
Metodi per Valutare l'Affidabilità
I metodi per valutare l'affidabilità sono descritti nel manuale del test. Ogni volta che il test viene somministrato in un contesto diverso da quello di standardizzazione, l'affidabilità dovrebbe essere ricalcolata.
Metodi basati su Due Somministrazioni
Test-Retest
Consiste nel somministrare lo stesso test due volte allo stesso gruppo di soggetti:
- Solo se il gruppo di soggetti è lo stesso.
- Se non è successo nulla che possa influenzare il loro comportamento durante l'intervallo di tempo tra le due somministrazioni, e l'intervallo è breve. Se l'intervallo è troppo lungo, i soggetti potrebbero maturare o cambiare status, modificando le prestazioni.
- Le correlazioni test-retest diminuiscono all'aumentare dell'intervallo.
- Possono verificarsi effetti di apprendimento o memoria della tecnica.
Si calcola il coefficiente di correlazione tra i risultati della prima e della seconda somministrazione.
Forme Parallele o Equivalenti
I progettisti costruiscono un test parallelo da somministrare al medesimo gruppo, che misura lo stesso costrutto, con lo stesso numero di item, con contenuto simile e con lo stesso livello di difficoltà.
Si calcola il coefficiente di correlazione tra i due test.
Poco utilizzata in quanto è molto difficile creare un test realmente parallelo.
Metodi basati su Singola Somministrazione
Split-Half (Divisione a Metà)
Si somministra l'intero test. I dati vengono poi elaborati e divisi a metà. Si calcola il coefficiente di correlazione tra le due metà, come se fossero due test paralleli. Questo metodo consente di ottenere due punteggi dello stesso soggetto in una singola applicazione.
Esistono diversi modi per eseguire la divisione, a seconda delle caratteristiche del test: divisione casuale, per scala, o per item pari/dispari nei test di prestazione dove gli item variano molto in difficoltà.
Più lungo è un test, più affidabile sarà, poiché valuta il costrutto misurato in modo più sfumato. Quando un test è breve, il coefficiente di correlazione risulterà basso perché ci sono meno item; in questo tipo di divisione, sono accettati coefficienti più bassi.
Coerenza Interna tra gli Item (o Covarianza)
Si riferisce alla correlazione tra un item e gli altri item del test. I coefficienti stimati sono mediati.
Questo tipo di analisi è particolarmente utile quando, ad esempio, i test sono molto brevi o quando la divisione a metà non sarebbe equivalente.
Affidabilità dell'Esaminatore (o Inter-rater)
In realtà è un modo per standardizzare le procedure di scoring. Si riferisce alla capacità di due esaminatori diversi di raggiungere lo stesso risultato nella valutazione.
Errori di Misurazione
Errore Sistematico
- Relativo alla validità.
- È un errore che non si verifica in un soggetto particolare, ma è un errore di progettazione del test.
- Impedisce una misurazione accurata.
- Ha un'influenza sull'applicazione del test, quindi dobbiamo prestare attenzione ai dettagli.
- Rende il test funzionante in modi diversi in gruppi diversi, quindi la probabilità di successo non è indipendente dalla sottopopolazione di appartenenza.
- Ad esempio, in un classico test di intelligenza, i bambini provenienti da contesti svantaggiati potrebbero sembrare "ritardati" in quanto i contenuti del test non sono legati alla loro esperienza (es. se non sanno cos'è una TV, non sono in grado di organizzare l'immagine).
- È legato alle differenze culturali e alla necessità di adattamenti dei test. Gli adattamenti devono garantire l'equivalenza a diversi livelli:
Equivalenza Concettuale
Dimostrare che il costrutto misurato ha lo stesso significato in entrambe le culture. Questo viene fatto tramite ricerca empirica, ed è necessario perché i costrutti non sono universali.
Equivalenza Linguistica
Assicurarsi che tutti gli item (istruzioni, domande, forme di risposta), verbali o meno, abbiano lo stesso significato in entrambe le culture. Questo può essere verificato con esperti del test e durante la somministrazione pilota, quando i soggetti potrebbero chiedere "questa parola significa...".
Equivalenza Metrica
Assicurarsi che i punteggi ottenuti dai soggetti nei test siano validi, affidabili e che misurino il costrutto allo stesso livello di chi ha sostenuto il test originale. Quando un test è normativo, è necessario rifare le scale normative, poiché le popolazioni (es. Buenos Aires vs. Uruguay) non sono equivalenti.
- La validità del concetto o dello strumento è limitata dal suo grado di universalità. Si deve tenere a mente la distinzione tra:
Costrutti Etici
Caratteristiche universali, dimostrate in diverse culture.
Costrutti Emici
Caratteristiche specifiche di un gruppo culturale.
Concettualmente, la distinzione tra approccio emico ed etico implica che, se usiamo un costrutto preesistente, dobbiamo assicurarci che abbia lo stesso significato nella nuova cultura rispetto a quella in cui è stato inizialmente proposto.
Errore Casuale di Misurazione
- Relativo all'affidabilità.
- Non è un errore di costruzione del test, ma è casuale. Si verifica sempre per caso.
- È sempre presente, ma non dovrebbe essere considerato negativo.
- Non si può misurare il punteggio vero; ci sono sempre degli errori, il punteggio viene dedotto.
Possibili Fonti di Errore Casuale:
- Soggetto testato: stanchezza, malumore.
- Esaminatore: il suo atteggiamento verso il soggetto può modificare le prestazioni.
- Ambiente: lavorare in condizioni di disagio o meno.
Maggiore è la cura nella condizione di somministrazione del test, nel rapporto con il soggetto e nel tempo dedicato, minore sarà l'errore di misurazione.
L'errore può essere stimato ed è riportato nei manuali delle tecniche:
Punteggio Vero = Punteggio Osservato ± Errore
Esempio: In un test di intelligenza con un errore standard di misurazione di ± 5, se un soggetto ha ottenuto un punteggio di 100, il punteggio vero si stima nel seguente intervallo:
PV = [95, 105]