inferenza statistica
inferenza statistica branca della statistica che, avvalendosi di modelli probabilistici, studia le tecniche per trarre risultati generali su una popolazione a partire dai dati rilevati su un campione: essa affronta così, in condizioni di incertezza, problemi di decisione, di revisione o, più in generale, di conoscenza del mondo reale, basandosi sia su informazioni a priori sia su dati campionari sperimentali, che per loro natura costituiscono soltanto aspetti parziali di tale realtà. Ogni sua conclusione non ha mai un valore di certezza, ma si situa a un determinato livello di significatività, cioè di probabile approssimazione del reale. Schematicamente, l’inferenza statistica si compone dei seguenti passi:
• si ha una popolazione statistica di cui una indagine statistica mira a rilevare uno o più caratteri. Ognuno di tali caratteri si presenta come una variabile statistica X con una determinata distribuzione, che è sintetizzata attraverso alcuni indici, detti anche parametri della distribuzione stessa. Tali parametri (per esempio la → media µ e la → varianza σ2) sono ignoti;
• si estrae dalla popolazione un campione, anch’esso caratterizzato da una particolare distribuzione e da valori numerici di sintesi (→ media campionaria; → varianza campionaria) calcolabili con le ordinarie tecniche di statistica descrittiva. Il campionamento è perciò un elemento indispensabile e un’importante fase preliminare dell’inferenza statistica;
• a questo punto i problemi di inferenza statistica si dividono in due categorie:
a) problemi di → stima (puntuale o intervallare, ma comunque entro un determinato intervallo di confidenza) dei parametri della popolazione (per esempio media, varianza o percentuali). Le stime sono i valori numerici (o gli intervalli) effettivi ricavati dal campione e occorre valutare con quale probabilità essi rappresentino i parametri effettivi;
b) problemi di → verifica delle ipotesi condotta attraverso opportuni test d’ipotesi. I dati campionari sono utilizzati per confermare o meno la plausibilità di una ipotesi avanzata sulla popolazione (per esempio, che essa abbia una prefissata distribuzione oppure che abbia media pari a un certo valore, e così via).
In entrambi i casi, l’inferenza statistica dipende dalle informazioni a priori che si hanno sulla popolazione e sul modello di distribuzione che si ipotizza abbia la popolazione stessa. Se si assume che la popolazione, rispetto al carattere esaminato, segua un dato modello di distribuzione di probabilità (per esempio di → distribuzione normale) si parlerà allora di inferenza statistica parametrica (e, in particolare, di test parametrici), altrimenti si parlerà di inferenza statistica non parametrica. Tipica analisi non parametrica è quella che confronta i ranghi di due distribuzioni (→ correlazione per ranghi).
L’inferenza statistica “trasporta” infine, sulla base di un dato modello di distribuzione, le informazioni ottenute dal campione alla popolazione, eventualmente formulando giudizi e prendendo decisioni relative alla popolazione stessa (per esempio, sulla base di un’indagine campionaria si può stabilire l’efficacia di un farmaco su tutta la popolazione).
Da quanto detto risulta evidente il preminente ruolo che la teoria della probabilità riveste nell’inferenza statistica e, in effetti, in relazione alle diverse concezioni probabilistiche, si sono andate sviluppando nel tempo due diverse impostazioni, fra le quali le più note sono quella classica e quella bayesiana.
L’impostazione classica parte dall’assunto che un determinato evento ha una probabilità vera, oggettiva, interpretabile in termini di frequenza relativa. In tale impostazione, il campionamento è considerato come un esperimento casuale che, in occasione di una sua realizzazione, ha avuto come risultato il dato campionario ottenuto, ma che avrebbe potuto fornire uno qualunque degli altri risultati possibili. Partendo da tali premesse e basandosi su tutti i possibili risultati campionari ottenibili nel caso in cui il campionamento venisse ripetuto più volte nelle medesime condizioni (da qui la denominazione di approccio campionario) e sulle loro probabilità intese come frequenze relative dei risultati nella ripetizione dell’esperimento, i probabilisti classici costruiscono le loro stime e i loro test giustificandoli in termini di proprietà di cui godono o in termini di garanzie che offrono. Per esempio, essi propongono di stimare l’ignoto valore della media di una popolazione con distribuzione normale attraverso la media campionaria x̄ oppure suggeriscono di costruire per l’ignota media l’→ intervallo di confidenza
dove σ è lo → scarto quadratico medio della popolazione e n è la numerosità campionaria: se il campionamento venisse ripetuto più volte, il 95% degli intervalli così costruiti conterrebbe infatti il valore vero e ignoto della media.
L’approccio bayesiano si basa sulla concezione soggettivista della probabilità, cioè sull’assunzione che la probabilità è semplicemente la misura del grado di fiducia che si attribuisce al verificarsi di un evento. Partendo da tali premesse, i bayesiani considerano la rilevazione campionaria come il mezzo che consente di passare dal grado di fiducia a priori, per esempio l’ignoto valore di un parametro θ, al grado di fiducia a posteriori che tiene conto della modificazione dell’informazione originaria derivante dal risultato sperimentale. La distribuzione a posteriori così ottenuta (costruita utilizzando non l’insieme dei risultati campionari ma il particolare risultato effettivamente ottenuto) raccoglie tutta l’informazione disponibile sul parametro ed è l’unico strumento di inferenza statistica valido per i bayesiani, che su di essa si basano per risolvere i problemi inferenziali. Per esempio, come stima intervallare al grado di fiducia del 95% si sceglie l’intervallo di fiducia che risulta il meno ampio fra quelli cui la distribuzione a posteriori assegna tale probabilità; in tal modo a parità di fiducia (95%) si ottiene l’informazione più precisa (intervallo più piccolo).