statistica
statistica analisi quantitativa delle osservazioni di un qualsiasi fenomeno collettivo o comunque soggetto a variazione. Oggetto dell’analisi sono tutti i fenomeni aventi attitudine a variare; obiettivi dell’analisi sono la descrizione delle caratteristiche più significative di detti fenomeni e l’individuazione delle leggi o dei modelli che regolano o spiegano il loro manifestarsi. Poiché la quasi totalità dei fenomeni naturali e sociali è del tipo descritto e compito delle scienze che di essi si occupano è quello di descriverli, spiegarli ed eventualmente prevedere le loro manifestazioni, la statistica si può intendere come uno dei metodi di studio privilegiati delle scienze naturali e sociali.
La necessità di raccogliere informazioni quantitative relative a un gruppo sociale umano è antichissima. Segni e tacche incisi su pietre trovati in molti siti archeologici inducono a pensare che, anche in epoca preistorica, ci si ponesse il problema di contare i componenti di un gruppo, il numero delle prede di caccia o altro. Nell’antico Egitto, l’organizzazione statale approntava censimenti della popolazione e la periodica misurazione dei terreni invasi annualmente dalle acque del Nilo, effettuata per scopi fiscali, è probabilmente all’origine della geometria pratica. Censimenti di popolazione si ritrovano anche in Cina fin dal terzo millennio prima di Cristo e, addirittura, un libro della Bibbia, i Numeri, è dedicato a descrivere in modo particolareggiato il censimento del popolo di Israele. Nell’antica Roma, il primo censimento fu ordinato da Servio Tullio (578-534 a.C.) e lo stesso termine «censimento» proviene dal latino censere, dall’originario significato di «dichiarare», giacché i cittadini romani dovevano dichiarare ai censori il loro status personale e i beni posseduti, al fine di contribuire in modo adeguato alle spese civili e militari dell’amministrazione. La caduta dell’impero romano, le grandi migrazioni che attraversarono l’Europa e la frantumazione del territorio in feudi fecero cadere la possibilità e la necessità di rilevazioni generali. Queste ripresero via via che si organizzarono e si costituirono stati dall’amministrazione sempre più efficiente. Probabilmente, in epoca moderna, la prima rilevazione statistica generale fu effettuata a Venezia dove, nel 978, si formò un elenco dei soggetti tenuti a pagare la decima, e, nel 1311, si istituì una anagrafe generale della popolazione.
A metà del xvi secolo, la città di Londra, funestata dalla peste, iniziò a pubblicare i bollettini settimanali sui decessi; su tale base, nel 1662 il commerciante inglese John Graunt pubblicò le prime tavole di → probabilità di vita, che servirono da base per la determinazione dei premi assicurativi. Le raccolte di dati relative alla popolazione, alla durata della loro vita o all’entità dei beni posseduti si diffusero sempre più e alla fine del xviii secolo il termine statistica (da status), che fino allora aveva designato quella branca della scienza politica che si occupava della descrizione delle cose dello stato, fu associato sempre più precisamente a una disciplina che riguardasse la misurazione e il conteggio di caratteristiche relative a fenomeni collettivi. La parte di tale descrizione consistente nella costruzione e nell’analisi delle tavole numeriche (riguardanti originariamente i dati economici e demografici) andò via via estendendosi anche ad altri campi di indagine e la necessità di far fronte a problemi nuovi e più complessi portò ad ampliare i procedimenti fino a ottenere l’insieme organico di metodi di analisi che costituiscono la statistica moderna.
Fu tuttavia soltanto verso la fine dell’Ottocento che la statistica iniziò a intrecciarsi con la probabilità, attraverso in primo luogo il lavoro di F. Galton sull’analisi dell’ereditarietà e del fenomeno della → regressione, e lo sviluppo del test del → chi-quadrato a opera di K. Pearson. Si sviluppò cosi l’altra branca della statistica, la statistica inferenziale, cui dettero un contributo molto importante il figlio stesso di K. Pearson, Egon, e l’inglese R. Fisher.
Al fine di illustrare come i metodi statistici consentano di effettuare un’analisi quantitativa di un fenomeno è necessario rilevare che le manifestazioni dello stesso sono osservabili su unità di rilevazione che formano nel loro complesso la popolazione. Sulle unità statistiche si effettua la rilevazione, cioè l’osservazione e la registrazione della manifestazione del fenomeno. Essa può essere estesa alla totalità della popolazione (rilevazione totale o censuaria) o limitata a una sola parte di essa (rilevazione parziale o campionaria). Ultimata la raccolta dei dati e costruita la → distribuzione statistica, inizia l’analisi vera e propria che può essere finalizzata alla descrizione delle caratteristiche più salienti del fenomeno, così come si è manifestato sulle unità esaminate, oppure alla generalizzazione dei risultati ottenuti tramite un campione all’intera popolazione da cui il campione proviene. I metodi di analisi del primo tipo costituiscono la statistica descrittiva, e possono essere applicati sui dati relativi sia all’intera popolazione sia a una parte di essa (ma in quest’ultimo caso la validità dei risultati conseguiti resta comunque limitata all’insieme delle unità effettivamente rilevate); i metodi del secondo tipo che permettono la generalizzazione dei risultati e consentono di valutarne la validità costituiscono quella che è chiamata statistica inferenziale o induttiva.
I principali metodi della statistica descrittiva possono essere distinti a seconda che siano impiegati per la descrizione di un singolo fenomeno o di due o più fenomeni congiuntamente considerati. In particolare, con riferimento a un unico fenomeno, la descrizione può essere realizzata mediante il ricorso a un indice di posizione, tendente a individuare quale fra le intensità con cui si è manifestato il fenomeno debba essere privilegiata rispetto alle altre come sintesi del fenomeno medesimo (ne sono esempi la → moda, la → mediana, la → media), e/o a un indice di variabilità, idoneo a misurare l’attitudine del fenomeno a manifestarsi in modo differente sulle unità statistiche (ne sono esempi lo → scarto quadratico medio e la → differenza interquartile). Inoltre, se il fenomeno presenta solo intensità positive ed è trasferibile (nel senso che è sempre possibile immaginare uno spostamento di intensità da un’unità all’altra), si può costruire anche un indice di → concentrazione atto a misurare l’attitudine del fenomeno a distribuire una quota considerevole dell’intensità totale a vantaggio di poche unità statistiche e a svantaggio delle restanti. Se riguarda, anziché un unico fenomeno, due o più fenomeni osservati congiuntamente, la descrizione può estendersi alla loro manifestazione congiunta. I metodi di analisi congiunta prendono il nome di tecniche di analisi dei → dati o di analisi di → distribuzioni multivariate. Fra esse le più significative riguardano, una volta accertata l’assenza di indipendenza stocastica, lo studio dei legami di interdipendenza fra i fenomeni considerati e di dipendenza di uno di essi da uno o più altri. Tale studio viene per esempio effettuato col ricorso alla → correlazione nel primo caso e all’analisi della → varianza o alla → regressione nel secondo. Particolare rilievo riveste l’analisi delle → serie storiche, tendente a individuare le componenti della serie (trend, ciclo, stagionalità e componenti accidentali) mediante l’impiego di strumenti descrittivi quali le medie mobili, la regressione ecc.
Quando l’ampiezza e la complessità della rilevazione o la natura stessa del fenomeno rendono opportuno o inevitabile il ricorso a una indagine campionaria, i risultati conseguiti con l’applicazione dei metodi della statistica descrittiva possono essere estesi all’intera popolazione solo con cautela. Questo perché la rilevazione parziale presenta una serie di problemi relativi alla scelta delle unità che entrano a far parte del campione, all’ampiezza del campione, alla possibilità di generalizzare un risultato campionario all’intera popolazione. A problemi di questo tipo rispondono diverse branche della statistica inferenziale quali: la teoria dei campioni (→ campionamento), che concerne il procedimento di scelta del campione dal quale dipende l’attendibilità del risultato e il costo della rilevazione; la teoria della → stima, che riguarda l’assegnazione sulla base dei dati campionari di uno o più valori numerici a un’ignota caratteristica della popolazione (per esempio alla sua media); la teoria dei → test statistici, mediante la quale si accetta o si respinge una ipotesi formulata su una o più caratteristiche di un fenomeno (per esempio sul valore della sua media, sulla legge che ne regola le manifestazioni, sulla sua dipendenza da un altro fenomeno). È evidente che le conclusioni cui si perviene, essendo derivate dall’osservazione di alcune delle unità e non della loro totalità, non sono certe, potendo essere inficiate dagli errori di campionamento (→ errore). Tuttavia, tale incertezza può essere quantificata con il ricorso al calcolo delle → probabilità. A volte la rilevazione statistica è finalizzata non tanto alla conoscenza della caratteristica di un fenomeno quanto alla scelta di un’azione da compiere sulla base di tale conoscenza. La disciplina che studia il processo logico-formale di scelta del comportamento ottimale in presenza di informazioni incomplete, cioè in condizioni di incertezza, prende il nome di teoria delle decisioni (→ ricerca operativa) e può ritenersi una branca della statistica inferenziale.
In statistica inferenziale si confrontano due impostazioni teoriche legate a due diverse interpretazioni della probabilità: quella frequentista e quella soggettivista. Nell’impostazione frequentista si assume che ciò che si osserva sia un campione estratto da una popolazione la quale ha un determinato parametro, incognito ma tuttavia fissato, di cui si vuole determinare, per esempio, una stima puntuale. Nell’impostazione bayesiana il parametro che caratterizza la funzione di probabilità o di densità della popolazione da cui è estratto il campione è esso stesso una variabile aleatoria, con una sua distribuzione a priori che dipende dalle aspettative dei ricercatori, sulla base delle osservazioni di cui si è a conoscenza. Attraverso il teorema di → Bayes, che permette di ricalcolare le probabilità sulla base di nuovi eventi, si aggiornano le informazioni sul parametro in base alle informazioni contenute nel campione e si definisce in questo modo una distribuzione a posteriori. L’assegnazione di una distribuzione di probabilità a priori soggettiva – procedura piuttosto delicata – realizza una situazione alquanto diffusa in tutte le procedure inferenziali; per esempio, quando un medico generico, sulla base dei sintomi del paziente, effettua una diagnosi, egli tiene conto non soltanto dei sintomi stessi dichiarati, ma anche della anamnesi del paziente, delle condizioni territoriali e climatiche, delle informazioni epidemiologiche ecc., e quindi effettua una prima valutazione di probabilità che orienta la scelta delle particolari analisi cliniche che suggerisce di far effettuare al paziente. Tali analisi cliniche giocano il ruolo dell’osservazione su un campione e permettono di modificare le precedenti valutazioni di probabilità.