CAMPIONE, Teoria del (App. III, 1, p. 297)
La t. del c. può essere definita come il ramo della statistica che si occupa specificamente delle rilevazioni campionarie nel loro aspetto metodologico. È difficile, se non impossibile, tracciare in modo rigoroso i confini che la separano dal calcolo delle probabilità o da altre discipline che ora cominciano ad affermarsi, come la statistica matematica. Si può dire soltanto che la disciplina, così com'è andata configurandosi nella vita accademica in Italia e all'estero, si distingue dalle altre sopra richiamate in quanto, pur servendosi dello strumento matematico, tende a rimanere ancorata alla sua matrice statistica, prediligendo le questioni che hanno attinenza diretta con la ricerca empirica concreta e trascurando altre di carattere prevalentemente astratto e speculativo.
Ciò premesso, è però opportuno precisare, per dissipare equivoci che ancora qua e là si annidano, che oggetto della t. del c. non sono i c. empirici che per la loro stessa natura, essendo il risultato di operazioni casuali e perciò imprevedibili, sfuggono a qualsiasi ricerca teorica rigorosa, bensì il loro modello matematico, ossia l'insieme di tutti i c. che possono essere estratti, a caso, da una data "popolazione". Tale insieme, da parte di alcuni autori, viene denominato "universo dei campioni". Il legame, sicuramente esistente, tra il modello matematico e la rilevazione campionaria concreta viene affermato assiomaticamente (ma non dimostrato) mediante la "legge empirica del caso" o "legge dei grandi numeri" che può essere formulata in vari modi ma che, in sostanza, esprime il fatto, largamente confermato dall'esperienza, che gl'insiemi formati da un grande numero di c. empirici differiscono di poco dai corrispondenti universi dei campioni.
Rimangono fuori della t. dei c., o vi rientrano solo marginalmente, per alcuni aspetti particolari, i c. "a scelta ragionata", ossia i c. in cui le unità vengono scelte dagli osservatori in base alla loro supposta rappresentatività. Questo tipo di campionamento, del resto poco usato in pratica, perché risente troppo di fattori soggettivi, non è infatti riconducibile a modelli teorici che abbiano rilevanza concreta. La t. dei c. si occupa invece dei c. nella cui formazione intervenga, in un certo stadio, una scelta casuale, ossia una scelta tra unità (o insiemi di unità) compiuta mediante un'operazione che non dia la possibilità di prevedere in anticipo il risultato a cui darà luogo.
I metodi o schemi di estrazione delle unità campionarie che vengono prese in considerazione in t. dei c. sono essenzialmente due: l'estrazione con ripetizione, detta anche bernoulliana, e l'estrazione senza ripetizione. Nella prima le unità vengono estratte a una a una, con uguale probabilità, dalla popolazione e, dopo ogni estrazione, reimmesse nella popolazione. Ne consegue che il risultato di ogni estrazione è indipendente da quello delle estrazioni precedenti. Se su ogni unità estratta viene rilevato il valore che in essa assume un carattere quantitativo X (che può anche essere a più dimensioni: per es., si possono rilevare simultaneamente, se si tratta di una popolazione umana, età, statura e reddito) l'universo dei c. può essere rappresentato come insieme delle determinazioni d'una variabile casuale n-pla (dove n indica il numero delle unità che compongono il c.) a componenti indipendenti e identicamente distribuite, con distrizione uguale a quella che il carattere X ha nella popolazione. Se N è il numero delle unità che compongono la popolazione, il numero dei c. che costituiscono l'universo dei c. è dato dalle disposizioni con ripetizione di N elementi di classe n, e cioè da Nn.
Nello schema "senza ripetizione", la popolazione non rimane identica mentre si svolgono le estrazioni. Ne consegue che le variabili corrispondenti ai valori assunti dal carattere X nelle unità estratte, pur essendo sempre identicamente distribuite, non sono indipendenti. Il numero dei c. è qui dato dalle disposizioni senza ripetizione di N elementi di classe n ed è quindi di N(N − 1) ... (N − n + 1). Una variante dello schema senza ripetizione è costituita dall'estrazione "in blocco", in cui si estraggono le n unità tutte insieme. Il numero dei c. che compongono l'universo si riduce allora, essendo dato dalle combinazioni senza ripetizione, a
Vi sono ovviamente forti legami fra l'universo senza ripetizione e quello con ripetizione. Infatti, se dal primo si escludono tutti i c. in cui una stessa unità figura ripetutamente, si ottiene l'universo dei c. senza ripetizione. Un importante, anche se elementare, risultato della t. dei c. è che al crescere di N (n rimanendo fisso) l'universo senza ripetizione tende a coincidere con quello con ripetizione.
Tra i due schemi, in pratica viene adottato prevalentemente quello senza ripetizione, che è anche quello che fornisce in media i risultati migliori. Ai fini dell'indagine teorica, invece, la trattazione del modello bernoulliano offre certi vantaggi, in virtù dell'indipendenza delle variabili che consente una maggiore semplicità dei calcoli. L'adozione delle formule valide per l'estrazione con ripetizione ai casi in cui, in realtà, l'estrazione è fatta senza ripetizione non dà luogo a inconvenienti di sorta quando N è grande, commisurato a n, ossia quando la "frazione sondata" f, così definita: f = n/N è sufficientemente piccola (per es., se f ≤ 0,01); in caso contrario è invece preferibile ricorrere alle formule esatte, anche se meno comode.
Il c., quale collettivo di n unità, può essere analizzato coi consueti metodi dell'indagine statistica e dare luogo a vari parametri che ne sintetizzano la struttura, come la media aritmetica, la mediana, la varianza, ecc. Ognuno di questi parametri, considerato nell'universo dei c., genera una distribuzione, detta distribuzione campionaria, che a sua volta può essere analizzata statisticamente. Ha quindi senso parlare, per es., di media delle varianze o, viceversa, di varianza delle medie, intendendosi nel primo caso la media della distribuzione campionaria delle varianze, ossia della distribuzione che si ottiene calcolando in ogni c. di un universo la varianza, mentre la seconda espressione designa la varianza della distribuzione costituita dalle medie dei campioni. Media e varianza sono appunto, accanto ad altri momenti di ordine superiore, i parametri di cui al solito ci si serve per caratterizzare le distribuzioni campionarie. Ciò perché è spesso possibile determinare tali valori caratteristici (ossia esprimerli in funzione di certi parametri della popolazione) anche per distribuzioni non conosciute con esattezza.
Indicando col simbolo E(t) il valor medio, ossia la media aritmetica della distribuzione campionaria del parametro t e con var (t) la sua varianza e usando i seguenti simboli: ù = media aritmetica del c., ossia:
dove xi s'indica il valore assunto dal carattere X nell'i-esima unità estratta; s2 = varianza corretta del c., così definita:
Ù, σ2 e μ4 per designare rispettivamente la media aritmetica, la varianza e il momento centrale quarto della popolazione, si dimostrano con facilità le seguenti relazioni: E(ù) = Ù, in entrambi gli schemi di estrazione; var (ù) = σ2/n nell'estrazione con ripetizione; var(ù) = N(1 − f)σ2/[n(N − 1)] nell'estrazione senza ripetizione, E(s2) = σ2 nell'estrazione con ripetizione; E(s2) = Nσ2/(N − 1) nell'estrazione senza ripetizione; var(s2) = [μ4 − (n − 3)σ4/(n − 1)]/n nell'estrazione con ripetizione;
Altre espressioni importanti si riferiscono alla variabile "frequenza relativa". Indicata con p la frequenza relativa nel c. di un attributo che nella popolazione ha frequenza relativa uguale a P, posto 1 − P = Q, si trova, come caso particolare delle formule precedenti, riguardanti la media aritmetica: E(p) = P, in entrambi gli schemi di estrazione; var (p) = PQ/n nell'estrazione con ripetizione; var (p) = N(1 = f)PQ/ n(N − 1)] nell'estrazione senza ripetizione.
Per quanto riguarda le medie di posizione, può essere interessante osservare che, mentre il valor medio della mediana non coincide necessariamente con la mediana della popolazione se questa non è simmetrica, la mediana della distribuzione delle mediane campionarie è sempre uguale al corrispondente parametro della popolazione.
Risultati di considerevole portata si ottengono osservando il comportamento delle distribuzioni campionarie al crescere di n. Il fatto più importante che emerge da tale analisi è che, in entrambi gli schemi di estrazione e quale che sia la popolazione, la media aritmetica del c. tende a distribuirsi secondo la legge normale. Lo stesso vale per p, per tutti i momenti e per vari altri parametri campionari. L'approssimazione fornita dalla legge normale è in pratica più che soddisfacente già per valori di n piuttosto piccoli (dell'ordine di 30 o 40).
Questa proprietà viene sfruttata per risolvere un importante problema, preliminare a ogni rilevazione campionaria: la determinazione di n, ossia del numero delle unità che verranno osservate.
Per affrontare razionalmente tale questione occorre, facendo sempre riferimento all'universo dei c., precisare il grado di accuratezza che si vuole ottenere. Se si vuole stimare, per es., la media della popolazione mediante la media del c., il requisito potrà essere formulato come segue: fissate le quantità δ e ε, n dovrà essere il più piccolo possibile, compatibilmente con la condizione che ù differisca da Ù in valore assoluto per una quantità non maggiore di δ con frequenza (o probabilità) non minore di 1 − ε. La soluzione, cui si perviene servendosi dell'approssimazione mediante la curva normale, è: n = t2εσ2/δ2 nell'estrazione bernoulliana;
nell'estrazione senza ripetizione, dove tε si legge sulle tavole della curva normale, essendo definito dall'equazione:
Per es., per ε = 0,05 si ha: tε = 1,96; per ε = 0,01, tε = 2,6.
Ovviamente, per utilizzare tali formule occorre possedere una stima dell'ordine di grandezza di σ2, stima che può essere ottenuta eventualmente con un piccolo sondaggio preliminare.
Se si tratta invece di stimare P mediante p, si ottiene in via cautelativa, tenuto conto della disuguaglianza: PQ 〈 1/4, rispettivamente:
Un altro argomento di cui si occupa la t. del c. è il "campionamento stratificato". Con la stratificazione si opera una suddivisione della popolazione in sub-popolazioni distinte, dette "strati". Da ogni strato viene prelevato un c. le cui risultanze vengono poi sintetizzate in un'unica stima. Supposta la popolazione divisa in h strati, comprendenti rispettivamente NI, ... , Nh unità, una stima appropriata di X è:
dove wi = Ni/N e ùi è la media aritmetica del c. estratto dallo strato i-esimo. Si ha infatti: E(ùs) = X.
Se il c. relativo allo strato i-esimo comprende ni unità, indicata con σ²i la varianza di X nello strato i-esimo, si ha, nello schema senza ripetizione:
Da questa espressione si desume che la stratificazione consegue tanto meglio il suo scopo, che è quello di ridurre la dispersione della stima, fissato il numero complessivo delle unità osservate o, viceversa, di ridurre tale numero tenendo fissa la dispersione, quanto più piccole sono le varianze σ²i; ossia quanto più omogenei sono gli strati relativamente al carattere X, oggetto del campionamento. In pratica si cerca di conseguire questo risultato eseguendo la stratificazione in base alle modalità di uno o più caratteri di cui si conosce la distribuzione e che sono fortemente correlati con X.
Fissati gli strati, la determinazione delle ni che dà luogo alla varianza o al minimo numero di unità osservate è data dalla semplice. formula (dovuta a J. Neyman): ni = k wi σi, dove k è un coefficiente di proporzionalità che assume valori diversi a seconda che sia fissata a priori la varianza di ùs o n. Se si vuole tenere conto anche del costo, supposto diverso il costo unitario della rilevazioni nei singoli strati e indicato tale costo con ci, la composizione più conveniente del c. stratificato è espressa dalla formula:
È quasi superfluo aggiungere che la t. del c. si occupa anche di altri schemi di rilevazione che spesso s'incontrano in pratica (campionamento a grappolo, campionamento a più stadi, ecc.) come pure di altri e più efficienti metodi di stima fondati su informazioni supplementari (stime per quoziente, stime col metodo della regressione, ecc.), contribuendo a rendere sempre più attendibili le rilevazioni compionarie.
Bibl.: W. E. Deming, Some theory of sampling, New York 1950; W. Cochran, Sampling techniques, ivi 1953; M. H. Hansen, W. N. Hurwitz, W. G. Madow, Sample survey methods and theory, ivi 1953; P. V. Sukhatme, Sampling theory of survey with applications, Roma 1953; D. Raj, Sampling theory, New York 1968; V. Castellano, A. Herzel, Elementi di teoria dei campioni, Roma 1971.