CURVE STATISTICHE
. Col nome generico di curve statistiche s'intendono le curve che, in una forma qualsiasi, rappresentano una rilevazione quantitativa, relativa a un fenomeno collettivo - o fenomeno di massa - quale la popolazione, la natalità, il gettito tributario, i prezzi, ecc. La collettività considerata è generalmente una collettività umana, ma potrebbe anche essere una collettività animale o vegetale o minerale. La rivelazione quantitativa, di cui in questa definizione, può esprimere:
a) come il fenomeno considerato - p. es. la popolazione - varia attraverso il tempo e si ha allora una curva storica;
b) come la massa si ripartisce, in un determinato istante, secondo la misura di un determinato carattere - p. es. la popolazione secondo l'età o il reddito - e si ha una curva di frequenza;
c) come sono legati due diversi caratteri, quando alla coppia corrisponde, nello stesso istante, la stessa frequenza, e si ha allora una curva di livello (o di indifferenza). Anziché riferirsi a due diversi caratteri in uno stesso istante, una curva di livello può riferirsi ad un unico carattere in tempi diversi. Una curva di livello esprime quindi, p. es., che in uno stesso istante tanti figli sono nati da un padre di 25 anni e da una madre di 20, quanti da un padre di 30 e da una madre di 28, o quanti da un padre di 35 e da una madre di 33, ecc. Ovvero che la mortalità a 20 anni, per una data popolazione al tempo 0, è pari alla mortalità a 23 anni, per la stessa popolazione, al tempo 1, alla mortalità a 25 anni al tempo 2; ecc.
Curve storiche. - Il problema fondamentale consiste nel separare il movimento evolutivo (movimento generale) dalle fluttuazioni stagionali e dalle perturbazioni cicliche.
Detti precisamente: u la ordinata osservata; x la ordinata corrispondente al movimento evolutivo; y l'indice delle fluttuazioni stagionali; z l'indice delle perturbazioni cicliche, tutte le quantità essendo riferite a uno stesso istante t, il problema consiste nel determinare x, y, z, noto u.
Ecco brevemente come si opera. Si comincia col determinare x. La determinazione è empirica e si può ottenere per due vie. La prima, più semplice (metodo della media mobile) consiste, nel porre
ε essendo una qualsiasi quantità positiva, che d'ordinario si assume uguale almeno ad ½, se si assume l'anno come unità di misura del tempo.
La seconda (metodo della interpolazione) consiste nell'eseguire, fra i valori osservati di u, una interpolazione con una linea di equazione semplice (lineare, quadratica, cubica, esponenziale, sinusoidale), e nell'assumere come valore di x al tempo t, il valore dell'ordinata della curva interpolata corrispondente allo stesso t.
Si passa successivamente alla determinazione di y. Per questo si eseguono le operazioni seguenti: si costruiscono, per tutto il periodo di anni considerato, i rapporti delle cifre osservate in ciascun mese a quelle osservate nel mese precedente; si fa la media (o la mediana) dei rapporti relativi allo stesso mese dei varî anni; si moltiplicano gl'indici così ottenuti progressivamente in modo da ottenere una serie continua; si moltiplicano i termini della serie per un coefficiente di proporzionalità, tale che la media annua sia pari all'unità.
Determinate x ed y, si ottiene infine z mediante la formula
La successione dei valori di z si dice pure il movimento ciclico. Esso ha somma importanza per lo studio del movimento degli affari, e in generale per la costruzione di quegl'indici (barometri economici), che sono strumenti per la pievisione economica. Appunto nelle riviste e nei bollettini, organi di istituti che attendono a questa previsione, il lettore troverà numerose applicazioni dei metodi sopra indicati: in modo particolare la prima annata (1919) della Review oj Economic Statistics, organo del Harvard Economic Service, contiene una completa e dettagliata esposizione dei metodi.
Curve di frequenza. - Tipica fra le curve di frequenza è la curva di Gauss, o curva degli errori accidentali, la cui equazione è
h e c essendo costanti positive.
La descrizione della forma di questa notissima curva si trova in tutti i manuali di statistica. Ci limitiamo a ricordare che essa è tutta compresa nel semipiano y > 0; che è simmetrica intorno all'asse della y, sopra cui taglia la sua ordinata massima h, e dove presenta una cuspide. A destra e a sinistra della cuspide la curva discende rapidamente, passa per
attraverso un'inflessione, dopo la quale la decrescenza rapida si muta in una decrescenza lenta, che d; mano in mano diviene sempre più lenta, fino a tendere asintoticamente all'asse delle x.
Il nome di curva degli errori accidentali deriva dal fatto che, se si eseguono diverse misure di una stessa grandezza fisica, tutte nelle stesse condizioni esteriori (con gli stessi strumenti, dallo stesso osservatore, con uguale accuratezza ecc.), e si riportano ordinatamente sopra un asse delle ascisse le misure, e perpendicolarmente si innalzano segmenti proporzionali alla frequenza con cui le singole misure sono state ottenute, gli estremi di questi segmenti congiunti con un tratto continuo dànno luogo a una curva che riproduce con notevole approssimazione la forma della (1). La ordinata massima - corrispondente all'asse di simmetria della (1) - corrisponde, nel disegno ora descritto, alla media delle misure, sicché effettivamente le diverse misure si raggruppano intorno alla loro media, così come le ordinate della curva (1) intorno all'ordinata staccata sopra all'asse della y. Il che significa appunto che gli errori (scarti della media) si distribuiscono secondo il loro valore in modo da dar luogo approssimativamente ad una curva quale la (1).
La grande importanza della curva degli errori deriva anzitutto da un fatto empirico. E precisamente dal fatto che essa dà il tipo di molte distribuzioni di frequenza, quali si riscontrano in natura, tanto nel campo della fisica, quanto in quello della statistica e della biometria. Così è, p. es., dei novanta numeri dei lotto, ove si distribuiscano secondo le frequenze delle rispettive estrazioni; o di una massa di coscritti, appartenenti a una popolazione omogenea, distribuiti secondo l'altezza o il peso o il perimetro toracico; così i fisici pensano che sia delle molecole di un gas perfetto, (v. gas) ove esse si pensino distribuite secondo la loro velocità, ecc.
L'approssimazione delle distribuzioni empiriche alla curva teorica è tanto maggiore, a parità di tutte le altre condizioni, quanto maggiore è il numero delle osservazioni, sicché la curva teorica può considerarsi come caso limite di una curva empirica, corrispondente a un numero di osservazioni infinitamente grande.
Questa considerazione si illumina di particolare luce, ove sia inquadrata nelle verità razionali del calcolo delle probabilità.
Supponiamo per questo di avere un'urna, in cui siano, in uguale proporzione, palle di due colori diversi, p. es. rosso e nero. Pensiamo una serie di un numero grandissimo di estrazioni, per cui ogni volta sia pensata riposta nell'urna la palla estratta, e calcoliamo - coi metodi che il calcolo combinatorio insegna - quale è la probabilità p che ha la palla rossa di presentarsi r volte su n. La relazione algebrica che intercede fra p e r è espressa da un'equazione, che per n tendente all'infinito, tende alla (1).
La curva degli errori è quindi quella che rigorosamente corrisponde - a norma del calcolo delle probabilità - ad una serie di infinite prove ripetute, quando in ogni singola prova la probabilità elementare resta costante e pari al ½.
Ne deriva che tutte le volte che una distribuzione di frequenza risulta empiricamente adattarsi alla curva degli errori, il fenomeno che essa rappresenta può idealmente assimilarsi al risultato della estrazione di una palla da un'urna, in cui sono palle di due colori diversi, press'a poco nelle stesse proporzioni. Il che significa che può pensarsi come un fenomeno casuale.
Lo schema di una serie di prove ripetute, in cui resta costante la probabilità in ciascuna prova, e da cui - come ora si è visto - si può far discendere la curva degli errori, si dice schema di Bernoulli. Possono pensarsi altri schemi più complicati, da cui derivano più complicate curve di frequenza. Ci limitiamo a segnalare gli schemi di Poisson, di Lexis, di Boltzmann: non ci consente lo spazio di darne un'idea. Il lettore che desiderasse averne contezza troverà un'ottima guida nell'opera del Vinci, indicata nella bibliografia.
Pure le curve di Pearson, che si possono definire come gl'integrali dell'equazione differenziale
in cui è evidente il significato dei simboli, possono ricavarsi da uno schema di prove ripetute a norma del calcolo delle probabilità. Esse peraltro traggono la loro importanza soprattutto dal fatto che, contenendo quattro costanti arbitrarie, oltre a quella che deriva dall'integrazione, si piegano a rappresentare con successo le diverse forme di curve di frequenza, quali empiricamente si manifestano nella biometria. L'analisi delle varie forme che possono presentarsi per le diverse combinazioni dei valori delle costanti a, b, c, h è stata fatta dal Pearson stesso, ed è riprodotta con molta chiarezza nel piccolo volume dell'Elderton, citato nella bibliografia. Segnaliamo pure per la ricchezza delle applicazioni il volumetto del Davenport e soprattutto le riviste Biometrika e Metron, segnatamente la prima.
Le curve di Pearson comprendono come caso particolare quella degli errori, che si ricava come caso particolare dalla formula precedente, ponendo ivi a = 1; b = c = h = 0.
Molte altre rappresentazioni analitiche sono state proposte per le curve di frequenza. Fra esse sono degne della massima attenzione quelle dello Charlier.
Né la curva degli errori, né quelle più complicate che discendono dagli schemi di Poisson e di Lexis, e nemmeno quelle di Pearson e dello Charlier si adattano in generale a rappresentare le curve di frequenza, che si riscontrano nel campo dei fenomeni economici e che si caratterizzano per la loro spiccata asimmetria. Tipica è, fra queste, la curva dei redditi, esprimente il numero y dei redditieri aventi reddito pari a x, e che ha la forma della sezione meridiana di una trottola. Si dice la trottola paretiana, dal nome del Pareto, che per primo l'ha rilevata. La sua rappresentazione analitica ha dato luogo a moltissimi studî, soprattutto in Italia, che hanno concluso nel presentare per questa equazione la forma
Per s = 1, γ = h = 0 essa si riduce all'equazione classica considerata dal Pareto, che è quella sopra cui si sono concentrati gli sforzi della maggior parte degli statistici. Ponendo s = 1 (mantenendo indeterminato il valore degli altri parametri) si ha un tipo pure intravisto dal Pareto e che, in tempi più recenti, il Cantelli ha tentato di riconnettere ai principî teorici del calcolo delle probabilità. Per s = − 1 si ha il tipo considerato dal Vinci. I due tipi s = ± 1 sono compresi nelle curve di Pearson. Non vi è compreso invece il tipo corrispondente all'equazione (3) nella sua massima generalità, quale è stata considerata in uno studio pubblicato negli Annali di matematica del 1924-25.
Nella sua forma generale l'equazione (3) contiene cinque parametri indipendenti, che sono c, γ, h, s, p, ed è pertanto atta a porre in luce le cinque costanti fondamentali della curva dei redditi, che sono il reddito minimo, il reddito medio, la popolazione, l'indice di concentrazione dei redditieri e il rapporto di concentrazione dei redditi.
Curve di livello. - Nascono, come si è già implicitamente detto, dalla considerazione dei fenomeni collettivi di due argomenti, i quali sono rappresentati da espressioni analitiche come
Possono x ed y esprimere entrambi caratteri misurabili della popolazione, considerata, per esempio, l'età del padre e della madre in una collettività di neonati, o del marito e della moglie in una collettività di novelli sposi, ecc. Ovvero può x rappresentare un carattere misurabile degl'individui della collettività, per esempio l'età dei componenti una determinata popolazione - ed y rappresentare genericamente il tempo. A sua volta z rappresenta nel primo caso la frequenza con cui si riscontrano in un determinato istante i caratteri x e y, e nel secondo la frequenza con cui si riscontra il carattere x al tempo y. Le curve di livello nascono da (4) supponendo ivi z = costante.
Le curve di livello possono essere - nel campo di variabilità considerato per x e per y - chiuse e aperte, a uno o a più rami. Le diverse eventualità corrispondono a sostanziali differenze nelle modalità dei fenomeni singoli.
Bibl.: Oltre ai trattati generali e alle opere speciali di statistica, di calcolo delle probabilità, di teoria degli errori:
a) per le curve storiche le riviste: Review of Economic Statistics (organo del Harvard Economic Service, Cambridge Mass.); Vierteljahrshefte zur Konjunkturforschung, Berlino; Indici del movimento economico italiano (editi dall'Istituto di statistica presso l'università di Roma); Metron (rivista internazionale di statistica); e le opere: C. Snyder, Business Cycles and Business Measurements, New York 1927; M. A. Brumbaugh, Direct method of determining cyclical Fluctuations of Economic Data, New York 1926; W. M. Pesons, W. T. Foster, A. J. Hettinger, The Problem of Business Forecasting, Boston-New York 1924.
b) Per le curve di frequenza: la rivista Biometrika (Biometric University College), Londra; e le opere: F. Vinci, Statistica metodologica, Padova 1924; W. P. Elderton; Frequency curves and Correlation, Londra 1906; C. V. L. Charlier, Vorlesungen über die Grundzüge der mathematischen Statistik, 2ª ed., Lund (Scientia) 1920; L. Amoroso, Ricerche intorno alla curva dei redditi, in Annali di matematica, s. 4ª, II (1924-25); V. Pareto, Cours d'Économie Politique, Losanna 1896; A. Niceforo, La misura della vita, Torino 1919; F. de Helguero, Per la risoluzione delle curve, in Memorie Accademia dei Lincei, Roma 1906.
c) Per le curve di livello: E. Perozzo, Nuove applicazioni del calcolo delle probabilità allo studio dei fenomeni statistici ed applicazione allo studio dei matrimoni secondo la età degli sposi, in Memorie Accademia dei Lincei, 1881-82; L. Amoroso, Le curve di indifferenza nella teoria dei fenomeni collettivi di due argomenti, in Giornale degli economisti, 1917.