ALEATORI, PROCESSI
I p. a., o p. "stocastici", sono lo strumento matematico per studiare l'evolversi nel tempo dei fenomeni dipendenti da fattori casuali. Come tale essi rientrano nell'ambito del calcolo delle probabilità, di cui in effetti costituiscono il ramo più ricco di sviluppi.
Si consideri una successione di scommesse, in ciascuna delle quali un giocatore può vincere o perdere, con probabilità ½, una lira. Se il giocatore ha all'inizio a lire, dopo una scommessa avrà, con probabilità ½ a + 1 o a − 1 lire; dopo due scommesse avrà rispettivamente con probabilità S-105???, ½, S-105???, a + 2 oppure a oppure a − 2 lire e così via: in generale la somma accumulata dopo n scommesse non è prevedibile con certezza, ma è un "numero aleatorio", o "variabile casuale", Xn. La distribuzione di probabilità di tale numero è stata oggetto di ampi studi; ma fin dagli albori del calcolo delle probabilità, accanto a questioni che riguardavano la singola variabile casuale Xn, ne sorsero altre (in particolare sotto il nome di "problema della rovina del giocatore") che riguardavano l'evoluzione nel tempo del capitale del giocatore, cioè il comportamento globale della successione {Xn}, o, con linguaggio moderno, il p.a. {Xn}.
Tipici problemi di questo genere sono: qual è la probabilità che il giocatore arrivi, prima o poi, al capitale zero? (è la rovina del giocatore). Qual è la probabilità che la rovina arrivi dopo un numero k fissato di scommesse? Qual è il numero medio di scommesse prima della rovina? Se il giocatore si prefigge di vincere b lire, qual è la probabilità che raggiunga il suo scopo, senza che nel frattempo intervenga la rovina? Per quanto tempo il capitale del giocatore si manterrà al di sopra di un certo valore c? compreso tra due valori c e d? E così via.
Questi problemi indirizzano a comprendere la tematica dei p.a. e nello stesso tempo dànno una prima idea delle loro applicazioni; è chiaro infatti come un modello dello stesso tipo, anche se ovviamente più complicato, è alla base dello studio dei problemi delle assicurazioni. Ma lo stesso modello matematico ha anche un'altra importante interpretazione. Si pensi a un punto su una retta che, a intervalli regolari, si può spostare di un'unità di lunghezza a destra o a sinistra, con probabilità =⃓. Il p.a. {Xn}, dove Xn è la posizione del punto sulla retta dopo n passi, coincide, dal punto di vista numerico, con quello descritto prima, ed è il più semplice esempio di "passeggiata a caso", o "aleatoria" o "moto casuale", con importanti applicazioni fisiche. Il p.a. ora considerato ha un'importanza che va molto al di là di quanto si è visto; da esso infatti, con opportuni passaggi al limite, si ottengono tutti i p. a. più importanti nella teoria e nelle applicazioni. Citiamo anzitutto il "p. normale", o "di Wiener-Levy" (in cui compare la distribuzione normale), detto anche "del moto browniano" perché si presta molto bene a descrivere il movimento, detto appunto browniano, di una particella microscopica sospesa in un liquido. Molto importante è inoltre il "p. di Poisson", che è un particolare "p. di conteggio", cioè un p.a. che, in un fenomeno in cui si verificano degli eventi in istaanti aleatori, considera, per ogni valore t, il numero (ovviamente aleatorio) degli eventi che si verificano nell'intervallo di tempo (0,t).
A parte questi accenni, l'importanza dei p.a. risulta evidente se si pensa alla necessità, sempre più affermata, di far intervenire il calcolo delle probabilità nello studio dei fenomeni scientifici, tecnici, economici, sociali; e alla frequente opportunità di considerare tali fenomeni nel loro aspetto dinamico.
Ci limitiamo a citare lo studio delle "serie storiche" (serie di osservazioni ripetute nel tempo su fenomeni economici, demografici, ecc.) che, in particolare per la stima dei valori tipici e per la previsione dell'andamento futuro, costituiscono l'aspetto statistico dei processi aleatori.
Il modello matematico. - Da un punto di vista formale, un p.a. si definisce come una famiglia di variabili aleatorie {X(t)}, t ∈ T. Nei casi più frequenti l'insieme T dei valori t del parametro è un intervallo, finito o infinito, della retta (p.a. "a parametro continuo") o un insieme numerabile (p.a. "a parametro discreto"). Nelle applicazioni, il parametro t ha spesso il significato di "tempo", e da ciò deriva parte della terminologia. Un tipico esempio di p.a. a parametro discreto è quello già considerato (p. dei guadagni o passeggiata aleatoria) {Xn}, n = 0, 1, 2,. . . in cui X0 = a, e Xn ha una distribuzione binomiale o di Bernoulli, che assume i valori a − n + 2k (k = 0, 1, 2,. . ., n) con
Per comprendere meglio la struttura dei p.a., li si può vedere come un'estensione delle variabili aleatorie a più dimensioni. Se si lancia due volte un dado, i risultati possibili sono le coppie ordinate (x1, x2) (con x1 e x2 interi compresi tra 1 e 6), "determinazioni" o "realizzazioni" della variabile aleatoria (X1, X2). Se il dado viene lanciato k volte, una realizzazione è un insieme ordinato di k numeri (x1, . . ., xk). Così una realizzazione di un p. a. a parametro discreto è una successione di numeri (x1, x2, . . .), che naturalmente non può essere ottenuta materialmente (ci vorrebbe un tempo infinito), ma dal punto di vista concettuale non differisce molto dalla realizzazione di una variabile aleatoria a k dimensioni. Allo stesso modo, in un p.a. a parametro continuo, una realizzazione assegna per ogni t un valore determinato alla variabile aleatoria X(t), ed è quindi una funzione x(t). Si comprende quindi come i p.a. vengano anche chiamati "funzioni aleatorie": si tratta di un fenomeno aleatorio in cui il risultato di una prova è una funzione. Alle funzioni x(t), possibili realizzazioni di un p.a. X(t), si dà anche il nome di "traiettorie".
Studio dei processi aleatori. - Un p.a. si può considerare, come si è già detto, come una variabile aleatoria a infinite dimensioni. Lo studio della distribuzione di una tale variabile aleatoria è facilitato da un fondamentale teorema di A. Kolmogorov, in base al quale per individuare la distribuzione di un p.a. è sufficiente conoscere le distribuzioni delle variabili aleatorie (a un numero finito di dimensioni) [X(t1),. . ., X(tn)] per ogni n e per ogni scelta degli n punti t1,. . ., tn in T, cioè le funzioni di ripartizione:
Particolare importanza hanno delle classi di p. a. soddisfacenti ad alcune condizioni semplificatrici che verranno ora presentate.
Un p. a. si dice "markoviano" se per ogni n-upla (t1, ..., tn) con t1 〈 t2 〈 ... 〈 tn si ha:
cioè le distribuzioni di probabilità condizionate dipendono solo dal valore del processo nell'ultimo istante in cui esso è noto. Si suole dire che un p. markoviano "non ha memoria": la distribuzione di probabilità nel futuro dipende solo dall'ultimo dato noto in ordine di tempo, e non dai precedenti. La proprietà markoviana permette di riferire lo studio del p. a. a un istante iniziale t0: l'andamento del p. a. per t 〈 t0 non ha influenza sullo sviluppo successivo.
Un p. a. si dice "a incrementi indipendenti" se per t′1 〈 t″1 ≤ t′2 〈 t′2 ≤ . . . ≤ t′n 〈 t″n, le variabili aleatorie X(t″1) − X(t′1), X(t″2) − X(t′2), . . ., X(t″n) − X(t′n) sono indipendenti, se cioè sono indipendenti gl'incrementi del p. a. su intervalli non sovrapposti. Quando è noto il valore x0 del p. a. nell'istante iniziale t0, dall'indipendenza degl'incrementi deriva la proprietà markoviana. Infatti X(t″) − X(t′) è indipendente da X(t) − x0, cioè da X(t), per ogni t ≤ t′ e quindi la distribuzione di probabilità della variabile aleatoria X(tr+1) = X(tr) + [X(tr+1) − X(tr)] quando è noto X(tr) risulta indipendente dai valori X(t) per t ≤ tr.
Un p. a. si dice "omogeneo" quando le probabilità condizionate al primo membro della [2] rimangono costanti se si aggiunge una costante a ai valori ti; in altre parole quando le probabilità condizionate sono invarianti rispetto a traslazioni nel tempo.
Un p. a. si dice "stazionario" se le distribuzioni di probabilità (non solo quelle condizionate) sono invarianti rispetto a traslazioni nel tempo.
Si verifica facilmente che la passeggiata aleatoria, o p. a. dei guadagni, precedentemente illustrata, soddisfa a tutte queste condizioni, tranne l'ultima (come era da aspettarsi data la semplicità della sua struttura). In effetti queste proprietà derivano da un'altra proprietà più forte, e cioè che il p. dei guadagni può essere espresso mediante la relazione
dove le variabili aleatorie Yr sono i guadagni nelle singole scommesse (cioè 1 0 −1 con probabilità 1/2) e sono somiglianti (cioè aventi la stessa distribuzione) e indipendenti. Una rappresentazione del tipo [3] è possibile per ogni p. a. a parametro discreto, quando sia noto il valore x0 del p. a. nell'istante n = 0: basta porre Yr = Xr − Xr-1. In generale ciò non porta alcun vantaggio; ma se il p. a. è a incrementi indipendenti le variabili aleatorie Yr risultano indipendenti, se inoltre il p. a. è omogeneo, esse risultano anche somiglianti. La rappresentazione [3] permette allora di ottenere importanti risultati.
La rappresentazione [3] si può anche estendere ai p. a. a parametro continuo; è necessario però in tal caso il ricorso a strumenti matematici più complessi che non è il caso di affrontare in questa sede. Infatti nel caso di parametro continuo occorre sostituire, alla somma che compare nel secondo membro, la somma di un'infinità continua di termini; si arriva così alla teoria della "integrazione stocastica". La rappresentazione di p. a. mediante altri di tipo più semplice, di cui quella considerata è un caso particolare, costituisce uno degli sviluppi dello studio dei p. aleatori.
Un altro importante capitolo dei p. a. è lo studio di proprietà invarianti rispetto a t, e di proprietà asintotiche (teoria ergodica). Un caso particolare si ha col "teorema centrale di convergenza" (v. probabilità, calcolo delle, in questa Appendice). Altri notevoli settori dello studio dei p. a., su cui daremo ora qualche cenno, riguardano la caratterizzazione di importanti tipi di p. a. e lo studio di particolari classi di p. aleatori.
Processi aleatori omogenei a incrementi indipendenti. - Porremo ora, per semplificare, T = (0, + ∞) e X(o) = 0; ciò equivale in pratica a studiare il p. a. a partire da un certo istante iniziale, in cui è noto il suo valore. La condizione d'indipendenza degl'incrementi, specie se associata a quella di omogeneità, restringe notevolmente l'insieme dei p. aleatori. Osserviamo intanto che l'incremento X(t2) − X(t1) ha la stessa distribuzione di X(t2 − t1) − X(0), cioè di X(t2 − t1). Ciò permette di ricavare la distribuzione del p. a. dalla conoscenza, per ogni t, della distribuzione Ft(x) = Pr{X(t) 〈 x}. Si ha, per es., per due valori t1 〈 t2,
dove le due variabili aleatorie X(t1) e X(t2 − t1) sono indipendenti, con funzione di ripartizione nota, il che permette di calcolare la probabilità scritta.
Un'altra importante proprietà, che deriva pressoché immediatamente dalle condizioni di omogeneità e indipendenza degl'incrementi, è che la media e la varianza di X(t), se esistono, sono funzioni lineari di t.
Dividendo un intervallo di lunghezza t in n intervalli di lunghezza uguale, X(t) risulta somma di n variabili aleatorie (gl'incrementi in ciascuno degli n intervalli) indipendenti e somiglianti. La distribuzione di X(t) è quindi "infinitamente divisibile" (v. probabilità, calcolo delle, in questa App.). I due tipi più importanti tra tali distribuzioni, normale e poissoniano, si ottengono mediante semplici condizioni aggiuntive. In particolare se il p. a. è, in un certo senso, continuo, si ha un p. normale, se procede solo per salti di altezza unitaria si ha il p. di Poisson. Precisiamo quanto detto.
Se un p. a. omogeneo a incrementi indipendenti è tale che, diviso l'intervallo (0, t) in n intervalli uguali, e considerando gl'incrementi
su tali intervalli, si ha:
allora il p. a. è normale, cioè X(t) ha distribuzione normale con media μt e varianza σ2t. La condizione [4] può essere espressa in forma più semplice; ma è più importante osservare che essa esprime, in pratica, una "continuità uniforme (su ogni intervallo finito) in probabilità". Alla [4] è collegata un'importante proprietà del p. normale: con probabilità 1 le traiettorie del p. a. sono continue. Si può d'altra parte dimostrare che, sempre con probabilità 1, le traiettorie non sono differenziabili in alcun p unto.
Il p. a. così ottenuto è il già citato p. a. di Wiener, o moto browniano. Vi sono altri modi per giungere a individuare lo stesso p. a.; in particolare, come già accennato, esso si può ottenere come limite dal p. dei guadagni, facendo tendere a zero in modo opportuno l'intervallo di tempo tra due scommesse successive.
Se un p. a. omogeneo a incrementi indipendenti procede solo per salti di altezza unitaria (se cioè le traiettorie sono funzioni "a gradini" di altezza uguale a 1), la distribuzione di X(t) è poissoniana con parametro μt. Si ha così il p. a. di Poisson.
Martingale. - Semplificando alquanto la definizione, e in particolare limitandosi al caso di parametro discreto, un p. a. si dice "martingala" se ha valor medio (finito) e
se cioè il valor medio di Xn, quando si conosca la "storia" del processo, è uguale al valore del processo nell'istante n − 1. Se nella [5] si pone ≥ (≤) invece di =, il p. a. si dice "submartingala" ("supermartingala").
L'importanza delle martingale sta nel fatto che molte proprietà, dimostrate sotto condizioni più restrittive, derivano in realtà dalla [5]. Citiamo soltanto il seguente risultato, che generalizza molti altri ottenuti in condizioni più particolari. Se Xn è una submartingala e
(dove X+n = max [Xn, 0]) allora Xn converge quasi certamente a un limite finito.
La [5] può essere considerata una forma di "proprietà markoviana per le medie", ed esprime il concetto di gioco equo: il guadagno tra l'istante n − 1 e l'istante n è nullo in media. Un'interessante proprietà delle martingale è che il p. a. definito ricorsivamente da Zn = Zn-1 + Dn(Xn − Xn-1), dove Dn è una funzione di X0, X1, ..., Xn-1, è ancora una martingala; in altre parole un "sistema" che permetta a un giocatore di modificare (ed eventualmente annullare) l'ammontare della scommessa n-esima basandosi sui risultati precedenti non può trasformare un gioco equo in un gioco favorevole. Questo risultato si ricollega al concetto di "tempo di arresto" (nel caso più semplice: possibilità di arrestare il p. a. all'istante n basandosi sulla "storia" precedente), che gioca un ruolo importante nei p. a., e in particolare nelle martingale.
Processi di rinnovo. - Un "p. di rinnovo" è un p. a. Xn in cui Xn = Y1 + Y2 + ... + yn, dove le Yn sono variabili aleatorie somiglianti, indipendenti, non negative. Il nome deriva dal considerare la situazione in cui un certo pezzo (per es. una lampadina) viene sostituito, quando cessa di funzionare, con uno analogo.
Se s'indica con Yr la durata di vita, ovviamente aleatoria, dell'r-esimo pezzo, si hanno delle sostituzioni, cioè dei rinnovi, agl'istanti X1 = Y1, X2 = Y1 + Y2, ecc.; quando le Yr sono somiglianti e indipendenti si ha un p. di rinnovo. Lo stesso modello vale, più in generale, quando si considerano gl'istanti Xn in cui si verificano certi eventi aleatori, e gl'intervalli di tempo tra due eventi successivi sono variabili aleatorie indipendenti e somiglianti. Le applicazioni sono molto importanti, in particolare nella "teoria delle code" (v. operativa, ricerca, in App. III, 11, p. 315).
A un p. di rinnovo Xn è associato il p. a. di conteggio N(t) che rappresenta il numero dei rinnovi nell'intervallo (0, t), attraverso l'ovvia relazione Pr{N(t) ≥ k} = Pr{Xk 〈 t}. Il caso più importante per la teoria e le applicazioni si ha quando la durata di vita (o intervallo tra gli arrivi) ha distribuzione esponenziale: Pr{Yr〈 x} = 1 − exp(− λx) (x > 0). In tal caso la distribuzione di Xn è di tipo gamma, e N(t) un p. a. di Poisson con parametro λt. Si ha quindi E(N(t)) = λt = t/E(Yr). Il parametro λ assume così il significato di "frequenza media dei rinnovi" (numero medio dei rinnovi per unità di tempo), ed è, in accordo con l'intuizione, l'inverso del "periodo medio".
La stessa relazione vale, asintoticamente, per tutti i p. di rinnovo, purché si escluda il caso di "periodicità" (che cioè esista un α > 0 tale che Yr possa assumere solo valori multipli interi di α). A parte questo caso (in cui il risultato vale con opportune correzioni) si ha, per h > 0:
con il limite nullo se E(Yr) = + ∞.
Catene di Markov. - Si dice "p. a. a catena di Markov" o, più semplicemente, "catena di Markov", un p. a. marcoviano a parametro discreto, in cui le variabili aleatorie Xn possono assumere al più un'infinità numerabile di valori ej (viene data anche un'altra definizione, che non richiede che il parametro sia discreto). Con linguaggio derivante dalla fisica, si dice anche che si ha un "sistema" che, a ciascuno degl'istanti n, si può trovare in uno degli "stati" ej. La catena si dice finita, se è finito il numero degli stati. Indichiamo con il vettore riga
p(n) = (pj(n)) la distribuzione di probabilità di Xn : pj(n) = Pr{Xn = ej}.
Ci limitiamo per semplicità a considerare il caso che la catena di Markov sia omogenea; cioè le probabilità
non dipendono da m. Esse vengono dette "probabilità di transizione, in n passi, dallo stato ei allo stato ej" e si chiama "matrice di transizione in n passi" la loro matrice
P = (pi,j) (dove è sottinteso n = 1) è la "matrice di transizione della catena di Markov", o "matrice stocastica". Si ha ovviamente pi,j ≥ 0, Σjpi,j = 1, e queste condizioni caratterizzano le matrici di transizione.
Con facili calcoli si ottengono le relazioni p(n+m) = p(n)P(m), tra probabilità "assolute" e di transizione, e l'"equazione di Kolmogorov" P(n+m) = P(n)P(m), Da quest'ultima, per ricorrenza, si ottiene P(n) = Pn. Si vede quindi che la matrice di transizione P giuoca un ruolo fondamentale per lo studio della catena. La conoscenza di P e della "distribuzione iniziale" p(0) permette di calcolare tutte le probabilità relative al processo.
Un esempio di catena di Markov omogenea è dato, ovviamente, dal p. dei guadagni, o passeggiata aleatoria, per la quale è pi,j = 1/2 se j = i + 1 o j = i − 1, pi,j = 0 altrimenti. Essa è naturalmente una catena infinita. La si può trasformare in una catena finita con l'introduzione di "barriere assorbenti": si suppone che quando il sistema arriva allo stato e0 o allo stato ek vi si fermi indefinitamente: i valori dati per pi,j, restano immutati quando 1 ≤ i ≤ k − 1, mentre p0,0 = pk,k = 1. Questo modello descrive anche il p. dei guadagni, se si suppone che il gioco si arresta quando il capitale del giocatore si riduce a zero (senza soldi non può più scommettere) o sale a k (limite massimo che si può immaginare fissato dal giocatore o dal banco). Un altro modello utile nelle applicazioni è quello che contempla delle "barriere riflettenti": s'immagina che un punto materiale che trovandosi in O dovesse spostarsi a sinistra, rimbalzi su una parete elastica e ritorni in O; si ha quindi p0,0 = 1/2 = p0,1.
Una catena si dice "irriducibile" se da ogni stato si può passare a ciascun altro (in un numero opportuno di passi). Uno stato ei si dice "periodico" o "ciclico" di periodo d se partendo da ei si può tornare in ei solo in un numero di passi multiplo di d. Più esattamente detto periodo d il massimo comun divisore dei valori n tali che
lo stato si dice "periodico" se d > 1. Si dimostra che in una catena irriducibile tutti gli stati hanno lo stesso periodo, che viene detto "periodo della catena".
Per le catene omogenee irriducibili aperiodiche finite vale una serie di fondamentali risultati, i primi dei quali sono dovuti ad A.A. Markov:
3) π = (π1, ..., πk) (a meno di una costante moltiplicativa) l'unica soluzione dell'equazione pP = p;
4) la frequenza relativa dello stato ej, Fj(n) (cioè il numero delle volte che il sistema si trova nello stato ej nei primi n passi, diviso per n) tende in probabilità a πj;
5) il "tempo medio di ritorno" allo stato ej (cioè la media del tempo intercorrente tra due istanti successivi in cui il sistema si trova nello stato ej) è uguale a 1/πj.
Ci limitiamo a osservare che il limite di
non dipende dallo stato di partenza ei, e a commentare brevemente il punto 3). Esso dice che la distribuzione di probabilità limite è anche "stazionaria": se cioè la distribuzione iniziale p(0) è uguale a π, allora p(n) = π per ogni n, e il p. risulta stazionario. Ciò corrisponde all'andamento di molti fenomeni fisici che, attraverso una fase evolutiva, tendono a una fase stazionaria, in cui le caratteristiche del fenomeno permangono invariate.
Se invece la catena è infinita, vale ancora il limite nella 1); i valori πj possono essere però o tutti nulli o tutti diversi da zero. In quest'ultimo caso (come nel caso finito) la catena si dice "ergodica", e valgono anche tutti gli altri risultati.
Bibl.: Quasi tutti i testi moderni di probabilità dedicano un certo spazio ai p.a.; si può vedere in particolare M. Loeve, Probability theory, Princeton 19633; B. de Finetti, Teoria delle probabilità, Torino 1970. Più specifici sono: J. L. Doob, Stochastic processes, New York 1953; K. L. Chung, Markov chains with stationary transition probabilities, Berlino 1960; E. B. Dynkin, Markov processes, 2 voll. (tradotto dal russo), ivi 1961; P. Levy, Processus stochastiques et mouvement brownien, Parigi 19652; L. E. Dubins, L. J. Savage, How to gamble if you must, New York 1965. Hanno particolare riferimento alle applicazinoi: U. Grenander, M. Rosenblatt, Statistical analysis of stationary time series, New York 1957; A. T. Barucha-Reid, Elements of the theory of stochastic processes and their applications, ivi 1960.