BIOMETRIA
(VII, p. 52; App. IV, I, p. 293)
Con la diffusione sempre più vasta di elaboratori elettronici a elevate prestazioni, è divenuto sempre più frequente tra gli studiosi interessati a una metodologia quantitativa in biologia, il ricorso ai metodi propri dell'analisi multivariata. Di quest'analisi, che è l'insieme delle tecniche usate nello studio della variazione simultanea di due o più variabili, si riconoscono sempre più nuove applicazioni in campi assai diversi della biologia, dalla sistematica alla genetica all'ecologia.
Nella trattazione che segue, volutamente non matematica, si vuole dare un'idea generale su quali siano le domande cui si può tentare di rispondere usando alcune delle tecniche multivariate attualmente disponibili. Per un'introduzione più approfondita a queste tecniche, o per l'applicazione di questa metodologia a specifici problemi biologici, si rimanda alla bibliografia.
Rappresentazione degli oggetti ''multivariati''. − Date le distribuzioni congiunte di due o più variabili, il metodo più utile per analizzare i dati è quello di rappresentarli sotto forma di tabella (matrice dei dati) come segue:
dove le xji rappresentano i valori osservati di p variabili su n oggetti e i numeri sottoscritti j e i identificano rispettivamente la riga e la colonna a cui corrisponde il valore osservato. Le righe della matrice indicano perciò le caratteristiche dello j-esimo oggetto rispetto alle p variabili misurate, mentre ciascuna colonna rappresenta la variabilità della i-esima variabile osservata su n oggetti. Nonostante i valori osservati possano essere analizzati anche nella loro forma originale, è conveniente considerarli in forma standardizzata. Questo significa la sostituzione di ogni valore osservato xji con un nuovo valore zji, dove zji=(xji−·xi)/si, essendo xi il valore medio della variabile i-esima e si la deviazione standard. Con questo procedimento le variabili iniziali vengono trasformate in nuove variabili, misurate in unità di deviazione standard di ciascuna distribuzione rispetto alla media.
Scopi dell'analisi multivariata. − Una distinzione che può essere fatta prima di enunciare gli scopi di alcune delle tecniche in uso di analisi multivariata, è se si tratti di analizzare un sistema di covariazione tra gruppi (gli oggetti da esaminare appartengono a più di una popolazione) oppure entro gruppi (gli oggetti appartengono a un'unica popolazione). Le tecniche usate nel primo caso mirano a porre in evidenza un'eventuale disomogeneità dei campioni; lo scopo dell'analisi può essere allora quello di determinare se i vettori medi delle popolazioni siano o meno uguali ed è il caso dell'analisi multivariata della varianza (Multivariate Analysis Of Variance o MANOVA), oppure quello di trovare combinazioni lineari delle variabili che massimizzino le differenze tra gruppi preesistenti (analisi discriminante). Esistono inoltre metodi che consentono di raggruppare gli oggetti a seconda del grado di somiglianza che essi presentano. Questi metodi vanno generalmente sotto il nome di analisi dei clusters e lo scopo principale dell'analisi è quello di risolvere una raccolta eterogenea e unica di oggetti in una serie di suddivisioni omogenee al loro interno. Per chi sia interessato a una classificazione degli organismi viventi si può porre, per es., il problema di identificare dei sottogruppi omogenei (clusters) e poi quello di sistemarli in una struttura gerarchica che metta in evidenza le somiglianze esistenti tra alcuni di essi e le differenze esistenti tra altri. Un altro problema, una volta che la suddivisione sia già fatta, può essere quello di attribuire in maniera corretta un individuo a una certa classe invece che a un'altra. Il risultato di tali operazioni potrebbe a sua volta rivelarsi assai utile per tracciare l'evoluzione di differenti specie o sottospecie. Se si hanno a disposizione i valori corrispondenti a un certo numero di caratteristiche variabili, è possibile costruire una funzione che sia in grado di differenziare al massimo i diversi gruppi e renda quindi possibile l'attribuzione di un individuo al proprio gruppo specifico con il minimo errore.
Quando gli oggetti da esaminare sono tratti da un'unica popolazione, l'attenzione è rivolta innanzitutto ai modi di semplificare la struttura dei dati. Così, mentre l'analisi dei clusters tende a raggruppare quelle variabili che sono altamente correlate, l'analisi dei fattori ha lo scopo di risolvere le correlazioni tra variabili in quelle che si ritengono essere le loro cause determinanti, cioè di esprimere la covariazione in termini di k fattori (dove k〈p) che spieghino una grande parte della varianza e della covarianza delle variabili originarie. Diversamente dall'analisi dei fattori, quella delle componenti principali è rivolta alla rappresentazione della variabilità trovata nel campione, più che all'interpretazione delle correlazioni osservate tra variabili misurate; ma, analogamente a essa, opera attraverso una riduzione del numero di variabili coinvolte a quelle maggiormente informative. Accade spesso infatti che le variabili che si misurano siano più o meno interdipendenti e che i dati contengano quindi una quantità notevole di informazioni ridondanti.
Indipendentemente da quale sia la tecnica più appropriata caso per caso, il primo passo consiste nel confrontare tra loro n oggetti prendendo in esame più di una caratteristica variabile alla volta. Ma mentre per il sistematico gli n oggetti possono essere, per es., campioni di vegetazione trovati in uno o più luoghi di raccolta e le variabili caratteristiche misurabili di questi campioni, per l'ecologo gli n oggetti da studiare potrebbero essere proprio i luoghi di raccolta e l'abbondanza relativa di ciascun tipo di pianta rappresentare l'insieme di variabili da registrare per ciascuno di questi oggetti. Quale che sia la natura degli oggetti e delle variabili in questione, l'analisi comincia con la raccolta dei dati che consistono per ciascun oggetto in una serie di misurazioni di un certo numero, p, di parametri (variabili), e dove i differenti oggetti possono appartenere allo stesso o a differenti gruppi. Da un punto di vista geometrico questo corrisponde ad avere un insieme o diversi insiemi di punti distribuiti in uno spazio p-dimensionale. L'analisi multivariata della variabilità entro gruppi si basa sulla determinazione, gruppo per gruppo, degli assi principali (direzioni di massima variazione o vettori caratteristici) della distribuzione di punti intorno alla media e di quanto sia grande la porzione di variabilità totale corrispondente a ciascuno di questi assi (radici caratteristiche). L'analisi multivariata della variabilità tra gruppi si basa sostanzialmente sulla distribuzione delle medie di ciascun gruppo intorno alla media generale e sulla determinazione delle direzioni di massima variazione (funzioni discriminanti) di questa distribuzione. Nell'uno e nell'altro caso, gli assi (componenti) principali che vengono calcolati rappresentano una media ponderata delle misure effettuate, dove i ''pesi'' sono ottenuti in modo da compensare la ridondanza di informazione inerente al fatto che spesso le diverse variabili sono più o meno intercorrelate.
Ampiamente applicata nella ricerca biologica, l'analisi delle componenti principali rappresenta una procedura preliminare per trasformare l'insieme di variabili originarie in un nuovo gruppo di variabili (componenti), combinazioni lineari delle prime, che rendano conto in maniera progressiva di quote di variazione del campione sempre minori e siano tra di loro indipendenti. L'analisi delle componenti principali è particolarmente adatta per lo studio della struttura di un insieme di osservazioni multivariate, in particolare quando non si ha alcuna idea a priori del modo con cui le variabili misurate sono tra loro dipendenti o associate. Un tentativo è qui fatto di esprimere i concetti basilari di questo metodo in modo essenzialmente non tecnico, nella speranza che esso possa servire come introduzione per quei lettori che desiderano un approccio non matematico.
Implicazioni geometriche di una matrice. − Quando si considerano congiuntamente p variabili, si può postulare uno spazio a p dimensioni, dove gli oggetti misurati siano rappresentati da punti (o da vettori), e la posizione di ciascuno di essi sia determinata in modo univoco dalla particolare combinazione di valori corrispondente all'oggetto che il punto rappresenta. I valori relativi all'j-esimo oggetto contenuti in una matrice di dati standardizzati possono essere infatti considerati come le coordinate di un punto rappresentante quell'oggetto nello spazio p. Ogni punto può essere collegato all'origine del sistema di coordinate mediante una linea e la configurazione che ne risulta viene detta rappresentazione vettoriale.
Se le variabili sono più o meno correlate tra loro, i punti (o i vettori) che rappresentano gli n oggetti tendono a stare insieme in una configurazione spaziale più o meno ben definita e a non occupare tutto lo spazio p. Questo permette di tracciare delle nuove coordinate (componenti o assi) lungo le dimensioni principali della sottoregione in cui i punti giacciono effettivamente e di proiettare le singole unità di osservazione sui nuovi assi e non più su quelli originari. Questa rappresentazione dei dati nello spazio trasformato è tanto più efficace quanto maggiore è la differenza in lunghezza dei nuovi assi di riferimento e, in ultima analisi, quanto maggiore è la forza con cui le variabili misurate sono correlate l'una all'altra. Se non esistesse alcuna correlazione, infatti, gli n punti sarebbero distribuiti nello spazio a formare una sfera (o ipersfera) e tutti gli assi di riferimento sarebbero quindi di uguale lunghezza (o importanza).
Il primo passo consiste nel calcolare una matrice di correlazione, che è una tavola simmetrica dei coefficienti di correlazione di ogni variabile con ciascun'altra. L'esistenza di correlazioni più o meno forti nella matrice implica dal punto di vista geometrico che i punti sono contenuti all'inter no di una regione ristretta dello spazio p (elissoide o iperelissoide) in cui è possibile identificare direzioni di maggiore e di minore variabilità. Queste sono dette componenti (principali) e l'analisi delle componenti principali è il metodo che consente di proiettare i punti originari sul nuovo sistema di coordinate.
La posizione del primo asse rispetto alla dispersione di punti è determinata in modo tale che esso possa spiegare la maggior parte della varianza possibile (cioè la somma dei quadrati delle proiezioni dei punti su di esso è la minima possibile); il secondo asse, ortogonale al primo, è poi quello che spiega quanto più possibile della varianza rimanente, e così via. La varianza, cioè la lunghezza o importanza, dei diversi assi (componenti) corrisponde alle rispettive radici latenti (autovalori), essendo la somma delle radici latenti uguale alla dispersione interna del sistema.
In pratica, alcuni assi (o componenti) risulteranno essere di minore importanza descrittiva rispetto ad altri e la variabilità totale potrà essere rappresentata abbastanza bene dai primi due o tre assi di riferimento (componenti principali), che sono gli unici di cui si tiene conto. Questo ha il risultato di ridurre il sistema p-dimensionale a uno con un numero di dimensioni minore e, di conseguenza, di semplificare la struttura dei dati pur conservando il più possibile dell'informazione contenuta nei dati originali e nel campione.
Analisi delle componenti principali. − Dal punto di vista algebrico, l'analisi delle componenti si esprime nel modo che segue:
yi=ai1 zi1+ai2z2+ai3z3+ai3z3+ . . . aipzp
dove yi è la i-esima componente delle variabili 1, 2, 3 . . . p, e i coefficienti ai1, ai2, ai3, . . . aip, rappresentano il peso relativo di ciascuna variabile sulla componente derivata. In notazione matriciale, l'equazione è
Y=AZ
dove A contiene gli elementi dei vettori latenti della matrice di dispersione dei dati; Z è la matrice delle osservazioni iniziali e Y contiene le componenti principali.
I pesi relativi delle variabili originarie su quelle trasformate (component loadings), opportunamente scalati, possono a loro volta essere usati per proiettare le variabili che si misurano sugli stessi assi di riferimento del diagramma di dispersione dei punti, consentendo in questo modo una migliore interpretazione della struttura di variazione del sistema.
Un'applicazione importante di questa tecnica è in quei casi d'indagine in cui si voglia mettere in relazione distribuzione di variabili da un lato e differenze ambientali o geografiche dall'altro, ma le eventuali connessioni siano difficili da mettere in evidenza per il grande numero di variabili coinvolte e la complessità delle loro interrelazioni. Poniamo, per tornare a un esempio precedente, che gli oggetti siano rappresentati da luoghi di raccolta di varietà di piante e le variabili misurate su questi oggetti dall'abbondanza relativa delle diverse specie che vi si trovano. Se si riesce a spiegare una grossa parte della variabilità del sistema in termini di differenze in particolari caratteristiche ambientali (per es., composizione chimica del suolo); se si riesce, cioè, a dimostrare che le componenti principali riflettono in realtà condizioni ecologiche di qualche tipo, si è arrivati a chiarire almeno in parte la natura dei principali fattori di controllo dell'attuale distribuzione di piante. Il passo successivo consiste quindi nel tentare di valutare i risultati della trasformazione utilizzando informazioni esterne ai dati dell'analisi. Quando si fa questo, si trova frequentemente che i nuovi assi di riferimento, sebbene siano in senso stretto solo delle mere costruzioni matematiche, corrispondono anche a caratteristiche ambientali o geografiche del sistema in esame. Così, il possibile significato ecologico di una componente (asse) può essere ulteriormente esplorato analizzando il grado di correlazione esistente tra intensità di un determinato fattore ecologico in diverse località e posizione relativa dei punti che le rappresentano rispetto a quel particolare asse.
Un approccio completamente differente all'analisi congiunta di variazioni individuali e variazioni ambientali è quello della valutazione della correlazione canonica. Se le variabili possono essere suddivise in maniera logica in due o più insiemi e si desidera stabilire se esistano relazioni lineari tra questi insiemi, è possibile valutare il grado di associazione esistente tra di essi considerati a due a due, essendo ciascun insieme ridotto al proprio componente principale.
L'analisi delle componenti principali e l'interpretazione dei nuovi assi di riferimento in termini di possibili fattori ecologici e geografici, permette d'introdurre il concetto di struttura spaziale della variazione, e di estendere questa breve trattazione alla descrizione di un metodo, quello dell'autocorrelazione spaziale, che, pur appartenendo in senso stretto al campo della statistica univariata, merita una sia pur breve citazione essendosi dimostrato uno strumento assai valido per l'analisi comparativa del tipo di distribuzione nello spazio di varianti, siano esse qualitative o quantitative.
Il coefficiente di autocorrelazione spaziale è il valore di corre lazione osservato tra le misure di una determinata variabile deter minate in coppie di punti (località) considerati vicini (adiacenti o connessi). Le connessioni sono di solito una funzione della distan za geografica, ma possono anche essere modificate rispetto a que sta quando si tenga conto di particolari modelli biologici. Ovvia mente il criterio scelto per connettere tra loro i punti avrà un'influenza sui coefficienti di autocorrelazione che si possono calcola re sulla stessa serie di dati.
In pratica, data una serie di punti (o località) e i valori di una variabile per ciascuna di queste località, si può ottenere una matrice di adiacenze che rappresenti le interconnessioni tra i punti e da questa procedere al calcolo dei coefficienti di autocorrelazione. Si possono poi calcolare coefficienti di autocorrelazione per coppie di località che siano separate tra loro da un numero sempre maggiore di unità di distanza geografica e analizzare così la variazione dell'autocorrelazione in funzione della distanza tra i punti. I profili di tali diagrammi, detti correlogrammi, possono quindi essere confrontati con quelli di altre variabili e/o con quelli artificiali generati dal calcolatore alla luce di vari modelli e possibilmente interpretati in termini di processi biologici ed evolutivi. Un'analisi dettagliata dell'uso di questo test per vari problemi biologici e le formule per calcolare le autocorrelazioni e saggiarne la significatività sono illustrate in dettaglio in due lavori di R. R. Sokal e N. L. Oden (1978).
Bibl.: R. E. Blackith, R. A. Reyment, Multivariate morphometrics, Londra-New York 1971; Multivariate statistical methods: among-groups covariation, a cura di W.R. Atchley, E. H. Bryant, Stroudsburg (Pennsylvania) 1975; Multivariate statistical methods: within-groups covariation, a cura di W. R. Atchley, E. H. Bryant, ivi 1975; L. Orloci, Multivariate analysis in vegetation research, Boston 19782; R. R. Sokal, N. L. Oden, Spatial autocorrelation in biology, i, Methodology, in Biological journal of the Linnean Society, 10 (1978), pp. 199-228; Id., Spatial autocorrelation in biology, ii, Some biological implications and four applications of evolutionary and ecological interest, ibid., pp. 229-49; I. Barrai, Introduzione all'analisi multivariata, Bologna 1986.