CHEMIOMETRIA
Modelli descrittivi e analisi esplorativa dei dati. Modelli predittivi: regressione e classificazione. Disegno sperimentale. Applicazioni. Tra passato e futuro. Bibliografia
Come disciplina che si serve di metodi matematici, statistici e logici per estrarre informazioni chimicamente rilevanti dai dati raccolti in una serie di esperimenti o misurazioni, la c. si è consolidata all’inizio degli anni Settanta del 20° sec. quando, allo sviluppo delle strumentazioni analitiche, si è affiancata una diffusione su più ampia scala dei computer per il calcolo scientifico. Infatti, molte tecniche analitiche strumentali (spettroscopiche, cromatografiche, spettrometriche di massa) producono migliaia di dati per ciascun campione, rendendo indispensabile il ricorso a strumenti matematico-statistici che permettano di estrarre l’informazione utile dai dati misurati, al contempo fornendo una visualizzazione rapida e immediata dell’informazione stessa. Per citare un esempio, i metodi chemiometrici si sono dimostrati di grande aiuto per la tracciabilità e la verifica di autenticità dei prodotti alimentari. In c., l’informazione chimica è estratta e rappresentata sotto forma di modelli, ovvero di relazioni matematiche che correlino variabili determinate sperimentalmente. A seconda dello scopo ultimo dell’analisi e della natura dell’informazione ricercata, i modelli possono essere di tipo descrittivo/esplorativo oppure predittivi: nel primo caso, l’obiettivo principale è caratterizzare il sistema in esame nel suo insieme, identificando le relazioni tra le variabili misurate e tra i campioni in analisi; di contro, come suggerito dal nome, gli approcci predittivi mirano alla costruzione di modelli in grado di prevedere una o più proprietà (quantitative o qualitative) della matrice chimica a partire dai dati misurati.
Modelli descrittivi e analisi esplorativa dei dati. – L’analisi esplorativa rappresenta un approccio all’elaborazione e all’interpretazione dei dati che si serve di una varietà di tecniche e di modelli descrittivi per riassumere le caratteristiche principali dei dati stessi in una forma facile da comprendere, spesso attraverso l’impiego di rappresentazioni grafiche, e senza far ricorso a ipotesi formulate a priori. Gli scopi principali dell’analisi esplorativa sono: ottenere la massima comprensione di un insieme di dati, scoprirne la struttura inerente, identificare le variabili rilevanti, individuare osservazioni o valori anomali, verificare eventuali assunzioni o ipotesi e costruire modelli parsimoniosi. In particolare, poiché, nel caso in cui molte variabili vengano misurate su ciascun campione, una rappresentazione grafica dei dati potrebbe risultare difficile, se non addirittura impossibile, per cercare andamenti o relazioni, differenze o similarità tra gli oggetti e/o le variabili, la c. si serve di metodi che, proiettando le osservazioni su un sottospazio opportuno, possano essere utilizzati per riassumere i dati in maniera conveniente ed esplorarli utilizzando grafici e figure. In questo contesto, un ruolo predominante è svolto dai cosiddetti modelli bilineari, ovvero da quei modelli che descrivono la variabilità presente in una matrice di dati X (contenente i valori di p variabili misurate su n campioni) come il risultato del contributo di un numero, generalmente limitato, di fattori o componenti che, a seconda dell’approccio scelto, possono essere direttamente interpretati chimicamente (multivariate curve resolution) oppure ‘latenti’, come nel caso dell’analisi delle componenti principali (PCA, Principal Component Analysis). Matematicamente, il termine bilineari si riferisce al fatto che la matrice X possa essere scomposta nel prodotto di due sottomatrici A e B, secondo l’equazione:
X=ABT+ E [1]
in cui A contiene le coordinate dei campioni nel sottospazio delle componenti, mentre B è la matrice di rotazione che permette la proiezione dei dati (T indica che sia trasposta); la variabilità non spiegata dal modello è racchiusa nella matrice dei residui E. In ambito chemiometrico, l’approccio bi-lineare più utilizzato per l’analisi esplorativa dei dati è senza dubbio la PCA (Bro, Smilde 2014). In questa analisi, le componenti sono definite in maniera tale da essere ortogonali l’una rispetto alle altre e da spiegare la massima varianza all’interno dell’insieme dei dati: questo fa sì che un modello di F componenti principali costituisca la migliore approssimazione F-dimensionale della matrice di dati X nel senso dei minimi quadrati. Nel linguaggio dell’analisi delle componenti principali, le matrici A e B prendono il nome, rispettivamente, di matrice degli scores e dei loadings e vengono indicate con le lettere T e P, cosicché l’equazione [1] diventa:
X=TPT+ E
La scelta dei vincoli necessari alla definizione del modello (massima varianza spiegata e ortogonalità) fa sì che le componenti calcolate dalla PCA siano delle variabili ‘latenti’, ovvero non direttamente osservabili o misurabili, nonostante siano comunque in grado di catturare in maniera efficace la struttura di correlazione presente all’interno dei dati. La possibilità di estrarre, a partire dal modello rappresentato nell’equazione [1], componenti che abbiano un significato chimico è, invece, alla base della famiglia di metodi di analisi esplorativa che, complessivamente, prende il nome di multivariate curve resolution, MCR (de Juan, Tauler 2006). In MCR, il modello generico definito dall’equazione [1] assume la forma:
X=CST+ E
dove la matrice C contiene le quantità (concentrazioni) dei costituenti del sistema, i cui profili strumentali sono racchiusi nella matrice S. Per ottenere questa rappresentazione, la definizione delle componenti avviene attraverso vincoli matematici che riflettono la natura chimica del sistema, quali, per es., la non negatività delle concentrazioni e (ove possibile) dei segnali strumentali, eventuali bilanci di massa oppure l’unimodalità (la presenza di un solo massimo), nel caso dei profili cromatografici.
Modelli predittivi: regressione e classificazione. – Sebbene la fase esplorativa sia un passaggio fondamentale e praticamente ubiquitario nell’analisi dei dati, in molti casi l’informazione chimica ricercata attraverso la costruzione di modelli matematici può essere legata alla possibilità di prevedere in maniera quanto più possibile accurata una o più proprietà del sistema in esame; tali proprietà possono essere di natura qualitativa (classificazione) o quantitativa (calibrazione). Con il termine calibrazione si definisce l’uso di dati empirici e, se disponibili, di conoscenze a priori, per la costruzione di modelli in grado di predire l’informazione quantitativa, racchiusa in una matrice Y (di dimensioni n×p, con n numero dei campioni e p numero delle risposte da prevedere), a partire dalle misure sperimentali X attraverso una funzione matematica opportuna. La calibrazione riveste un ruolo chiave nell’analisi chimica strumentale, dal momento che la misura diretta della concentrazione degli analiti è raramente possibile e, pertanto, la quantificazione è spesso basata su misure secondarie (quali, per es., l’area dei picchi cromatografici, l’intensità della radiazione emessa o assorbita, la corrente o la differenza di potenziale e così via). Nella maggior parte delle applicazioni, si assume che la relazione tra la (o le) proprietà da predire e le misure sperimentali sia lineare:
Y=XB+E [2]
dove X e Y hanno il significato descritto in precedenza e B è la matrice che racchiude i coefficienti del modello, detti coefficienti di regressione; la porzione di variabilità di Y non spiegata dal modello è raccolta nella matrice dei residui E. Il modello di calibrazione rappresentato nell’equazione [2] è di natura generale, cosicché il calcolo dei coefficienti di regressione può essere fatto utilizzando diversi metodi; tuttavia, anche in questo ambito, così come già visto per l’analisi esplorativa, la natura specifica dei dati chimici fa sì che un ruolo predominante sia svolto dagli approcci bilineari, quali la regressione su componenti principali (PCR, Principal Component Regression) o la regressione ai minimi quadrati parziali (PLS, Partial Least Squares Regression). Infatti, i metodi statistici più tradizionali, come la regressione lineare multipla (MLR, Multiple Linear Regression), che rappresenta la diretta generalizzazione multivariata del metodo dei minimi quadrati, non possono essere applicati nei casi in cui la matrice X contenga un numero di variabili misurate superiore al numero di campioni a disposizione e/o le variabili siano tra loro correlate (situazioni, entrambe, che costituiscono la norma quando si abbia a che fare con profili strumentali, quali spettri o cromato-grammi). Di contro, l’utilizzo di un approccio bilineare, che prevede la proiezione dei dati su un sottospazio di dimensionalità ridotta e i cui assi sono tra loro ortogonali, permette di superare entrambe le limitazioni descritte nel caso di MLR.
Non sempre, tuttavia, le risposte ricercate sono di natura quantitativa ma, al contrario, possono essere espresse attraverso attributi qualitativi come conforme alle specifiche, anomalo, sano, malato e così via: gli strumenti chemiometrici che permettono di prevedere tali proprietà prendono complessivamente il nome di metodi di classificazione (Bevilacqua, Nescatelli, Bucci 2014). Con il termine classificazione, infatti, si definisce la procedura di costruzione di un modello che, sulla base dei dati sperimentali, sia in grado di assegnare un campione a una particolare categoria; in questo contesto, una categoria (o classe) rappresenta un gruppo di oggetti che condividano caratteristiche simili come, per es., tutti i prodotti che rientrino nelle specifiche, oppure i pazienti sani, per riprendere alcuni degli esempi citati in precedenza. Anche in questo caso, accanto ai metodi presi in prestito dalla statistica tradizionale, quali l’analisi discriminante lineare (LDA, Linear Discriminant Analysis) o quadratica (QDA, Quadratic Discriminant Analysis), la cui struttura matematica non ne permette l’applicabilità a problemi nei quali si abbiano molte più variabili misurate (spesso correlate fra loro) che campioni, molte applicazioni prevedono l’uso di modelli a variabili latenti (principalmente gli algoritmi PLS-DA, Partial Least Squares-Discriminant Analysis, e SIMCA, Soft Independent Modelingof Class Analogies).
Disegno sperimentale. – Sebbene questo aspetto sia spesso ancora trascurato da molti chimici, la c. entra nel processo analitico molto prima della fase di elaborazione e interpretazione dei dati, da un lato in quanto essa è necessaria per delineare le strategie di campionamento più appropriate per avere rappresentatività e per soddisfare dei requisiti specifici e, dall’altro, poiché la qualità dei dati ottenuti e la possibilità di recuperare le informazioni ricercate poggiano fortemente su un’attenta progettazione sperimentale.
Con il termine disegno sperimentale (che sta per pianificazione degli esperimenti), si indica la famiglia di tecniche il cui scopo è quello di individuare una serie quanto più piccola possibile di condizioni sperimentali, allo scopo di: a) comprendere l’effetto di variabili controllate (fattori) su una o più risposte; b) definire un modello empirico (superficie di risposta) per la relazione tra le risposte (variabili dipendenti) e i fattori (variabili indipendenti), che possa essere utilizzato sia per supportare un processo di ottimizzazione sia per scopi di previsione.
La famiglia dei disegni sperimentali comprende una vasta gamma di tecniche di complessità crescente, dai disegni di screening, che comprendono solo gli esperimenti necessari per identificare tra i possibili fattori quelli sicuramente non significativi, a quelli fattoriali a due livelli, che assumono un modello lineare con termini misti e permettono di raggiungere una comprensione semiquantitativa della relazione tra variabili dipendenti e indipendenti e di valutare la presenza o l’assenza di interazioni, a quelli più sofisticati (multilivello) che permettono di definire la superficie di risposta attraverso un polinomio di secondo o terzo ordine.
Applicazioni. – Per quanto detto in precedenza, i campi di applicazione della c. coincidono in maniera pressoché completa con quelli della chimica stessa e, in particolare, della chimica analitica. In ambito alimentare, per es., i metodi di classificazione rappresentano uno strumento d’elezione per la verifica dell’autenticità dei prodotti e per la loro tracciabilità. Olio extra vergine d’oliva, miele, vino, birra e caffè sono solo alcuni dei prodotti per i quali siano stati definiti dei modelli per la determinazione dell’origine geografica o varietale e per la tracciabilità. D’altro canto, la possibilità di costruire modelli di calibrazione multivariata ha permesso di utilizzare tecniche rapide, economiche e che necessitano del minimo pretrattamento del campione, ma al contempo poco sensibili e selettive, quali, per es., la spettroscopia nel vicino infrarosso (NIR), per la quantificazione di diverse proprietà dei campioni in esame. Analoghe considerazioni possono essere estese ad altri campi quali il controllo della quantità di principio attivo ed eccipienti nei formulati farmaceutici, il monitoraggio e il controllo dei processi chimici, la diagnosi precoce delle malattie, l’analisi forense o la caratterizzazione dei beni culturali.
Tra passato e futuro. – La c. accompagna ogni stadio del processo chimico (in partic., chimico analitico) a partire dalla progettazione degli esperimenti fino all’interpretazione finale dei risultati. Pertanto, gli sviluppi più recenti delle tecniche strumentali e la maggiore complessità delle problematiche da risolvere sono stati accompagnati da una notevole evoluzione degli strumenti chemiometrici a disposizione del chimico. Un esempio di ciò è sicuramente rappresentato dallo sviluppo dei metodi cosiddetti multiway, ovvero di quelle tecniche che permettono di calcolare modelli sia esplorativi sia predittivi nei casi in cui su ciascun campione si registri un profilo multidimensionale (come avviene, per es., per le tecniche cromatografiche accoppiate o la spettroscopia di fluorescenza; Smilde, Bro, Geladi 2004). Similmente, la possibilità di acquisire immagini multi- o iperspettrali, ovvero in cui ciascun pixel registri l’intensità di radiazione a diversi valori di lunghezze d’onda o addirittura per l’intero intervallo di frequenze, ha portato alla diffusione di metodi di analisi di immagine che consentono di estrarre informazioni sulla natura chimica dei costituenti, sulla loro distribuzione spaziale e su altre proprietà quali, per es., la texture dei prodotti (Techniques and applications, 2007). Inoltre, essendo per sua natura interdisciplinare, la c. si trova a rivestire un ruolo sempre maggiore in quegli ambiti in cui sia solo uno degli attori in gioco, come nel caso delle scienze omiche, che non possono prescindere dall’utilizzo dei suoi strumenti per l’interpretazione e la validazione dei dati.
Bibliografia: A. Smilde, R. Bro, P. Geladi, Multi-way analysis. Applications in the chemical sciences, Chichester-Hoboken (N.J.) 2004; A. de Juan, R. Tauler, Multivariate curve resolution (MCR) from 2000. Progress in concepts and applications, «Critical reviews in analytical chemistry», 2006, 36, pp. 163-76; Techniques and applications of hyperspectral image analysis, ed. H. Grahn, P. Geladi, Chichester-Hoboken (N.J) 2007; M. Bevilacqua, R. Nescatelli, R. Bucci et al., Chemometric classification techniques as a tool for solving problems in analytical chemistry, «Journal of AOAC international», 2014, 97, pp. 19-28; R. Bro, A. Smilde, Principal component analysis, «Analytical methods», 2014, 6, pp. 2812-31.