determinazione, coefficiente di
Il coefficiente di d., o R2, è un valore che fornisce indicazioni riguardanti la bontà di adattamento di un modello statistico ai dati. In un modello di regressione lineare semplice, yi=α+βXi+ui, il coefficiente R2 è uguale al quadrato della correlazione campionaria tra la variabile dipendente y e il vettore X dei regressori. Nel caso di un modello di regressione lineare multiplo, il coefficiente R2 è uguale al quadrato del coefficiente di correlazione tra y e y^, dove la variabile y^ indica i valori predetti dal modello. Se il modello di regressione contiene un’intercetta, allora si può scrivere R2=ESS/TSS=1−RSS/TSS, dove ESS è l’acronimo di Explained Sum of Squares (somma dei quadrati spiegata), TSS di Total Sum of Squares (somma dei quadrati totali), RSS di Residual Sum of Squares (somma dei quadrati dei residui). Il coefficiente R2 varia tra 0 e 1. Un valore uguale a 1 indica un adattamento perfetto del modello ai dati: nel caso di un modello di regressione lineare, questo accade se y^i=yi per ogni i. Un valore uguale a 0 indica che il modello utilizzato non è utile a spiegare le yi. In questo caso si ha infatti RSS=TSS; ciò si verifica quando la retta di regressione è perfettamente orizzontale, cioè X non aiuta a spiegare la variabilità di y. Il coefficiente di d. ha il limite di essere una funzione non decrescente del numero dei regressori. Questo significa che qualora si dovesse scegliere tra due diverse specificazioni, una delle quali più parsimoniosa perché con meno regressori e quindi meno parametri da stimare, e una con un numero elevato di regressori, l’uso dell’R2 come criterio per la scelta del modello porterebbe a opzionare il modello meno parsimonioso. L’R2 non riesce a mettere in luce il fatto che alcuni dei regressori inclusi potrebbero essere poco rilevanti nello spiegare la variabile di interesse y, e quindi eliminabili a vantaggio della parsimonia del modello. Per ovviare a questo inconveniente, in presenza di più regressori si usa l’R2 corretto (o adjusted R2), indicato con R̄2, che si ottiene da una trasformazione dell’R2, introducendo una penalizzazione proporzionale al numero k di regressori inclusi nel modello: R̄2=1−(1−R2)(n−1)/(n−k−1).