PSICOMETRIA (XXVIII, p. 464; App. II, 11, p. 629)
La p. affronta scientificamente il problema della misurazione delle variabili psicologiche e delle relative tecniche d'indagine. In questa voce si farà un breve riferimento solo a una tecnica di misurazione, quella delle scale, accennando alle qualità metrologiche di esse in termini di standardizzazione, fedeltà e validità.
La misurazione. - La misurazione è un procedimento mediante il quale vengono assegnati dei numeri a eventi (persone od oggetti) secondo precise regole di assegnazione. Le regole definiscono una scala specificando le categorie di un attributo o un aspetto quantitativo di un'osservazione.
Nella misurazione psicologica si distinguono di solito quattro tipi di scale: le scale nominali, le scale ordinali, le scale a intervalli e le scale assolute. Un modo per determinare il tipo di scala è quello di scoprire le trasformazioni permesse nello spazio astratto numerico senza alterare la corrispondenza tra le operazioni e relazioni empiriche e le operazioni e relazioni numeriche (R. Suppes e J. L. Zinnes, 1963). Se sono possibili solo le trasformazioni d'identità, le scale sono assolute: hanno intervalli uguali e uno zero assoluto. Se sono ammissibili le trasformazioni lineari positive si hanno le scale a intervalli: hanno intervalli uguali ma non hanno uno zero assoluto. Se sono possibili solo le trasformazioni monotoniche, le scale sono ordinali. Se è permessa una sostituzione arbitraria di numeri, le scale sono nominali.
Usando il criterio delle trasformazioni è possibile identificare altri tipi di scale oltre alle quattro riportate. I critici (per es., W. W. Rozeboom, 1966) ritengono che per definire una scala sia necessario tener conto dell'interpretazione, oltre che delle operazioni di trasformazione, mettendo la scala in relazione con il significato degli attributi che sono misurati (L. V. Jones, 1971).
Trasformazioni elementari delle misure psicologiche. - Nella misurazione psicologica parte del significato della quantificazione dipende dalla relazione tra due o più quantificazioni, dalla relazione tra una quantificazione e altre misurazioni della stessa dimensione eseguite sulla stessa persona in momenti diversi o fatte su persone diverse.
Trattandosi di misurare delle qualità sorgono gravi problemi. Anzitutto le scale psicometriche non equivalgono alle misurazioni fisiche. Inoltre non è possibile stabilire lo zero come totale assenza di un attributo. Che senso avrebbe parlare di quoziente d'intelligenza o di intelligenza zero? Un altro grosso problema è quello dell'omogeneità degl'intervalli delle scale. Come si potrebbe stabilire che le differenze di atteggiamenti quantificati con 2 e 3 sono uguali alle differenze di atteggiamenti misurati con 6 e 7? Per questo l'uso della quantificazione poggia su deboli basi. Anche il problema dello zero viene risolto principalmente scegliendo come punto di riferimento la media della distribuzione di un campione. I singoli valori della distribuzione vengono desunti dal rapporto tra la distanza del valore dalla media della distribuzione e un indice medio della variabilità di tutti i valori nella distribuzione. L'indice medio, sx, è chiamato deviazione standard ed è calcolato secondo la seguente formula
dove X rappresenta un valore qualsiasi nella distribuzione e N è il numero di persone od oggetti nella distribuzione.
Dal punto di vista operativo la scala è un insieme di items che diventa interpretabile quando i valori sono soggetti a una trasformazione lineare che stabilisce un confronto con i valori di una scala modello, in modo che le due scale abbiano una stessa media e una stessa deviazione standard. La formula di trasformazione è la seguente:
da cui si ha
dove Y è il valore trasformato, Mx è la media della distribuzione dei valori da trasformare, My è la media dei valori trasformati, sx e sy sono le deviazioni standard delle distribuzioni X e Y. Questa trasformazione lineare non altera la forma della distribuzione. Talora allo scopo di evitare distorsioni derivanti dalla peculiare scelta degl'items di una prova, i valori vengono trasformati non linearmente in modo da ottenere una distribuzione con le caratteristiche della curva di Gauss o curva normale. Scale comuni con queste caratteristiche sono la scala T con media 50 e deviazione 10, la scala d'intelligenza in forma di deviazione con media 100 e deviazione standard 15 oppure 16, e la scala stanina con media 5 e deviazione standard 2. Le trasformazioni lineari o non lineari di solito né migliorano né peggiorano i valori delle scale: li rendono solo interpretabili in riferimento a tutti gli altri valori della distribuzione.
Il valore delle misure psicologiche non dipende dalle suddette trasformazioni ma dalla bontà degli strumenti usati, cioè dalla loro fedeltà e validità, e dallo scaling.
Fedeltà e validità delle scale psicologiche. - Una prova psicologica di solito consiste in un insieme di quesiti, spesso con più risposte già fornite, dalle quali viene scelta quella corretta. Per ogni risposta corretta viene assegnato un punto. Un punteggio così ricavato presuppone che l'area di conoscenza verificata sia cumulativa lungo una dimensione lineare e che ci sia una corrispondenza tra il punteggio totale e le conoscenze o caratteristiche misurate. Questi punteggi costituiscono una scala quasi ordinale e vengono comunemente sottoposti alle trasformazioni accennate sopra.
Nella misurazione degli atteggiamenti, delle attitudini, e della personalità si formano raggruppamenti di items relativamente omogenei. Gli items di solito sono parole o brevi frasi che durante il processo di misurazione sono accettate o non accettate, considerate vere o false. Molte volte invece di richiedere risposte dicotomiche (vero, falso) si richiedono risposte con tre o più valori indicanti il grado di accettazione o rifiuto della frase (per es., completamente contrario, parzialmente contrario, parzialmente d'accordo, completamente d'accordo).
Per raggruppare items per una scala omogenea si procede secondo basi teoriche e si passa alla verifica poi mediante procedimenti analitici. Il metodo analitico comunemente più usato è la correlazione di ciascun item di un raggruppamento (omogeneo) con il punteggio totale del raggruppamento. Sono ritenuti per la prova finale gl'items ai quali un'accettabile proporzione di persone risponde nel senso previsto (difficoltà accettabile dell'item) e correlano bene con il punteggio totale (validità dell'item). Un altro procedimento analitico per cogliere gl'items omogenei è l'analisi fattoriale. Sono collocati in una data scala di riferimento inclusa nell'analisi fattoriale gl'items che hanno elevata saturazione sul fattore che interessa.
I raggruppamenti di items sono ritenuti analiticamente soddisfacenti se hanno buoni indici di fedeltà e di validità. La fedeltà rappresentata da un indice o da un insieme di indici, si riferisce alla precisione della misurazione. Gl'indici più comunemente usati sono quelli derivati dalla intercorrelazione di due metà casuali di una prova e il coefficiente alfa di Cronbach. Il primo coefficiente si ottiene da r11 = 2rxy/(1 + rxy), dove rxy è il coefficiente di correlazione tra le due metà di una prova psicologica. Il coefficiente alfa di Cronbach è dato da
dove k è il numero di items nella prova, s²t è la varianza di tutta la prova, s²i è la varianza dell'item i.
Raramente un indice globale di fedeltà è ritenuto prova sufficiente per la precisione della misurazione. È più importante avere indici di generalizzabilità, implicanti la verifica della fedeltà o coerenza dei risultati di una prova data alla stessa persona sotto condizioni diverse (L. J. Cronbach e altri, 1972). Il concetto di generalizzabilità prende in considerazione le fluttuazioni derivanti da precisi fattori ambientali o interazioni ambiente-persona. La tecnica di rilevazione degl'indici di generalizzabilità è parallela a quella dell'analisi della varianza nella sperimentazione scientifica.
La validità indica se lo strumento misura quello che è destinato a misurare. Viene rilevata in modi diversi correlando le prove con altre già ritenute valide (validità concorrente) o correlando una nuova prova a, definizione operativa del concetto A, con una prova b, definizione operativa del concetto B logicamente connesso con il concetto A. Se la correlazione tra a e b è buona si ritiene valida la misura eseguita usando a (validità predittiva). Esistono diversi altri modi di validazione dei tests.
La distinzione tra i concetti di fedeltà e validità non è chiara, come si può arguire anche dalla definizione del concetto di generalizzabilità. In generale la fedeltà mette a fuoco la concordanza tra le misure ripetute applicate allo stesso oggetto; la validità invece mette a fuoco la concordanza tra misure diverse simultanee dello stesso oggetto. D. T. Campbell e D. W. Fiske (1959) hanno proposto una tecnica generale per la verifica simultanea della validità e fedeltà usando la matrice dei tratti e metodi multipli. La matrice presenta correlazioni tra strumenti diversi che misurano caratteristiche simili in momenti diversi. La tecnica permette di distinguere la variabilità derivante dalla proprietà misurata (validità) dalla variabilità derivante da oscillazioni casuali (complemento della fedeltà propriamente detta) e dalla variabilità derivante dalla presenza di errori sistematici.
Scaling e analisi fattoriale. - Le osservazioni devono essere trasformate in dati prima che da esse si possa ricavare qualche informazione. Lo scaling è la tecnica per dare struttura alle osservazioni e individuarne le dimensioni. La teoria più evoluta per trasformare le osservazioni in dati è la teoria dei dati di Coombs (1964). Ottenuti i dati si procede allo scaling per scoprire opportune strutture e dimensioni.
Lo scaling metrico. - Nello scaling sono usati modelli metrici e modelli non metrici. Un modello è detto metrico se presuppone la presenza di scale a intervalli. Un modello è detto non metrico se presuppone solo scale ordinali. Lo scaling può prendere in considerazione una sola dimensione o più dimensioni. W. S. Torgerson (1958) tratta in modo esteso il problema dello scaling unidimensionale e multidimensionale. Noi ci riferiremo solo allo scaling multidimensionale. I dati per lo scaling si basano sulla relazione percepita tra i membri di un insieme di oggetti, siano essi oggetti materiali, stimoli psicofisici o concetti astratti. Spesso i dati usati sono stime percepite della similitudine tra coppie di oggetti. Torgerson usa un procedimento nel quale il soggetto valuta la similitudine tra i membri di tutte le coppie possibili di oggetti usando una scala che varia da "identico" a "estremamente diverso". Un altro procedimento usato è quello delle tetradi. Vengono presentate due coppie di stimoli e il soggetto sceglie la coppia nella quale i due stimoli sono più simili. Una variante è la combinazione triadica nella quale si scelgono i due stimoli su tre che sono più simili tra di loro. I dati di partenza dello scaling sono una matrice n x n i cui elementi sono le similitudini percepite o discrepanze degl'items, dette misure di vicinanza. Si presuppone l'isomorfismo da una parte tra gli oggetti e le loro misure di vicinanza e dall'altra tra i punti dello spazio euclideo e le distanze tra i punti. In altre parole gli n punti nello spazio euclideo corrispondono a n oggetti e la distanza tra i punti nello spazio viene vista come corrispondente alla similitudine percepita tra coppie di oggetti. I punti vicini rappresentano oggetti vicini o simili. Nello scaling multidimensionale si tende a trovare la configurazione geometrica e la dimensionalità di un insieme di punti le cui distanze sono misure di vicinanza. La risultante struttura può essere considerata analoga allo spazio percettivo che l'individuo usa nell'esprimere giudizi sulla similitudine tra gli oggetti. Uno degli scopi generali che si vuole raggiungere è quello di derivare dalla configurazione quali sono gli attributi comuni più importanti che caratterizzano gli oggetti e sono usati dai soggetti per formulare dei giudizi di similitudine. Si presuppone che nel peggiore dei casi le misure di vicinanza osservate siano trasformazioni lineari delle reali distanze tra i punti e quindi nello scaling multidimensionale è sufficiente il presupposto che si sia di fronte a distanze che costituiscono scale a intervalli trasformabili in scale assolute. Nello scaling metrico multidimensionale i dati sono organizzati in una matrice di misure di vicinanza ottenuta sulla base dei punteggi di uno o più individui. Questo non permette peraltro di ricercare informazioni sulla variabilità nel modo di rispondere di un campione di individui.
L'analisi fattoriale. - Anche l'analisi fattoriale, che è un metodo generale per evidenziare le dimensioni che sottendono le relazioni tra un insieme di variabili, può essere utilizzata per individuare strutture e dimensioni atte a spiegare le relazioni intercorrenti tra elementi di una scala e tra più scale diverse. Nell'analisi fattoriale si fanno N osservazioni su n variabili o attributi presupponendo la presenza di scale assolute. L'analisi fattoriale parte da una matrice che riporta il grado di associazione tra coppie di oggetti derivate da N osservazioni. Nell'analisi fattoriale lo spazio degli oggetti non rappresenta lo spazio percettivo di un dato individuo come avviene nello scaling, ma le relazioni tra un insieme di attributi rispetto a un campione di individui. Le dimensioni rappresentano i sottostanti attributi ipotetici comuni a tutti o parte delle variabili osservate. Lo scaling e l'analisi fattoriale rispondono a domande diverse usando dati diversi. In tutti e due i modelli si cerca di rappresentare geometricamente i dati usando un piccolo numero di dimensioni.
Il modello fattoriale riesce a descrivere differenze individuali; lo scaling multidimensionale no.
Nel modello fattoriale, qui specificamente il modello dell'analisi delle componenti principali, l'equazione di base è Z = AF, dove Z è una matrice n x N di misure standardizzate di variabili osservate, A è una matrice n x r che definisce r variabili concettuali non correlate che sono combinazioni lineari delle n variabili osservate, e F è una matrice r x N di punteggi degl'individui sulle r variabili concettuali.
Lo scaling non metrico. - Date le difficoltà di accettare il presupposto che le misure di vicinanza grezze siano una trasformazione lineare delle sottese distanze reali tra i punti, si è fatto ricorso allo scaling multidimensionale non metrico. L'unico presupposto in questo scaling è che la funzione distanziale tra le misure di vicinanza grezza degl'individui e le distanze reali tra gli oggetti sia monotonica e che l'ordine delle vicinanze differisca dall'ordine delle distanze reali tra i punti solo a causa di fluttuazioni casuali. La scala sufficiente per i dati è ordinale. In questo caso il modello si propone di trovare una configurazione di n punti in un numero piccolo di dimensioni tali che le distanze tra i punti abbiano una relazione monotonica con le vicinanze osservate (J. B. Kruskal, 1964; P. N. Shepard, 1962). Lo scaling multidimensionale non metrico offre il vantaggio di poggiare su presupposti più accettabili e dare risultati più sicuri. Risulta in un minor numero di dimensioni rispetto al modello metrico, il quale a causa della non linearità delle funzioni distanziali richiede un maggior numero di dimensioni. Per raggiungere obiettivi simili si può usare anche l'analisi fattoriale non metrica (L. R. Tucker e S. Messick, 1963; Tucker, 1972).
Bibl.: H. Gulliksen, Theory of mental tests, New York 1950; W. S. Torgerson, Theory and methods of scaling, ivi 1958; D. T. Campbell, D. W. Fiske, Convergent and discriminant validation by the multitrait-multimethod matrix, in Psychological Bullettin, 56 (1959), pp. 81-105; R. N. Shepard, The analysis of proximities: multidimensional scaling with an unknown distance function, in Psychometrika, 27 (1962), pp. 125-39; R. Suppes, J. L. Zinnes, Basic measurement theory, in Handbook of mathematical psychology, a cura di R. D. Luce, R. R. Bush, E. Galanter, vol. I, New York 1963; L. R. Tucker, S. Messick, An individual differences model for multidimensional scaling, in Psychometrika, 28 (1963), pp. 333-67; C. H. Coombs, A theory of data, New York 1964; J. B. Kruskal, Nonmetric multidimensional scaling: A numerical method, in Psychometrika, 29 (1964), pp. 115-129; W. W. Rozeboom, Scaling theory and the nature of measurement, in Synthese, 16 (1966), pp. 170-233; L. R. Tucker, Some mathematical notes on three mode factor analysis, in Psychometrika, 31 (1966), pp. 278-311; L. Guttman, A general nonmetric technique for finding the smallest coordinate space for a configuration of points, ibid., 33 (1968), pp. 469-506; F. M. Lord, M. R. Novick, Statistical theories of mental test scores, Reading (Mass.) 1968; D. W. Fiske, Measuring the concepts of personality, Chicago 1971; L. V. Jones, The nature of measurement, in Educational measurement, a cura di R. L. Thorndike, Washington 1971; Autori vari, The dependability of behavioral measurements: theory of generalizability for scores and profiles, New York 1972; L. R. Tucker, Relations between multidimensional scaling and three mode factor analysis, in Psychometrika, 37 (1972), pp. 3-27; R. A. M. Gregson, Psychometrics of similarity, New York 1975.