quantile
Dato un insieme di n numeri (per es., osservazioni di una variabile X) {p|x1,...,p|xn}, e un numero arbitrario p|x compreso tra 0 e 1, il q. ζp è un numero, in genere non unico, tale che la frazione di osservazioni inferiori o uguali a ζp sia almeno p|x, mentre la frazione di osservazioni maggiori o uguali a ζp non sia inferiore a 1−p|x. Il q. perciò generalizza il concetto di mediana (➔), che coincide con il q. di ordine p|x=1/2. Per una variabile aleatoria X, con misura di probabilità P e funzione di ripartizione F(p|x)=P(X≤p|x) (➔ distribuzione di probabilità), se F è strettamente monotona crescente (➔ monotono) e quindi invertibile, allora per ogni p|x il q. ζp è dato dalla funzione inversa ζp=Q(p|x)=F−1(p|x), cioè il valore ζp soddisfa F(ζp)=p. Se F non è invertibile allora, come per la mediana, il q. di ordine p non è unico, essendo definito come un qualsiasi valore ζp per il quale si ha P(X≤ζp)≥p e P(X≥ζp)≥1−p. È però convenzione definire come q. il valore in p dell’inversa generalizzata di F, definita da Q=F−, dove F−1(p|x)=min{p|x:F(p|x)=p|x}. La funzione così definita è chiamata funzione quantile. È possibile dimostrare che il q. p|x-esimo è soluzione del problema di minimizzazione della perdita attesa (➔ perdita, funzione di) E((X−q)(p|x−1(X<q))) rispetto a q, dove la funzione 1(X<q) è uguale a 1 se X<q ed è uguale a zero altrimenti. Si noti che se p|x=1/2 questo coincide con il problema della deviazione assoluta minima (LAD, Least Absolute Deviation), che ha la mediana come soluzione. Per questo motivo, la generalizzazione al caso p=1/2 è chiamata Asymmetric LAD (ALAD).
Oltre alla mediana, q. considerati rilevanti sono il primo e il terzo quartile (➔), che corrispondono a p|x=1/4 e p=3/4 rispettivamente, i decili, che sono i q. di ordine p|x=r/10, con r=1,2,...,9, e i centili, definiti da p|x=r/100, r=1,2,...,99. Nell’inferenza statistica assumono particolare importanza i valori p=0.01, 0.05 e 0.1, che corrispondono alle più comuni scelte delle probabilità di errore di prima specie in problemi di verifica di ipotesi. In corrispondenza di questi valori, la regione di rifiuto di un test (➔) è definita dai q., di ordine p|x, se l’ipotesi alternativa è unidirezionale, o p|x/2, se è bidirezionale, della distribuzione campionaria (➔) della statistica test sotto l’ipotesi nulla.
Per molte delle distribuzioni più usate nell’ambito della verifica di ipotesi, tra cui la normale, la F di Fisher, la t di Student, la chi-quadro, la funzione q. non ha una forma chiusa e i q. necessari sono ricavabili da tavole delle distribuzioni (normale, t di student, F di Fisher). Alcune distribuzioni continue per le quali è possibile scrivere la funzione Q(p|x) in forma chiusa sono riportate nella tabella seguente. Come per la media, è possibile definire il q. condizionato, ossia il q. della distribuzione condizionata di una variabile aleatoria Y, dato un insieme di variabili aleatorie X=X1,...,Xk. Il q. corrispondente, per un valore di p|x fissato, è una funzione del vettore p|x=(p|x1,...,p|xk):Q(p|x|p|x). Tale funzione è anche chiamata regressione quantilica (➔ regressione, modelli e stimatori). La stima dei q. condizionati può essere ottenuta minimizzando l’analogo campionario della ALAD.