“Tra 14 donne belle, 7 hanno vissuto l’esperienza di essere aiutate a cambiare
la gomma dell’auto; in un gruppo di 21 donne non particolarmente attraenti,
invece, sono state aiutate in 5. Stabilire se, al livello di significatività dello 0.05,
si può concludere che la bellezza é un incentivo anche a cambiare gomme”.
Nota. Il test é a una coda.
Prima parte.
Cominciamo a valutare la possibilità di usare il Test ChiQuadrato, che sarà
a 1 grado di libertà perché la tabella di contingenza é 2 x 2. Ricordiamo che
tale test corrisponde al quadrato di una distribuzione normale.
TabC A NA tot
B 7 7 14
(4.8) (9.2)
NB 5 16 21
(7.2) (13.8)
tot 12 23 35
Se l’ipotesi nulla Ho fosse vera, gli aiuti, 12/35, dovrebbero essere equamente
e quindi proporzionalmente ripartiti nelle due categorie B/NB; ci aspetteremmo
quindi di trovare 12/35 * 14 = 4.8 e 12/35 * 21 = 7.2 al posto delle occorrenze
osservate. Le altre frequenze attese si calcolano per differenza rispetto ai totali
di riga e/o di colonna.
Possiamo dunque affermare, applicando la correzione di Yates ( perché gl = 1 ),
che Chi^2 = (|7 – 4.8| – 0.5)^2/4.8 + (|5 – 7.2|-0.5)^2/7.2 +
+ (|7 – 9.2| – 0.5)^2/9.2 + (|16 – 13.8|-0.5)^2/13.8 =
= 2.89 * (1/4.8 + 1/7.2 + 1/9.2 + 1/13.8 ) = 1.527 ;
dalla tabella del chiquadrato possiamo dedurre che
pvalue = 1 – chi2cdf (1.527, 1) = 0.2166
e questa va dimezzata perché il ChiQuadrato é un test intrinsecamente
a due code mentre il nostro é a 1 coda e la normale é simmetrica.
Allora pvalue = 0.1083 > 0.05 e l’ipotesi nulla non può essere rigettata.
Seconda Parte.
Verifichiamo che la conclusione é identica usando il test z per la
Differenza delle Proporzioni Campionarie.
La proporzione aggregata é p = (7 + 5)/(14 + 21) = 12/35 e q = 1 – p = 23/35.
Pertanto z = ( |7/14 – 5/21| – 1/2*(1/14 + 1/21))/sqrt (12/35*23/35*(1/14 + 1/21)) =
= 1.2357 il cui quadrato é esattamente 1.527.
Risulterà quindi pvalue = 1 – normcdf(1.2357) = 0.1083 > 0.05
e la conclusione é identica a quanto visto prima.
Terza parte.
Ora ci viene un dubbio. Una delle frequenze attese é risultata 4.8
e il ChiQuadrato può dare problemi se qualcuna é inferiore a 5.
Questo non “dovrebbe” accadere nel nostro caso perché non eravamo
in zona critica [ pvalue non era “vicino” ad alfa ] ma c’é soltanto
un modo per assicurarsene : eseguire un Test Esatto di Fischer
unilatero.
Assegnate le proporzioni campionarie a/b e c/d di cui la prima é
la minore (nel nostro caso a/b = 5/21 e c/d = 7/14) sotto l’ipotesi nulla
di “non differenza” la probabilità che 5 osservazioni o meno capitino
nel gruppo di 21 é
pvalue = Somma_k:0->5 C(21,k)*C(14, 12 – k)/C(35,12)
Somma_k:0->a C(b,k) C(d, a+c-k) / C(b+d, a+c)
che é una distribuzione ipergeometrica cumulata.
Nel formalismo di Octave hygecdf (X,T,M,N)
(M sono gli elementi marcati e T il totale, N l’ampiezza del campione
e X l’ultimo elemento da addizionare)
quello che abbiamo detto si traduce in
pvalue = hygecdf (a, b+d, a+c, b)
e nel nostro esempio pvalue = hygecdf (5,35,12,21) = 0.1087 > 0.05
e questo conferma un ottimo accordo : la lontananza dalla regione
critica rende inoffensiva la piccola frequenza osservata.