Professional Documents
Culture Documents
1
1 3 6 7 9 11 13 15
F.
Tabelul ANOVA. . . . . . . . . . . . . . . . . . . . .
Distribuia de eantionare
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Glosar de termeni . . . . . . . . . . . . . . . . . . . . . . . . . . .
Capitolul 1
ANOVA - Analiza de varian
1.1
Analiza de varian continu seria testelor de semnicaie i ntrete nelegerea analizei cauzale, facnd trecerea spre analiza de regresie. Dup cum ne reamintim, testului
studiem mai mult de dou grupuri n acelai timp. De subliniat este faptul c ANOVA poate s e folosit cu rezultate foarte bune i la comparaia dintre dou medii, ns testul i arat adevrata valoare la trei sau mai multe medii. Exemple de acest tip pot multiple: - putem testa dac mai multe campanii pro-nataliste difer unele de altele sub aspectul efectelor acestora (sau n sens contrar, s vedem dac mai multe campanii diferite de prevenire a sarcinilor nedorite difer semnicativ unele de altele); unele campanii se pot orienta cu preponderen ctre spoturi TV, altele ctre distribuirea de materiale informative tiprite, altele pe consiliere direct .a.m.d. - putem deasemenea s testm dac mai multe aciuni de cretere a participrii civice difer sau nu n ce privete efectele - putem testa dac mai multe strategii locale de combatere a srciei difer sau nu ntre ele, etc.
mai multe medii (pentru trei sau mai multe grupuri). Se testeaz aadar legtura dintre o variabil metric (pentru care se calculeaz media) i o variabil calitativ (a crei valori sau categorii sunt considerate grupuri independente). De asemenea, ANOVA face o introducere clar n analiza cauzal: cea metric. n exemplul pe care l vom expune, avem urmtoarele dou variabile: variabila cauz (independent) este cea calitativ iar variabila efect (dependent) este
VRST
STRATIN
ANOVA uni-factorial,
cu un singur factor (n engl. one-way ANOVA), deoarece folosim o singur variabil categorial (denumit n limba englez factor) pentru a testa diferenele ntre mediile grupurilor denite de categoriile acesteia (denumite n englez levels - niveluri sau treatments - tratamente). n cazul nostru, ne raportm
doar
important ns de tiut c vrsta la angajare a tinerilor poate inuenat de diveri factori i c exist variante ale analizei de varian care iau n calcul mai muli asemenea factori. De pild, varianta care ia n calcul doi factori se numete
ANOVA bi-factorial
ANOVA multi-factorial
(n engl. multi-way
Pentru aceast seciune, s presupunem c studiem oportunitile de acces a tinerilor pe piaa forei de munc i analizm diferite strategii folosite pentru a atrage tinerii s se angajeze. Ipoteza pe care dorim s o testm este urm-
media de vrst a persoanelor nou angajate este inuenat de strategia de atragere utilizat.
toarea: Setul de ipoteze generale pentru ANOVA este:
H0 H
A:
1 = 2 = = k
cel puin dou medii sunt diferite
Dup cum se poate observa, ipoteza de nul se refer la mediile din populaie (notate cu
).
care beneciaz de strategii diferite. Din ecare localitate vom extrage cte un eantion (s spunem de 10 persoane), iar ipotezele devin:
H0 H
A:
1 = 2 = 3
cel puin dou localiti au medii de vrst sunt diferite
n cuvinte, ipoteza de nul susine c nu este nici o diferen ntre rezultatele diferitelor strategii (e sunt toate strategiile foarte bune i atrag muli tineri, e sunt toate foarte slabe i nu atrag tineri) iar ipoteza alternativ susine c cel puin o strategie d rezultate mai bune dect cel puin una dintre celelalte (este posibil ca o stratege s aib un rezultat de mijloc, care nu este semnicativ diferit nici fa de strategia de succes maxim, nici fa de strategia care atrage cei mai puini tineri; diferen semnicativ n acest caz exist doar ntre prima i ultima strategie). Dup cum se poate vedea n Tabelul 1.1, primul grup (cel de control, din localitatea unde nu s-a aplicat nici o strategie) are o medie a vrstei la angajare de 27,8 ani cu o abatere standard de 3,65 ani; al doilea grup (din localitatea unde s-a aplicat prima strategie) are o medie de 23,6 ani cu o abatere standard
Tabelul 1.1: Vrstele la angajare a persoanelor n cadrul a 3 eantioane independente. Nr.crt. 1 2 3 4 5 6 7 8 9 10 Localitate 1 22 27 32 30 29 27 33 24 24 30 Localitate 2 28 22 24 18 21 26 25 20 24 28 Localitate 3 20 28 31 26 26 30 21 25 29 27
x s
27,8 3,65
23,6 3,34
26,3 3,59
de 3,34 ani iar al treilea grup o medie de 26,3 ani cu o abatere standard de 3,59 ani. La o prim vedere, toate cele trei grupuri conin tineri: exist vreo diferen semnicativ ntre cele trei medii? Cum testm, mai exact, acest lucru? n ne, dac obiectivul principal al acestei analize este de a testa diferenele dintre medii, de ce se numete
Analiz de varian ?
1.2
Privind Tabelul 1.1, putem extrage cteva informaii interesante, care ne vor ajuta n cele ce vor urma. Avem un eantion total format din 30 de persoane, deci tioane din trei localiti diferite); avem deci: cte o abatere standard; mai avem aadar: cu
n = 30.
Acest eantion i
este format din trei grupuri independente de cte 10 persoane ecare (subean-
n1 = 10, n2 = 10
cu
n3 = 10.
Pentru ecare dintre cele trei localiti/grupuri putem calcula cte o medie i
x1 = 27, 8
s1 = 3, 65, x2 = 23, 6
s2 = 3, 34
x3 = 26, 3
cu
s3 = 3, 59. = 25, 9
precum i o abatere standard total
n acelai timp, putem calcula o medie general pentru eantionul total (pentru
s=
n n1 n2 n3
= 30 = 10 = 10 = 10
x x1 x2 x3
s s1 s2 s3
= 14, 714 = 3, 65 = 3, 34 = 3, 59
Din faptul c putem calcula abaterile standard, avem un prim indiciu c exist o
variaie intern
grupuri, ale cror observaii variaz n jurul mediilor reprezentate de punctele colorate n albastru. Aceast variaie poate calculat uor,
(xi x)2 s2 =
i=1
n1
(1.1)
Avem aadar trei variane n interiorul grupurilor (cte o varian pentru ecare din cele trei grupuri). Apoi, pentru c exist trei medii diferite pentru ecare eantion, plus o medie general pentru toate eantioanele, se poate constata o variaie a celor trei medii de grupuri n jurul mediei generale.
VRST
20
1
25
30
35
2 LOCALITATE
0y ,
iar
media general (x
= 25, 9)
observat variaia punctelor albastre n jurul punctului rou, cu alte cuvinte variaia mediilor de grupuri n jurul mediei generale. n cazul nostru, deoarece avem doar trei grupuri,
k = 3.
(j x)2 x s2 = x
j=1
k1
(1.2)
Dup cum ne aducem aminte de la distribuia de eantionare a mediei, deviaia standard a mediilor n jurul mediei generale este denumit Eroare Standard.
Ecuaia 1.2 indic aadar o estimare a Erorii Standard din populaie, de unde
putem extrage foarte simplu variana din populaie, deoarece: ES
= n
Ne confruntm, deci, cu dou tipuri de variaii: o variaie aia mediilor de grup n jurul mediei generale) i una sunt folosite ca estimri ale
variaiei generale
n populaie.
IMPORTANT!
Analiza de varian se bazeaz pe comparaia dintre dou estimri ale varianei
Logica analizei este urmtoarea: dac cele dou estimri ale varianei din populaie
sunt aproximativ egale, atunci ipoteza de nul este adevrat (n Dac ipoteza de nul nu este adevrat,
atunci cele dou estimri ale varianei vor semnicativ diferite. Analiza de varian se efectueaz n trei pai:
grupurilor
interiorul grupurilor
F.
Dac sunt
aproximativ egale (raportul dintre cele dou este aproape de valoarea 1),
nu respingem
ipoteza de nul.
Un lucru important de care trebuie s ne aducem aminte (de la msurile tendinei centrale, capitolul de descriere a variabilelor) este caracterizarea varianei; s mai examinm nc odat formula:
(xi x)2 s2 =
Avem n partea de sus o
i=1
n1
mprit la un numr de
libertat e (gl
sum de ptrate,
n
grade de
= numrul de observaii
s2 =
SP
gl
Dup cum tim, orice sum mprit la numrul de observaii se numete ptrate.
medie,
de unde reiese c variana nu este nimic altceva dect o medie a unei sume de
De aici i denumirile pe care le poart, n literatura de specialitate, cele dou estimri ale varianei din populaie
2 :
glD
SPI
glI
IMPORTANT!
Att MPD ct i MPI reprezint estimri ale varianei n populaie, deci pot notate amndou cu
2 .
1.3
(j x)2 x s2 = x
j=1
k1
= n
de unde reiese c
2 = nES
n aceast formul,
Cum
sx
este chiar
2 cu sx i obinem:
2 = ns2 x
k
j=1
k1
n,
ind o constant, poate sta oriunde: naintea fraciei, Exist un motiv special pentru
care
grupurilor (n cazul nostru cele trei grupuri au mrime egal, ns de obicei nu este aa); distana dintre media de grup cu mrimea grupului respectiv
xj
k
nj
nj (j x)2 x
MPD
SPD
glD
j=1
k1
(1.3)
Cu alte cuvinte, grupurile mai mari vor avea o pondere mai mare (vor Se poate observa c
cntri
mai mult n calcul) dect grupurile mai mici, ceea ce este absolut normal.
gl = k 1.
MPD
MPD =
MPD = 45, 3
Spunem c variana
dintre
1.4
interiorul grupurilor ?
ecruia); pe care dintre cele trei o folosim? Exist dou rspunsuri posibile:
1. putem folosi oricare dintre cele trei variane, dac ele sunt egale n populaie (ceea ce ne duce spre una dintre asumpiile acestei analize, prezentat n Seciunea 1.7) 2. putem folosi o medie ponderat a tuturor celor trei variane, folosind o procedur derivat de asemenea din formula clasic a varianei.
n1
n2
n3
(x1i x1 )2 +
MPI
(x2i x2 )2 +
i=1 i=1
(x3i x3 )2 n3 1
SPI
gl
i=1
n1 1
n2 1
de libertate pentru c avem trei puncte xe: mediile corespunztoare celor trei
n k,
iar
k
SPI
nj
(xji xj )2
MPI
glI
j=1 i=1
nk gl = n k .
(1.4)
(xji xj )2 s2 = j
i=1
nj
nj 1
i=1
j = 1. . .k
grupuri, de unde:
(nj 1)s2 j
MPI
SPI
gl
j=1
nk k
(1.5)
grupuri
(aici ns ponderarea s-a realizat prin utilizarea gradelor de libertate ale ecrui grup): grupurile de mrime mai mare vor avea o pondere mai mare n calcul. Aplicnd Ecuaia 1.5 pentru exemplul nostru cu trei eantioane:
MPI
MPI =
n interiorul
Ecuaiile 1.3 i 1.5 sunt cele folosite pentru calcularea celor dou estimri ale
varianei n populaie, n cazul general cu
grupuri i mrimi
nk
ale grupurilor.
Formulele utilizate nu sunt foarte complicate (chiar dac aa par la prima vedere), bazndu-se exclusiv pe formula clasic a varianei. Din fericire pentru persoanele cu abiliti matematice mai sczute, ele nu trebuie calculate de mn; computerul ne va da automat rezultatele, singura noastr grij ind aceea de a le interpreta corect.
1.5 Statistica
F.
Tabelul ANOVA.
1.5
F,
Statistica
F.
Tabelul ANOVA.
Cel de-al treilea pas n efectuarea analizei de varian este calcularea statisticii test ca raport ntre cele dou estimri ale varianei n populaie: Variana dintre grupuri Variana n interiorul grupurilor
F=
sau mai simplu:
F=
MPD MPI
(1.6)
Dup cum vom vedea, exist un motiv puternic pentru faptul c MPD se a la numrtor, n partea de sus a fraciei. Multe din informaiile prezentate n continuare sunt explicate n detaliu la Capi-
F:
2 , indiferent
dac ipoteza
de nul este sau nu adevrat. Aceasta deoarece MPI se bazeaz pe variaiile din interiorul ecrui grup, care luate mpreun ofer o imagine destul de bun (o estimare destul de bun) a lui
2 .
Partea care se a sub lupa testului este ns MPD; dac ipoteza de nul este adevrat (toate mediile sunt egale) atunci i MPD va un bun estimator a lui
2 .
probabilitatea de a grei respingnd ipoteza de nul. n cealalt situaie, n care ipoteza de nul nu este adevrat (adic cel puin una dintre medii este semnicativ diferit), atunci valoarea lui
se va mri
considerabil; n acelai timp, probabilitatea de a grei respingnd ipoteza de nul se va micora pe msur. Acest lucru se ntmpl deoarece diferenele dintre grupuri tind s mreasc MPD.
IMPORTANT!
Statistica
se datoreaz diferenelor dintre grupuri, raportat la variaia generat de selecia aleatoare a eantionului.
Pentru a nelege i mai bine aceste lucruri, vom introduce nc o sum de ptrate, ignorat pn acum: STP (Suma Total a Ptratelor); este vorba despre distana dintre toate observaiile din eantionul general n jurul mediei
generale x:
STP
=
i=1
(xi x)2
10
n1
tuturor observaiilor. Deoarece variana este o msur a variaiei iar STP face parte din formula acesteia, rezult c STP este de asemenea o variaiei totale. Se poate arta c: STP
bun msur
= SPD + SPI
(1.7)
Cu alte cuvinte, cantitatea total de variaie este egal cu cantitatea de variaie explicat de diferenele dintre grupuri plus cantitatea de variaie rmas neexplicat (erorile aleatoare n jurul mediei); pe scurt, variaia total este egal cu variaia explicat plus variaia neexplicat, iar valoarea lui raport ntre cele dou:
se poate deni ca
F=
VE VN
(1.8)
Cu ct variaia explicat va mai mare, cu att va scdea variaia neexplicat, iar valoarea lui mic (ceea ce nseamn c diferenele dintre grupuri sunt foarte mici), cu att va crete variaia neexplicat (datorat erorilor aleatoare) iar valoarea lui nici o diferen ntre ele, variaia explicat va egal cu zero). Diverse programe de analiz statistic pot s difere foarte puin n modul de prezentare a rezultatelor, ns toate se vor referi la exact acelai lucru; n general, orice tabel de rezultate va conine urmtoarele lucruri: Suma
tinde spre zero (la limit, cnd grupurile seamn perfect i nu exist absolut
gl
ntre grupuri n interiorul grupurilor Total k - 1 n - k n - 1
Valoare
p
Pr(>F)
F=
MPD MPI
Evident c aceasta este o variant n limba romn a tabelului; pentru c cele mai bune programe statistice sunt n limba englez, rezultatele aate de calculator vor avea denumirile ca n urmtorul tabel: df Between Within Total k - 1 n - k n - 1 Sum of Squares SSB SSW SST Mean Square MSB MSW
p
Pr(>F)
Uneori pot s apar prescurtri de genul Sum Sq sau Mean Sq, iar n loc de
df se refer la
gl
- gradele de libertate
Sum of Squares nseamn Suma Ptratelor SSB (n engl. Sum of Squares Between) este echivalent cu SPD SSW (n engl. Sum of Squares Within) este echivalent cu SPI
11
SST (n engl. Sum of Squares Total) este echivalent cu STP MSB (n engl. Mean Square Between) este echivalent cu MPD MSW (n engl. Mean Square Within) este echivalent cu MPI
Efectund calculele pentru exemplul nostru, am obinut urmtorul tabel: Suma Valoare Variana 45,3 12,448
gl
ntre grupuri n interiorul grupurilor Total 2 27 29
p
0,040
3,639
F:
F=
Valoarea de 3,639 (mult mai mare dect 1) ne sugereaz c ipoteza de nul este pe cale de a respins, pentru c variaia explicat de diferenele dintre grupuri este mult mai mare dect variaia datorat erorilor aleatoare; existnd diferene majore ntre grupuri, vor exista cu siguran i diferene ntre mediile acestora. La fel ca la testele
critic. Modalitatea alternativ este de a compara valoarea lui semnicaie ales; cum
2 ,
nivel de ncredere de 95%), vom respinge ipoteza de nul: cel puin una dintre strategii a dat rezultate.
1.6
Distribuia de eantionare
t
i
F
F critice cu care se compar p obinute cu pragul de
2 ,
F.
semnicaie
.
este
F:
continu
+.
Dup cum am mai artat, cnd eantioanele sunt perfect similare (media lor este exact aceeai) atunci MPD va egal cu 0 iar este maxim) atunci MPI va egal cu 0 iar mari sau egale cu zero). Tot similar cu distribuiile
cu 0; la cellalt pol, cnd eantioanele sunt total diferite (diferena dintre medii
va egal cu
+.
sunt
non-negative
12
o pereche
de grade de libertate.
Figura 1.2 arat trei asemenea distribuii, unde primul numr reprezint numrul de grade de libertate de la numrtor (din MPD), iar cel de al doilea numr reprezint numrul de grade de libertate de la numitor (din MPI).
F,
cu:
Dup cum se poate vedea toate curbele sunt mai mult sau mai puin alungite la dreapta, ecare avnd un singur mod. Acestea sunt alte dou caracteristici ale distribuiei
F:
este
unimodal
alungit la dreapta.
0y .
de libertate pentru numrtor (cu alte cuvinte, pentru numr mic de grupuri), curba se apropie din ce n ce mai mult de axa vertical; spre exemplu, la o pereche (1,100) curba va chiar lipit de axa de axa orizontal Odat cu creterea numrului de grade de libertate, cozile distribuiilor se vor apropia din ce n ce mai mult
0x,
Forma distribuiei se modic deci odat cu creterea numrului de grade de libertate (att la numrtor ct i la numitor), ind din ce n ce mai puin alungit la dreapta. n principiu, creterea volumului total al eantionului modic distribuia pn la o form relativ apropiat de distribuia normal. Rezumnd, proprietile distribuiei
sunt urmtoarele:
1. este continu 2. este non-negativ 3. este uni-modal 4. este alungit la dreapta 5. aria de sub curb este egal cu 1
Testul
este uni-direcional,
doar
babilitatea de eroare calculat va reprezentat ca o arie sub curb numai n partea dreapt. Exist o singur valoare critic a lui aria de sub curb corespunztoare nivelului de semnicaie ales.
F, n dreapta creia se a
13
poate gsit cu ajutorul tabelelor de valori care pot Exist mai multe tabele de
valori, cte unul pentru ecare nivel de semnicaie clasic: 10%, 5%, 2,5%, 1%
Modul de citire a tabelelor este foarte simplu: a) se alege tabelul corespunztor nivelului de semnicaie ales; b) se localizeaz numrul de grade de libertate de la numrtor (k
1,
se localizeaz numrul de grade de libertate de la numitor (n linia identicate se a valoarea critic a lui
k,
de la MPI)
F.
Figura 1.3: Probabilitatea de eroare de tipul I, valoarea critic i valoarea calculat a lui
F,
Zona de respingere
Aria egal cu = 5%
F CR
3,39
= 5%,
valoarea critic a
este egal cu
3,639 i este mai mare dect valoarea critic, intrnd n zona de respingere a ipotezei de nul (colorat cu albastru).
1.7
Pentru a putea utiliza aceast analiz, trebuie s ne asigurm c sunt ndeplinite urmtoarele condiii/asumpii: 1. Fiecare eantion este extras dintr-o populaie cu o distribuie normal. 2. Populaiile din care au fost extrase eantioanele au aceeai varian (cu alte cuvinte, toate variaz n aceeai msur). 3. Eantioanele sunt extrase n mod aleator i independent. Ca i la testele
populaiile din care au fost extrase eantioanele trebuie s aib o distribuie normal. Aa cum se ntmpl mai ntotdeauna n practic, ns, asumpia de normalitate este rareori satisfcut (cazurile n care populaia are o distribuie perfect normal sunt foarte rare, dac nu inexistente).
14
Exist totui o soluie: violarea acestei asumpi poate tolerat, dac eantionul este
sucient de mare
depinde de forma distribuiei n populaie). Pentru a verica dac distribuiile sunt normale, se construiete cte o histogram a variabilei metrice pentru ecare grup (atenie ns: sunt relevante doar pentru eantioane mari). Asumpia de baz a analizei de varian este cea a histogramele
omogenitii varianelor :
aceast a doua asumpie este cea mai dezbtut de ctre specialiti. Unii dintre ei arm c, dac varianele n populaiile din care provin eantioanele nu sunt egale, atunci ANOVA nu poate aplicat. Alii arm c acest test este irelevant, deoarece rezultatele lui sunt foarte puternic inuenate de forma distribuiei n populaie (testarea egalitii dintre variane nu poate realizat
dect dac
ANOVA este o analiz destul de robust, chiar i n cazul n care varianele nu sunt egale; totul este ca diferena dintre variane s nu e foarte mare (adic o varian s nu e de cteva ori mai mare dect alta). Mai mult dect att, analiza este i mai robust la nclcarea acestei asumpii dac eantioanele sunt de mrime egal (n1
= n2 = n3 ).
acestei analize dac eantioanele sunt mici, au distribuii puternic deplasate de la normalitate i au variane n populaie inegale; dac eantioanele au ns mrime egal, cu distribuii moderat deplasate i variane n populaie moderat inegale, atunci putem aplica analiza cu ncredere. n ceea ce ne privete, vom proceda n mod similar cu testul
t,
unde exist o
variant de formul pentru cazul n care varianele sunt egale (este vorba de cea clasic, predenit n orice program de analiz statistic) i o alt variant de formul pentru cazul n care varianele nu sunt egale (testul Welch, care mai este denumit i testul robust al egalitii mediilor); decizia folosirii uneia sau alteia din variante se ia pe baza valorii lui omogenitii varianelor. Setul de ipoteze din acest test (pentru exemplul nostru particular cu trei eantioane) este:
H0 H
A:
p
1 = 2 = 3
cel puin dou variane sunt diferite
n urma efecturii testului cu datele noastre, a fost obinut o valoare a statisticii test
= 0,108 i un
p,
dovezile sunt zdrobitoare c varianele sunt omogene (sunt aproape 90% anse de a grei armnd contrariul), drept pentru care vom utiliza testul clasic. n ne, a treia asumpie arat c toate elementele eantioanelor trebuie extrase n mod independent, utiliznd o tehnic aleatoare. Un rol major l are metodologia utilizat n cercetare, claritatea cu care a fost fcut instructajul dinaintea cercetrii, corectitudinea cu care operatorii de teren aplic instruciunile primite etc. Cu ct controlm mai bine toate aceste detalii, cu att putem mai siguri pe rezultatele noastre. A extrage elemente n mod independent unele de altele nseamn c ntre orice pereche de elemente din eantion nu trebuie s e nici o legtur (spre exemplu, doi respondeni s nu e rude).
15
1.8
Glosar de termeni
Analiza de varian - ANOVA (n engl. ANalisys Of VAriance). O tehnic statistic utilizat pentru a testa egalitatea dintre trei sau mai multe medii.
Distribuia
(n engl.
F Distribution).
folosite pentru a testa diferenele dintre medii sau variane, a cror form depinde de doi parametri (gradele de libertate de la numrtor i de la numitor).
MPD - Variana dintre grupuri (n engl. MSB - Mean Square Between sau
Between Group Variance). Medie a sumei ptratelor dintre grupuri, este o estimare a varianei din populaie care calculeaz variaia mediilor de grupuri n jurul mediei generale, mprind SPD la un numr de grade de libertate.
Within sau Within Group Variance). Medie a sumei ptratelor din interiorul grupurilor, este o estimare a varianei din populaie care calculeaz variaia din interiorul tuturor grupurilor (unde grupurile mai mari vor avea o pondere mai mare), mprind SPI la un numr de grade de libertate.
Between). O msur a variaiei dintre grupuri, calculat prin nsumarea ptratelor distanelor de la ecare medie de grup la media general.
Statistica
sau Raportul
(n engl.
statistic sau
ratio).
Este un
raport ntre cele dou estimri ale varianei din populaie (MPD - variaia explicat i MPI - variaia neexplicat). poate respins. Dac cele dou estimri sunt aproximativ egale atunci raportul va egal cu 1 iar ipoteza de nul nu
Explained variation).
Variaie total (n engl. Total variation). Variaia general a tuturor observaiilor din eantion, egal cu variaia explicat plus variaia neexplicat.