Professional Documents
Culture Documents
Analyse de variance
Ricco Rakotomalala
Universit Lumire Lyon 2
PLAN
2. ANOVA 1 facteur
4. ANOVA 2 facteurs
5. Bibliographie
Ricco Rakotomalala
2
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
ANOVA (ANalysis Of VAriance)
Et
Planification des expriences
Position du problme :
Exemple introductif
1) Principe de l exprimentation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
2) Principe statistique
Indicateur mesur
sur la variable dpendante
Population
originelle
Chaque modalit du facteur
permet de dfinir des sous-populations
(ex: les arbres traits avec le fertilisant
F1,)
Sous-pop 3 1 , 2 , 3
Sous-pop 1 Sous-pop 2
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
3) Problmes pratiques et quelques dfinitions
A) Plan d exprimentation
F1
F2
F3
placeau
Quelques dfinitions
individu statistique : un arbre de la plantation
population : les arbres de la plantation
chantillon exprimental : les arbres dans les 3 placeaux
unit exprimentale : un placeau
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
B) Les facteurs non-contrls
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
D) Facteurs fixes et facteurs alatoires
Ex: on veut vrifier quil y a un facteur oprateur dans la rparation des roues de
voitures dans un garage ayant plusieurs succursales en Europe (les modalits
du facteurs sont les employs affects ce type de rparation dans les garages)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
E) Rcapitulatif sur les facteurs de variation
Facteurs de variation
connus inconnus
tudis blocs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
4) Etude prospective - tude rtrospective
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
ANALYSE DE VARIANCE
UN FACTEUR (One-way ANOVA)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
2) Description des donnes
n nj
d effectif n
E1,Ep sous les sous-
p
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
3) Tableaux de donnes
puissance carburant
111 essence
111 essence
On dispose de la liste des 154 essence
b) observations, chaque 102 essence
ligne (observations) on 115 essence
observe la valeur prise de 110 essence
la variable d intrt et la 110 essence
valeur prise par le facteur 110 essence
140 essence
Cette reprsentation a 64 diesel
l avantage de s adapter 72 diesel
trs facilement au cas ou 123 diesel
123 diesel
on a deux ou plus de
123 diesel
facteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
4) Test d hypothse, Indicateurs statistiques
et reprsentations graphiques
x
1
nj
Moyenne conditionnelle (pour chaque facteur) xj
nj
ij
i 1
x nj xj
1 p
Moyenne globale (tous facteurs confondus)
n j 1
des reprsentations graphiques peuvent aider apprhender la
solution (sries de boxplot )
400
300 Mdiane
Mdiane horsepower
130
horsepower
pour les vhicules essence
200 127
128
129
106
diesel
100
horsepower
0
N= 20 185
diesel gas
Ricco Rakotomalala
fuel-type
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
5) ANOVA un facteur fixe (Modle I)
xij x ( x j x ) ( xij x j )
suivante :
ij j ij j
p nj p p nj
( x x ) 2
( x x ) 2
( x x ) 2
j 1 i 1 j 1 j 1 i 1
SCT : somme des carrs totaux SCR : somme des carrs rsiduels
Exprime la variabilit totale des Exprime la variabilit rsiduelle,
observations savoir la variation que le facteur
n arrive pas expliquer
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Calculs
SCT
CMT
n 1
SCE
Carrs moyens CME
p 1
SCR
CMR
n p
Statistique du SCE
test et loi CME p 1
F Fischer ( p 1, n p )
associe sous CMR SCR
l hypothse H0 n p
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
5) ANOVA un facteur alatoire (Modle II)
Dans la pratique, les calculs sont les mmes (ceci est valable
uniquement pour l ANOVA un facteur !!!).
6) Robustesse de l ANOVA
H 0 : j , 2 j 2
H1 : j , 2 j 2
x ij x
2
2 i, j
n p
x xj
On utilise les estimations
j 2
ij
i
n j 1
La statistique du test s crit Loi du Chi-2 n-1
n p ln 2 n j 1ln j 2
degrs de libert
j
2 ( n 1)
1 1
1
1
3( p 1) j n j 1 n p
solution : travailler sur des plans quilibrs (mme effectif dans chaque
sous-chantillon) attnue leffet nfaste de lhtrognit des variances
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
7.A) Exemple : longueur des voitures en fonction de leur style
Variable Facteur
dpendante
ANOVA
LENGTH
Sum of Mean
Squares df Square F Sig.
Between Groups 6555.430 4 1638.857 13.381 .000
Within Groups 24495.143 200 122.476
Total 31050.572 204
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
7.B) ANOVA sous R
#boxplot conditionnel
boxplot(length ~ body.style, data = autos.1,cex=0.75,ylab="Length",xlab="Body.Style")
#anova
fit <- aov(length ~ body.style, data = autos.1)
print(summary(fit))
SCE
CME F
= 1.11 x 10-9 < = 0.05
CMR
SCR
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
COMPARAISON MULTIPLE
DE MOYENNES
Position du problme :
On utilisera la quantit
x j x j'
t jj ' Student (n p )
SCR j SCR j ' 1 1
n j n j ' 2 n j n j '
Total individuel
T
t 1
individuel
l ANOVA
p ( p 1)
2 Equivalent au nombre
de tests effectivement
En toute rigueur, on devrait
raliss
comparer notre p-value avec
cette valeur
Les logiciels de statistique fournissent directement une p-
value corrige que l on peut comparer avec le risque
de l ANOVA
~ p ( p 1)
'
p-value corrige
(borne 1) 2
p-value fournie classiquement dans
Ricco Rakotomalala un test de comparaison de moyenne 21
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
1.B - Ingalit de Sidak
Total 1 1 individuel
T
t 1
individuel 1 (1 ) p ( p 1)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
Pas celles-ci ! 22
2) Comparaison par rapport un groupe tmoin (test de Dunnett)
2 i, j
groupes, l estimateur de la variance va donc n p
utiliser toutes les donnes disponibles
bon calcul et fournissent une p-value
comparable avec de l ANOVA), mais
individuel
dans les faits elle est proche d un test p 1
de Student avec une correction de
Bonferroni ou Sidak, mais o le facteur
de correction s crit
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
ANALYSE DE VARIANCE
DEUX FACTEURS (A * B)
Position du problme :
On veut mesurer maintenant le rle conjoint de deux
facteurs A et B sur la variable dpendante
Exemples :
type de fertilisants et mode dpandage => croissance des arbres
type de fumeur (actif, modr, non-fumeur) et sexe => dure de vie
P est la population
X est la variable d intrt de
moyenne globale
on tudie le rle de deux
facteurs A et B
B est le second facteur
(avec q modalits : B1,B2,,Bq)
A est le premier facteur
(avec p modalits : A1,A2,,Ap)
ij
A et B dfinissent p*q sous - i.
population Pij
on note Pi. (resp. P.j) les . j
individus corresp. A=Ai (B=Bj)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
Dans chaque sous-population Pij, on extrait un
chantillon Eij (tirage indpendant et quiprobable)
Dans tout ce qui suit, on considre que le plan
d expriences est quilibr, card(Eij)=n
les rsultats sont plus clairs et plus facilement explicits
xij xijr
1 n
n r 1
xi . xij
1 q
q j 1
x. j xij
1 p
p i 1
2) Tableau de donnes
Graphiques associs
160.0
140.0
140.0
120.0
120.0
100.0
100.0
80.0 diesel
80.0
60.0 essence
60.0
40.0
20.0 40.0
essence
0.0 20.0
diesel
atmo 0.0
turbo
atmo turbo
H 0 : i. , i
H 0 : . j , j
H 0 : ij , i, j
Dcomposition de la moyenne
Modles FA FB FAB
CME A CMEB CME AB
(I) A et B fixes
CMR CMR CMR
CME A CMEB CME AB
(III) A fixe et B alat.
CME AB CMR CMR
CME A CMEB CME AB
(II) A et B alat.
CME AB CME AB CMR
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Puissance des vhicules en fonction
4.B) ANOVA deux facteurs sous R du type de carburant (fuel-type) et le
mode dalimentation (aspiration)
(tests 5%)
#moyennes conditionnelles
#vs. fuel.type
print(tapply(autos.2$horsepower,list(autos.2$fuel.type),mean))
#vs. aspiration
print(tapply(autos.2$horsepower,list(autos.2$aspiration),mean))
#ANOVA 2 facteurs
fit2 <- aov(horsepower ~ fuel.type + aspiration + fuel.type*aspiration,
data = autos.2)
print(summary(fit2))
ANOVA 2 facteurs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
Tableau de donnes
facteur
individu A1 Aj Ap
1
i Xij
Particularits
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Dcomposition de la moyenne
( xij x ) 2
CMT SCT np 1 i j
np 1
n ( xi . x ) 2
CME I SCEI n 1 j
n 1
CME A SCE A p 1
p ( x. j x ) 2
i
p 1
Fischer p 1, ( p 1)(n 1)
CME A
FA
CME IA
On utilise tout simplement la p-value pour
prendre une dcision
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Bibliographie
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33