Professional Documents
Culture Documents
ET
PLANIFICATION DES EXPERIENCES
Position du problème :
Exemple introductif
On veut connaître l ’effet de trois types de fertilisants sur la croissance
des arbres d ’une plantation
1) Principe de l ’expérimentation
fertilisant
extraire 3 échantillons (groupes) d ’arbres et appliquer chaque
pour chaque échantillon : comparer ensuite les moyennes
de croissance annuelle des arbres
variance) s ’applique dès que :
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
2) Principe statistique
Indicateur mesuré
sur la variable dépendante
Population
originelle
µ
Chaque modalité du facteur
permet de définir des sous-populations
(ex: les arbres traités avec le fertilisant
F1,…)
Sous-pop 3 µ1 , µ 2 , µ 3
Sous-pop 1 Sous-pop 2
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
3) Problèmes pratiques et quelques définitions
A) Plan d ’expérimentation
F1
F2
F3
placeau
Quelques définitions
population : les arbres de la plantation
échantillon expérimental : les arbres dans les 3 placeaux
unité expérimentale : un placeau
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
B) Les facteurs non-contrôlés
différences
expérimentation
climatiques, il peut y avoir des zones de micro-climat
facteurs génétiques : les graines n ’ont peut-être pas tous la même
provenance et des arbres voisins (sur le même placeau) ont toutes les chances
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
D) Facteurs fixes et facteurs aléatoires
Ex: on veut vérifier q ’il y a un facteur opérateur dans la réparation des roues de
voitures dans un garage ayant plusieurs succursales en Europe (les modalités
du facteurs sont les employés affectés à ce type de réparation dans les garages)
on ne va pas traiter tous les employés, il est plus intéressant d ’en sélectionner au
hasard et d ’inférer sur le rôle du facteur « opérateur » sur le temps de réparation
Facteur aléatoire
on utilise un échantillon
des modalités du facteur
Facteur fixe
on utilise toutes les modalités ou
un sous-ensemble des modalités du
(ex: trois médicaments parmi
tous les médicaments traitant
facteur
les résultats ne sont valables que
de la grippe)
à partir du résultat, on infère
pour ces modalités
sur le reste des autres modalités
pour que le résultat soit valide,
il est impératif que les modalités
utilisés lors du calcul soient extraits
de manière aléatoire
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
E) Récapitulatif sur les facteurs de variation
Facteurs de variation
connus inconnus
étudiés blocs
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
4) Etude prospective - étude rétrospective
autant avoir à faire une
on est en relation directe avec expérimentation
la planification des expériences,
le facteur est manipulé ex: comparer les niveaux de salaire
selon le sexe
ex: comparer les salaires
d ’embauche selon les écoles
d ’origine
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
ANALYSE DE VARIANCE
à UN FACTEUR
1) Hypothèse de travail
le plan est complètement randomisé
l ’unité expérimentale est confondue avec l ’individu statistique
P est la population
A est le facteur à étudier
Ce qui induit une
subdivision de la population
en sous-population
(avec p modalités : A ,A ,…,A )
1 2 p
P1,P2,…,Pp
X est la variable d ’intérêt de
moyenne µ Dans chaque sous-
population, on a µ1, µ2,…,
µp
E est l ’échantillon total,
d ’effectif n
E ,…E sous les sous-
1 p
échantillons relatifs aux sous-
p
n = ∑ nj
populations, d ’effectifs n …,n
1 p j =1
Kx
sur la variable X, on calcule
les moyennes empiriques
x et x1 , x2 , , p
puissance carburant
111 essence
111 essence
On dispose de la liste des 154 essence
b) observations, à chaque 102 essence
ligne (observations) on 115 essence
observe la valeur prise de 110 essence
la variable d ’intérêt et la 110 essence
valeur prise par le facteur 110 essence
Cette représentation a
140 essence
64 diesel
l ’avantage de s ’adapter 72 diesel
très facilement au cas ou 123 diesel
on a deux ou plus de 123 diesel
123 diesel
facteurs
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
4) Test d ’hypothèse, Indicateurs statistiques
et représentations graphiques
H1 : ∃j , µ ≠ µ j
1 p
400
300
130
Médiane
Médiane 50 « horsepower »
« horsepower » 127
128
129
pour les véhicules
200 106
0
N= 20 185
diesel gas
fuel-type
5) ANOVA à un facteur fixe (Modèle I)
x − x = (x − x) + (x − x )
ij j ij j
p nj p p nj
∑∑ ij
( x − x
j =1 i =1
) 2
= ∑ j
( x − x ) 2
+ ∑∑ ij j
( x
j =1
− x ) 2
j =1 i =1
SCT : somme des carrés totaux SCR : somme des carrés résiduels
Exprime la variabilité totale des Exprime la variabilité résiduelle, à
observations savoir la variation que le facteur
n ’arrive pas à expliquer
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
Calculs
SCT
CMT =
n −1
SCE
Carrés moyens CME =
p −1
SCR
CMR =
n− p
Statistique du SCE
test et loi CME p −1
F= = ≡ Fischer ( p − 1, n − p )
associée sous CMR SCR
l ’hypothèse H0 n− p
s ’est choisi
p-value < α alors rejeter H0, le facteur a bien
une influence sur la variable dépendante
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
5) ANOVA à un facteur aléatoire (Modèle II)
L ’échantillonnage est maintenant à deux degrés :
6) Robustesse de l ’ANOVA
⌦
peut s ’en assurer de deux manières
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
Non-homogéneité de la variance
• problème : les groupes à forte variance « tirent » sur les résultats
• diagnostic : test de Bartlett
H 0 : ∀j , σ 2 = σ 2 j
H1 : ∃j , σ 2 ≠ σ 2 j
∑ (x − x)
2
ij
,j
σˆ = 2 i
n− p
∑ (x )
On utilise les estimations
ij
−x j
2
σˆ = i
n −1
j
ω= j
≡ χ 2 (n − 1)
∑n
1 1 1
1 + −
3( p − 1) −1 n −
p
j j
• solution : travailler sur des plans équilibrés, encore une fois, atténue l ’effet
néfaste de l ’hétérogénéité des variances
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
7) Exemple : longueur des voitures en fonction de leur style
Variable Facteur
dépendante
Box-plot : quartiles de la longueur en fonction du style
220
210
200
190
180
LENGTH
170
160
150
Max non-aberrant
Min non-aberrant
140
75%
25%
130
decapota coupe berline van toitamov Médiane
STYLE
ANOVA
LENGTH
Sum of Mean
Squares df Square F Sig.
Between Groups 6555.430 4 1638.857 13.381 .000
Within Groups 24495.143 200 122.476
Total 31050.572 204
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
COMPARAISON MULTIPLE
DE MOYENNES
Position du problème :
L ’ANOVA met en évidence une influence d ’un facteur sur
une variable d ’intérêt en utilisant les moyennes, il peut être
intéressant de spécifier nommément sur quelles groupes
porte ces différences
H : µ = µ
0 j j'
H : µ ≠ µ
Pour le test d ’hypothèses suivant
1 j j'
On utilisera la quantité
x −x
t =
jj '
j j'
≡ Student ( n − p)
SCR + SCR 1 1
j j'
+
n +n +2
j j'
n
j
n j'
T
α Total ≤ ∑ α individuel
t =1
On choisit alors comme risque de première
espèce pour les risques individuels (test de
comparaison de deux moyennes) Risque consenti dans
α l ’ANOVA
α individuel = p ( p −1)
2 Equivalent au nombre
de tests effectivement
En toute rigueur, on devrait
réalisés
comparer notre p-value avec
cette valeur
Les logiciels de statistique fournissent directement une p-
value corrigée que l ’on peut comparer avec le risque α
de l ’ANOVA
p ( p − 1)
α~ = α '×
p-value corrigée
T
α Total ≤ 1 − ∏ (1 − α individuel )
t =1
α individuel = 1 − (1 − α ) p ( p −1)
∑ (x − x)
2
ij
σ̂ =2 i, j
n− p
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
La statistique de Dunnet pour une comparaison entre un
groupe (correspondant une une modalité du facteur) avec
un groupe témoin (une modalité témoin du facteur) s ’écrit
x j − xk
d jk =
SCR 1 1
+
n − p n j nk
α
α =
p −1
individuel
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
ANALYSE DE VARIANCE
à DEUX FACTEURS (A * B)
Position du problème :
On veut mesurer maintenant le rôle conjoint de deux
facteurs A et B sur la variable dépendante
3 effets sont à mesurer
effet de A Effets principaux
effet de B
interaction entre A et B
Exemples :
• type de fertilisants et mode d ’épandage => croissance des arbres
• type de fumeur (actif,modéré,non-fumeur) et sexe => durée de vie
P est la population
X est la variable d ’intérêt de
moyenne globale µ
on étudie le rôle de deux
facteurs A et B
B est le second facteur
(avec q modalités : B1,B2,…,Bq)
A est le premier facteur
(avec p modalités : A1,A2,…,Ap)
µ
A et B définissent p*q sous -
ij
µ i.
µ
population P ij
on note P (resp. P ) les
i. .j
individus corresp. à A=A (B=B )
.j
i j RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
Dans chaque sous-population Pij, on extrait un
échantillon Eij (tirage indépendant et équiprobable)
Dans tout ce qui suit, on considère que le plan
d ’expériences est équilibré, card(Eij)=n
les résultats sont plus clairs et plus facilement explicités
q
1
xi. =
q
∑ x
j =1
ij
p
1
x. j =
p
∑ x
i =1
ij
2) Tableau de données
x2, 2, 2 = puissance ,
essence turbo ,2
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
Tables de données usuelles
Utilisées par les logiciels
Graphiques associés
160.0
140.0
140.0
120.0
120.0
100.0
100.0
80.0 diesel
80.0
60.0 essence
60.0
40.0
20.0
40.0
essence
0.0 20.0
diesel
atmo 0.0
turbo
atmo turbo
H 0 : µ . = µ , ∀i
i
H 0 : µ. = µ , ∀j
j
H 0 : µ = µ , ∀i,
ij
j
Décomposition de la moyenne
i.
( . j
) (
x − x = (x − x ) + x − x + x − x − x + x + x − x
ijr ij i. . j
) ( ijr ij
)
Effets des facteurs Effet de Erreur résiduelle
principaux l ’interaction (erreur expérimentale)
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
CMT = SCT pqn− 1
CME A = SCE A p − 1
CMR = SCR pq n − ( 1)
FA FB FAB
A et B fixes CME A CME B CME AB
CMR CMR CMR
A fixe et B aléat CME A CME B CME AB
CME AB CME R CMR
.
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
5) Cas particulier de l ’ANOVA à deux facteurs :
ANOVA à 1 facteur avec mesures répétées
On peut utiliser le procédé suivant
appliquer la méthode A1 à l ’individu i
C ’est un plan d ’expériences à mesures répétées
la variable d ’intérêt est mesurée plusieurs fois sur le
même individu
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
Tableau de données
facteur
individu A1 Aj Ap
1
i Xij
Particularités
randomisé
la « sensibilité » des résultats est meilleure dans le sens où
on détecte mieux les effets
Dans le jugement de l ’effet du facteur A, on
enlève l ’incertitude liée au fait que l ’on
utilise des individus différents dans les
groupes - les facteurs de bloc sont annihilés
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne
Décomposition de la moyenne
i.
(
x − x = (x − x ) + x − x + x − x − x + x
ij . j
) ( ij i. . j
)
Facteur individu Facteur A Joue le rôle de
facteur résiduel ici
∑∑ ( xij − x )
2
CMEI = SCEI n − = 1
j
n −1
p ∑ ( x. j − x ) 2
CME A = SCEA p − = 1
i
p −1
CME
F = ≡ Fischer ( p − 1, ( p − 1)(n − 1) )
A
CME
A
IA
RAKOTOMALALA Ricco
Cours Analyse de Données, HEC Lausanne