You are on page 1of 34

ANOVA = ANalysis Of VAriance

Vincent DEBAT
UMR5202 Systématique et Evolution
Plate-forme Morphométrie
debat@mnhn.fr
ANOVA = ANalysis Of VAriance

Introduction

Comparaison de moyennes entre N groupes:


N ≥ 2 (sinon test t de student)

Exemples:

Plantes échantillonnées dans différentes localités: différences de taille?


Fossiles de plusieurs gisements: différences de forme?

ANOVA = une des méthodes statistiques les plus utilisées.


Principe

⇒ Un paramètre contrôlé discret qu’on fait varier, une variable d’intérêt


continue dont on veut estimer la réponse

= variable indépendante (explicative) = Facteur et variable dépendante (à


expliquer)

Exemples:

Différence de taille des individus entre plusieurs gisements de fossiles?


Effet d’un traitement médical sur la santé des patients?
Effet d’un paramètre environnemental sur le nombre de petits par portée?

Comme pour la correlation et la regression, il ne faut pas confondre


différence et causalité
Pourquoi l’ANOVA et pas plusieurs t tests??

Deux raisons:

-Le nombre de comparaisons augmente de facon geométrique: Ajouter un nieme


échantillon ne veut pas dire faire une comparaison supplémentaire, mais (n-1)!
(toutes les comparaisons entre la nieme valeur et les n-1 autres)

- Inflation du nombre de tests => augmentation du risque α. Autrement dit, on va


trouver des valeurs significatives qui ne traduisent pas une vraie différence, mais
sont simplement dues au hasard.

Pour chaque comparaison, on a une probabilité de 95% d’accepter l’hypothese.


Donc une probabilité de (0.95)n de l’accepter n fois. Ce qui veut dire une
probabilité α = 1-(0.95)n de la rejeter au moins une fois.

Exemple:

Dans le cas de 4 moyennes, on a 6 comparaisons a faire.


Soit une probabilite de 1-(0.95)6=0.265 de rejeter l’hypothese d’égalité alors qu’elle
est vraie (de trouver une différencec significative).

= 27% des cas!!!


Interet de l’ANOVA:

Si l’ANOVA n’est pas significative, cela veut dire - au seuil α choisi –


qu’il n’y a pas de différence entre les moyennes.
Si elle est significative, cela veut dire qu’ au moins une moyenne
differe des autres. => Un seul test suffit

… et limite:

L’ANOVA ne permet pas de dire quelle(s) moyenne(s) differe(nt).


Les modeles d’ANOVA – ANOVA à un facteur

ANOVA type I (model I):


le facteur est controle par l’experimentateur = modele à effet fixe

Exemples:

Effet de la température sur la taille de drosophiles


Effet d’un médicament sur une maladie
Effet d’un engrais sur la production de céréales

ANOVA type II (modele II):


le facteur n’est pas controlé = modele à effet aléatoire

Exemples:

Différences de taille de drosophiles entre localités


Différences entre répétitions d’une meme mesure
En fait : toutes les différences dont on ne peut pas identifier precisément la
cause=> on ne peut prédire les effets et on ne peut pas répéter à
l’identique
Les modeles d’ANOVA – ANOVA à plusieurs facteurs

On peut avoir un modele à plusieurs facteurs fixes (type I), plusieurs


facteurs aléatoires (type II), ou impliquant simultanément des facteurs fixes
etr d’autres aléatoires. Ce dernier cas est dit modele mixte.

Exemple: dimorphisme sexuel dans différentes populations de papillons:

Population 1 Population 2 …

♂ ♀ ♂ ♀

Le facteur fixe est le sexe: les individus sont males ou femelles, pour toutes les
populations. Le facteur population est aleatoire : on ne peut pas predire ce qui
se passe dans d’autres populations.
Principe general – Cas du modele I (un effet fixe)

Décomposition de la variance totale entre intra et inter groupes

Vtotale = Vintra + Vinter

Population

Ce qu’on veut savoir c’est si


Echantillons statistiquement les echantillons
proviennent de la meme
population statistique
Individus
Principe general – Cas du modele I (un effet fixe)

On va donc calculer les variances inter- et intra groupes et les comparer.

Si la variance intra groupe et la variance inter groupes sont proches, cela


signifie qu’il n’y a pas plus de différence entre les groupes que celle
attendue du fait d’une variation intra groupe ‘normale’.

Autrement dit, cela veut dire que les moyennes des groupes mélangés
(comparés) sont les mêmes.

L’alternative signifie que les groupes sont différents (moyennes différentes)

H0: variance inter groupes = variance intra groupe => moyennes identiques

H1: variance inter groupes > variance intra groupe => moyennes différentes
Rappel: Variance

La variance estime la dispersion autour de la moyenne. On la calcule ainsi:

Il faut donc calculer la moyenne.

Ensuite calculer la somme des carres des


ecarts individuels a la moyenne

Enfin il faut ponderer par le nombre d’observations


Mouches Drosophiles

Trait mesuré Y
Echantillons (groupes)

= Par exemple, différentes


températures de développement
Population

Individus k groupes, nj individus par


groupe. On note Yij le ième
individu du jème groupe.
i varie de 1 à n, j varie de 1 à
k.

Soit N le nombre d’individus


dans la population
k
N= ∑j= 1
nj

Moyenne totale:
Echantillons k n
1
(groupes) Y=
N
∑∑
j= 1 i= 1
Yij
nj
1
Moyenne du jème groupe: Yj =
nj

i= 1
Yij
Moyenne generale et variance totale (dispersion autour de la moyenne)

Somme des carrés des


écarts (SCE)
= Sum of squares (SS)

k nj

Y SCE total = ∑∑
j= 1 i= 1
(Yij − Y ) 2
Population

Individus

k nj

SCE total = ∑∑
j = 1 i= 1
(Yij − Y ) 2

k
1
SCE Inter =
N
∑j= 1
n j (Y j − Y ) 2

n
1 k j
SCE Intra = ∑j = 1 ∑i = 1 ij j
N moyennes
=variance des
(Y − Y ) 2

Echantillons
(groupes)

Variances inter groupes (effet temperature, ici)


Population

Individus k nj
SCE total = ∑∑
j= 1 i= 1
(Yij − Y ) 2

k
1
SCE Inter =
N
∑j= 1
n j (Y j − Y ) 2

k nj
1
SCE Intra =
N
∑∑
j= 1 i= 1
(Yij − Y j ) 2

=moyenne des variances?

Echantillons
(groupes)

Moyennes et variances intra groupe (variance residuelle)


L’ANOVA pas à pas

● Calcul des moyennes

● Calcul des sommes des carrés des écarts (SCE = SS (Sum of Squares))
SCE totaux = SCE inter groupes + SCE intra groupes (= residuels)

● Calcul des carrés moyens (CM = MS (Mean squares)) en divisant par les
degrés de liberté (ddl = df (degrees of freedom)

CMtot = SCE tot /N-1


CMg=SCE g /k-1
CMr=SCE r /n-k

● Calcul de F, le rapport entre CMg et CMr

Sous H0, F suit une loi de Fisher à k-1 et n-k degrés de liberté
On compare Fobserve et F de la table statistique
Que conclure du test??

Si F n’est pas significatif:

H0 est acceptee: la variance entre groupe est egale a la variance


intragroupes. Aucune difference entre les moyennes n’est detectee.

Si F est significatif:

H0 est rejetee: la variance inter groupes est superieure a la variance intra


groupe, ce qui veut dire que toutes les moyennes ne sont pas egales (au
moins une moyenne differe).

Mais laquelle?
Quelles moyennes diffèrent??

On se retrouve dans la situation initiale: pour identifier les effets, il faut


comparer les moyennes deux a deux.

Il s’agit donc de realiser des tests multiples (multiple pairwise t tests)

Le probleme de l’inflation du risque α se retrouve posee

Les corrections les plus utilisees:

Bonferroni : α’ = α/ nb de tests (tres utilise, mais tres critique)


Sequential Bonferroni: on prend le moins significatif, on l’ajuste en divisant
par le nombre de tests: s’il reste significatif, tous les autres le seront aussi.
Scheffé: La valeur du F est modifiee pour tenir compte du nombre de
groupes: F’=(a-1)F
Tukey HSD (honestly significant difference)
Newmann-Keuls
Tukey Kramer (taille des groupes inegale)
Tukey HSD

Mi - Mj = difference entre les moyennes du ieme et jeme groupes (>0)


MSE = Mean Square Error = variance intra groupe
nh moyenne harmonique des tailles des groupes i et j (si la taille diffère!)
95% family-wise confidence level
= 2 / (1/ni +1/nj) (si 2groupes)

M:B-F:B
F:O-F:B
M:O-F:B
F:O-M:B
M:O-M:B
M:O-F:O

-2 0 2 4 6

Differences in mean levels of crabs$sex:crabs$sp


Conditions d’application de l’ANOVA:
Analyse des residus

Normalité:
les echantillons doivent provenir d’une population distribuee normalement.
Plus precisement, ce sont les residus du modele utilise qui doivent suivre une
loi normale (pour que le rapport des variances suive une loi de fisher)

Homoscédasticité:
= Egalite des variances des differents echantillons.

Independence des donnees:


Les donnees doivent avoir ete echantillonnes de facon independante
Conditions d’application de l’ANOVA:
Analyse des residus

Normalité :

Inspection graphique des donnees et des residus


Densite de probabilite - plot des quantiles normaux (qq norm)
Tests de normalite: Kolmogorov-Smirnof, Shapiro Wilk’s, ou Lilliefors

Homoscédasticité:

Tests de Lévène, Bartlett

Independence des donnees:

ceci depend du plan d’echantillonage. Si l’on n’est pas sur, mieux vaut en
discuter avec le statisticien du labo!
TD: analyse du jeu de données crabs

Décomposition de l’ANOVA sur R (calcul des moyennes, des SS, MS, F,


ainsi que aov et summary.aov, + tests multiples)
#Charger le package MASS
library(MASS)
#regarder crabs
str(crabs)

#####Variable CL = carapace length

Question: est ce que les deux especes different pour ce caractere?

#calculer les moyennes totale et par groupes

meanT<-mean(crabs[, 6])
meanB<-mean(crabs[which(crabs$sp=="B"), 6])
meanO<-mean(crabs[which(crabs$sp=="O"), 6])
meanM<-mean(crabs[which(crabs$sex=="M"), 6])
meanF<-mean(crabs[which(crabs$sex=="F"), 6])
means<-c(meanT, meanB,meanO, meanM, meanF)
means
#representation graphique des deux effets sex et sp
Qu’en pensez vous? plot(crabs$CL~crabs$sp)
plot(crabs$CL~crabs$sex)
gp<-paste(crabs$sex, crabs$sp, sep="")
plot(crabs$CL~as.factor(gp))
g<-factor(gp, levels=c("MB", "FB", "MO", "FO"))
plot(crabs$CL~g)
#############ANOVA a la main: effet espece

#calcul des SCE tot, within, among


SST<-sum(scale(crabs$CL, center=TRUE, scale=FALSE)^2)
SSb<-sum(scale(crabs[which(crabs$sp=="B"),6], center=TRUE, scale=FALSE)^2)
SSo<-sum(scale(crabs[which(crabs$sp=="O"),6], center=TRUE, scale=FALSE)^2)
SSwithin<-SSb+SSo
SSamong<-SST-SSwithin

###degrees of freedom

dfamong<-1
b<-length(crabs[which(crabs$sp=="B"), 6])-1

o<-length(crabs[which(crabs$sp=="O"), 6])-1
dfwithin<-b+o

##mean squares and F

MSamong<-SSamong/dfamong
MSwithin<-SSwithin/dfwithin
F<-MSamong/MSwithin
#significativité du F: pf(Fvalue, df1, df2,low=FALSE)

p<-pf(F, dfamong, dfwithin,low=FALSE)

####Affichage global
MSamong
MSwithin
F
p

#### comparaison avec ANOVA directe

summary(aov(crabs$CL~crabs$sp))

anova(lm(crabs$CL~crabs$sp))
######### conditions d'application de l'anova: Analyse des residus #####

model<-(aov(crabs$CL~crabs$sp))
names(model)

#normalité des residus: shapiro wilk's, kolmogorov smirnof


#visualisation normalite des residus par qqnorm

qqnorm(model$res)

###tests:
shapiro.test(model$res)
ks.test(model$res, "pnorm")

#homoscedasticité des variances des residus


#test F = var.test(variablepop1, variablepop2)
#test de Bartlett: bartlett.test(variable, code groupes)

var.test(crabs[crabs$sp=="B", 6], crabs[crabs$sp=="O", 6])


bartlett.test(crabs$CL, crabs$sp)
bartlett.test(crabs$CL, crabs$sex)
Alternative non parametrique : test de Kruskal-Wallis
(Wilcoxon-Mann-Whitney est l’homologue non parametrique du test t de
student)

Comme bcp de tests non par, on traite les rangs des donnees ordonnees et
plus les valeurs elles memes (perte de puissance)
En gros: on assigne a l’ensemble des valeurs un rang, et on somme les rangs
par groupe. La somme des rangs doit etre approximativement la meme si les
groupes sont semblables. L’alternative suggere que les groupes different.

La statistique est proche du F: ratio SCE ranggroupes/SCE rangtotal

kruskal.test(crabs$FL~crabs$sp)
################ ANOVA a deux effets fixes et interaction #########

aov(crabs$FL~crabs$sex*crabs$sp)

Interpreter

#### tests multiples


#Tukey HSD = Honestly Significant Difference

TukeyHSD(aov(crabs$FL~crabs$sex*crabs$sp))
plot(TukeyHSD(aov(crabs$FL~crabs$sex*crabs$sp)))
ANOVA a deux facteurs fixes: notion d’interaction

Analyse conjointe des effets espece et sexe sur FL (frontal lobe size)

Un groupe analyse l’effet du sexe (en detaillant les calculs)


L’autre l’effet de l’espece (idem)
Confrontation des resultats

On est ici dans le cas d’un modele a deux facteurs fixes = modele1
(model1 two-way ANOVA)

On code l’interaction ‘*’


crabs$FL~crabs$sex*crabs$sp

Si on ne veut que l’effet d’interaction, on utilise ‘:’


crabs$FL~crabs$sex:crabs$sp
Discussion de la notion d’interaction

Exemple:

Analyse de l’asymetrie fluctuante.


Mesures pour les cotes D et G dediffrerents individus
Plusieurs replications des mesures

Two-way mixed model ANOVA

Asymetrie fluctuante = interaction des effets individu et cote


Autres modeles... Effets nestes
Effets aleatoires vs effets fixes...
Et si les effectifs sont non balances? REML

Pour en savoir plus:


Sokal, R. R. and F. J. Rohlf. 1995. Biometry: the principles and practice
of statistics in biological research. 3rd edition. W. H. Freeman and Co.:
New York

Et… les cours suivants


ANOVA: modèle ε42
général µ2
α2
Y
• Le modèle général: µ

Y ij = µ + α i + ε ij
• Les algorithmes de µ =µ1 = µ2 = µ3
l’ANOVA suivent ce
modèle (par les
moindres carrés) afin Y µ
d’estimer les αi
• H0: tous les αi = 0 α1 = α2 = α3 = 0
Groupe 1
Groupe 2
Groupe 3
Groupe

MNHN Statistiques-Analyse des donnees 11


Répartition de la somme des carrés
totale

µ2
Y µ
µ3
µ1

SC Totale SC Modèle (Groupes) SC Erreur


Groupe 1
Groupe 2
Groupe 3

MNHN Statistiques-Analyse des donnees 12

You might also like