Professional Documents
Culture Documents
MODELES LINEAIRES
C.Chouquet
Laboratoire de Statistique et Probabilits - Universit Paul Sabatier - Toulouse
.
.
.
.
.
1
1
2
2
3
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
7
8
8
3 Estimation
3.1 Mthodes destimation . . . . . . . . . . . . . .
3.1.1 Principe des moindres carrs . . . . . .
3.1.2 Principe du Maximum de Vraisemblance
3.2 Estimation de . . . . . . . . . . . . . . . . . .
3.3 Valeurs ajustes et rsidus calculs . . . . . . .
3.4 Estimation de 2 . . . . . . . . . . . . . . . . .
3.5 Erreurs standard de bj , ybi , ebi . . . . . . . . . .
3.6 Construction de lintervalle de confiance de j .
3.7 Dcomposition de la variance . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
9
9
10
10
10
11
12
12
4 Test de Fisher
4.1 Hypothse teste . . . . . . . . . . . . . .
4.1.1 Principe . . . . . . . . . . . . . . .
4.1.2 Calculs sous H0 . . . . . . . . . . .
4.2 Le test de Fisher-Sndcor . . . . . . . . .
4.2.1 Principe . . . . . . . . . . . . . . .
4.2.2 La statistique de test . . . . . . . .
4.2.3 Fonctionnement du test . . . . . .
4.3 Cas particulier o q=1 : le test de Student
5 La Rgression linaire
5.1 Introduction . . . . . . . . . . . . . . .
5.1.1 La problmatique . . . . . . . .
5.1.2 Le modle de rgression linaire
5.1.3 Le modle de rgression linaire
5.2 Estimation . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
13
13
13
14
14
15
. . . . .
. . . . .
simple .
multiple
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
16
16
16
17
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
18
18
19
20
20
20
20
21
22
22
22
23
23
23
24
6 Lanalyse de variance
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Lanalyse de variance un facteur . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.3 Paramtrage centr . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.5 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.6 Intervalles de confiance et tests dhypothses sur leffet facteur . . .
6.2.7 Comparaisons multiples : Mthode de Bonferroni . . . . . . . . . . .
6.3 Analyse de variance deux facteurs croiss . . . . . . . . . . . . . . . . . .
6.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.3 La paramtrisation centre . . . . . . . . . . . . . . . . . . . . . . .
6.3.4 Estimations des paramtres . . . . . . . . . . . . . . . . . . . . . . .
6.3.5 Le diagramme dinteractions . . . . . . . . . . . . . . . . . . . . . . .
6.3.6 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.7 Tableau danalyse de la variance deux facteurs croiss dans le cas
plan quilibr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
dun
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
26
26
26
27
27
28
29
29
30
30
30
31
31
32
32
7 Analyse de covariance
7.1 Les donnes . . . . . . . . .
7.2 Le modle . . . . . . . . . .
7.3 La seconde paramtrisation
7.4 Tests dhypothses . . . . .
5.3
5.4
5.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
35
35
36
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
38
39
39
39
40
40
40
41
42
42
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
43
43
44
44
44
44
Chapitre 1
Prambule
1.1
Dmarche statistique
Nombre dindividus,
variables observes
quantitatives/qualitatives
Population tudie
Tableau de frquences,
moyenne, cart-type, mdiane,
Analyse univarie
diagramme en btons,
histogramme, box-plot
Tableau crois, 2 ,
comparaison de moyennes,
coefficient de corrlation,
nuage de points
Analyse bivarie
Synthtiser linformation
issue de plusieurs variables
RRR
pour mieux lexpliquer
RRR
RRR
Analyse multivarie
k
kkk
kkk
k
k
k
kkk
kkk
u kk
k
RRR
RRR
RRR
RRR
RRR
R)
Une variable
expliquer
quantitative
l
lll
lll
l
l
lll
lll
l
l
lll
lu ll
Une variable
expliquer
qualitative
Analyse de Donnes
Multidimensionnelle
(ACP, AFC, ACM)
Modlisation
Linaire :
Rgression Linaire simple
Rgression Linaire multiple
Analyse de variance
Analyse de covariance
1
Modlisation
non-linaire
(logistique, ...)
1.2
Pour illustrer la dmarche statistique et les problmatiques auxquelles peuvent rpondre les modles linaires, nous prsentons dans cette partie un exemple simple, mais complet dune analyse
statistique. Cette feuille de bord, constitue de tableaux et de graphiques, a pour objectif de
rappeler les principaux outils de statistique descriptive simple et dintroduire les diffrents types
de modles linaires que nous verrons dans cet enseignement.
Dans une entreprise, on a relev les salaires des 32 employs (mensuel en euros, not sal), ainsi
que certaines caractristiques socio-dmographiques telles que lanciennet dans lentreprise (en
annes, note anc), le nombre dannes dtudes aprs le bac (not apbac), le sexe (1 = F /2 = M ,
not sex), le type demplois occups (en 3 catgories codes de 1 3, not emp). Un extrait des
donnes est prsent ci-dessous :
num
anc
1
2
...
33
34
7
15
...
12
13
sal
1231
1550
...
1539
1587
sex
1
1
...
2
2
apbac
3
3
...
2
2
emp
2
2
...
1
2
Lobjectif principal de cette tude est dvaluer leffet ventuel des caractristiques sociodmographiques sur le salaire des employs.
1.2.1
Les variables sont analyses diffremment selon leur nature : quantitative ou qualitative. Les
variables quantitatives sont rsumes sous forme dindicateurs (moyenne, cart-type, ....), comme
dans le tableau ci-dessous, et sont prsentes graphiquement sous forme dhistogramme et de
botes moustache ou box-plot (Figure 1).
Variable
n Moyenne Ecart-type Mdiane Minimum Maximum
Anciennet
32
10.0
6.1
12
1.0
20.0
Salaire
32 1365.4
308.0
1357
926.0
2024.0
Nombre dannes dtudes 32
2.3
1.5
2.0
0.0
5.0
Pour les variables qualitatives, on rsume les donnes sous forme de tableau de frquences (comme
ci-dessous) et on les prsente graphiquement par des diagrammes en btons (Figure 2).
Variable
Sexe
Modalits
Effectif Frquence(%)
Fminin (1)
21
65.6%
Masculin (2)
11
34.4%
Type demplois 1
10
31.3%
2
17
53.1%
3
5
15.6%
Fig. 1.2 Diagramme en btons reprsentant la distribution des variables qualitatives : le sexe
(1=F, 2=M) et le type demplois occups (1, 2 ou 3)
1.2.2
Etant donn lobjectif de ltude, nous allons nous intresser dans cette partie aux relations entre
le salaire et les autres variables renseignes. L encore, selon la nature des variables, les mthodes
danalyse sont diffrentes.
Pour tudier la relation entre deux variables quantitatives (par exemple, entre le salaire et
lanciennet, et entre le salaire et le nombre danne dtudes), on peut tracer un nuage de points
(Figure 3) et calculer le cfficient de corrlation linaire entre ces deux variables :
Pearson Correlation Coefficients, N = 32
Prob > |r| under H0: Rho=0
sal
anc
0.85559
<.0001
apbac
0.42206
0.0161
Fig. 1.3 Nuage de points reprsentant la relation entre le salaire et les deux autres variables
quantitatives : lanciennet et le nombre dannes aprs le bac
Le nuage de points peut tre rsum par une droite que lon appellera la droite de rgression
linaire simple. Cest le cas le plus simple de modle linaire, qui permet dexpliquer une variable
quantitative en fonction dune autre variable quantitative. Par exemple, la droite de rgression
linaire rsumant la relation entre le salaire et lanciennet a pour quation :
sali =
+
42.9
anci + ei
|934.5
{z }
|{z}
constante lorigine pente du salaire sur lanciennet
La constante lorigine correspond au salaire moyen des employs au moment de lentre dans
lentreprise. La pente reprsente la variation moyenne de salaire par anne danciennet. La pente
gale 42.9 est significativement diffrente de 0, montrant que le salaire et lanciennet sont lis de
faon significative. Il en est de mme pour la rgression linaire du salaire sur le nombre danne
dtudes. Dans cet enseignement, on verra comment estimer les paramtres du modle et tester
leur nullit.
Il peut tre galement intressant de modliser une variable en fonction de plusieurs autres
variables, par un modle de rgression linaire multiple. Par exemple, on peut modliser
le salaire en fonction de lanciennet et du nombre dannes dtudes, ce qui donne lquation
suivante :
sali = 858.9 + 40.2 anci + 45.3 apbaci + ei
1.2.3
Il est possible dtudier la relation entre une variable quantitative et une variable qualitative,
par exemple entre le salaire et le sexe, ou entre le salaire et le type demplois. Cette relation est
reprsente graphiquement par des box-plots parallles (Figure 4).
Fig. 1.4 Box-plots parallles reprsentant la relation entre le salaire et les deux variables
qualitatives : le sexe (1=F, 2=M) et le type demplois occups (1, 2 ou 3)
Intuitivement, pour comparer le salaire des hommes et celui des femmes, on va calculer le salaire
moyen -entre autre- pour chaque groupe. De la mme faon pour tudier les diffrences ventuelles
entre les trois types demplois au niveau du salaire, on peut calculer le salaire moyen pour chaque
type demplois.
Statistiquement, on modlise le salaire en fonction du sexe en mettant en uvre un modle
danalyse de variance un facteur qui scrit sous la forme :
sali =
11sexei =1 +
11sexei =2 + ei
|1460.3
{z }
{z }
|1315.7
salaire moyen des femmes
salaire moyen des hommes
Il est galement possible dtudier leffet conjoint du sexe et du type demplois sur le salaire.
Intuitivement, on peut tudier les moyennes par classe, en croisant les deux variables qualitatives,
1.2.4
Sur notre exemple, on peut tenter dexpliquer le salaire selon lanciennet (variable quantitative)
et le sexe (variable qualitative). Dans ce cas, on peut reprsenter deux nuages de points entre
le salaire et lanciennet, lun pour les femmes et lautre pour les hommes, comme le montre la
figure 5.
Fig. 1.5 Nuages de points reprsentant la relation entre le salaire et lanciennet selon le sexe
On peut ainsi comparer leffet de lanciennet sur le salaire, selon le sexe. Cela nous amne
mettre en uvre un modle danalyse de la covariance permettant de modliser le salaire en
fonction de lanciennet et du sexe.
Chapitre 2
Le modle linaire
Dfinition :
On appelle modle linaire un modle statistique qui peut scrire sous la forme
k
X
Y =
j X j + E
j=1
k
X
j X j ; V ar(Y ) = 2
j=1
En moyenne, Y scrit donc comme une combinaison linaire des X j : la liaison entre les X j
et Y est de nature linaire. Cest la raison pour laquelle ce modle est appel modle linaire.
Lestimation des paramtres de ce modle est base sur n observations simultanes des variables
X j et Y ralises sur n individus supposs indpendants. Pour la i-me observation, les valeurs
observes des variables sont notes yi , x1i , ..., xki , de sorte que le modle scrit :
yi =
k
X
j xji + ei
j=1
Introduisons maintenant :
y le vecteur de IRn compos des valeurs y1 , ...yn ,
X la matrice (n,k) de rang k, contenant les valeurs observes des k variables explicatives
disposes en colonnes,
le vecteur de IRk contenant les k paramtres du modle,
e le vecteur de IRn des erreurs du modle.
On peut donc crire le modle sous forme matricielle :
y = X + e
Selon la forme de la matrice X, on est dans le cas de la rgression linaire (X est alors compose
de la variable constante 1 et des p variables explicatives) ou dans le cas du modle factoriel (X
est compose des variables indicatrices associes aux niveaux du (ou des) facteur(s)).
2.2
2.2.1
Ecriture gnrale
On appelle modle linaire gaussien la donne dun vecteur y de IRn tel que :
y = X + e o
Y IRn ,
X M(n,k) , connue, dterministe, de rang k,
IRk , inconnu,
2 IR+ , inconnue.
Il en dcoule la normalit de Y :
Y Nn (X, 2 In )
Lhypothse de normalit des rsidus peut se justifier :
1. par un argument thorique : les rsidus sont caractrisables comme des erreurs de mesure.
Ceux sont une accumulation de petits alas non-matrisables et indpendants. Par exemple,
la mesure du poids dun animal peut tre soumise des fluctuations dues des erreurs de
mesure la pese, ltat de sant de lanimal, son bagage gntique, leffet individuel de
lanimal prendre plus ou moins du poids. Daprs le Thorme Central Limite, si tous ces
effets sont indpendants de mme moyenne nulle et de mme petite variance, leur somme
tend vers une variable Normale. La distribution gaussienne modlise assez bien toutes les
situations o le hasard est la rsultante de plusieurs causes indpendantes les unes des
autres ; les erreurs de mesure suivent gnralement assez bien la loi gaussienne.
2. par un argument pratique : il est facile de contrler si une variable alatoire suit une loi
Normale. En tudiant a posteriori la distribution des rsidus calculs et en la comparant
la distribution thorique (Normale), on constate souvent quelle peut tre considre comme
sapprochant de la loi gaussienne.
2.2.2
On cherche modliser une variable quantitative Y en fonction de variables explicatives quantitatives x1 , x2 , ..., xp . Sous lhypothse gaussienne, le modle de rgression linaire scrit :
yi = 0 + 1 x1i + ... + p xpi + ei
avec 0 , 1 , ..., p inconnus, et e1 , ..., en n observations indpendantes dune loi N (0, 2 ) avec 2
inconnue.
2.2.3
Le modle factoriel
On cherche modliser une variable quantitative Y en fonction dune (ou de plusieurs) variable(s)
explicative(s) qualitative(s) (appele facteur). Sous lhypothse gaussienne, le modle un facteur
scrit :
yij = i + eij
i = 1, ...I ; j = 1, ..., ni
avec 1 , ..., I inconnus, et e11 , ..., eInI n observations indpendantes dune loi N (0, 2 ) avec 2
inconnue.
Chapitre 3
Estimation
est le vecteur des paramtres estimer. Dans le cas gnral que nous tudions dans ce chapitre,
est un vecteurs k composantes : 1 , 2 , ..., k . On note :
Y la variable alatoire expliquer,
y une ralisation de cette v.a. Y ,
la vraie valeur thorique du vecteur des paramtres du modle,
b lestimateur de ,
b
(y)
une ralisation de la v.a. b (ou une estimation de partir des donnes observes).
3.1
3.1.1
Mthodes destimation
La mthode des moindres carrs consiste estimer en minimisant la somme des carrs des
rsidus (SSR), telle que
b
((y))
= min
n
n
X
X
2
(yi ybi )2
(b
ei ) = min
i=1
i=1
3.1.2
Lestimation par maximum de vraisemblance est base sur la vraisemblance du modle linaire
gaussien :
n
Y
f (yi ; )
L(; y) =
i=1
3.2
Estimation de
b
Si y est la ralisation de Y , lestimation de , (y),
est lunique lment de IRk tel que
b =y
b.
X (y)
On a donc
b = (X X)1 X y
(y)
Proprits
3.3
b Nk (; 2 (X X)1 )
Les ybi sappellent les valeurs ajustes ou valeurs prdites par le modle : ybi est une valeur approche de yi . On estime galement les rsidus ebi .
b = X(X X)1 X y
y
b
b
e=yy
b
b = X (y)
y
est le vecteur des valeurs ajustes.
b est lobservation de la v.a. Yb = X(X X)1 X Y avec Yb Nn (X; 2 H).
y
|
{z
}
H
3.4
Estimation de 2
On note :
2 la vraie valeur thorique de la variance des rsidus,
c2 lestimateur de 2 ,
Dfinition
2 est la variance thorique des rsidus, on lappelle variance rsiduelle. Une autre dfinition de
2 est donne par la variance de Y pour X fix, cest--dire la variance de Y autour de la droite
de rgression thorique. Cette dfinition de 2 suggre que son estimation est calcule partir
b.
des carts entre les valeurs observes y et les valeurs ajustes y
Lestimateur de 2 est :
c2 = 1 ||E||
b 2 = 1 ||Y Yb ||2
nk
nk
Lestimation de 2 est donc
c2 (y) =
1
||y||2 ||b
y||2
1
b ||2 =
||b
e||2 =
||y y
nk
nk
nk
Proprits
c2
(n k)
2nk (Somme des carrs de n v.a. N (0, 1) qui vrifient k relations linaires).
2
4
c2 est un estimateur sans biais de 2 et de variance 2 .
nk
c2 sont deux v.a. indpendantes ; b et
c2 sont deux v.a. indpendantes.
Yb et
3.5
c2 (X X)1 .
V ar(bj ) est donc estime par
jj
Lerreur standard de bj (y) note sej est donc :
sej =
c2 (y)(X X)1
jj
c2 (y)(X X)1
jj
sej sej
=q
(X X)1
jj
1
(X X)1
jj (X X)j j
Remarque : Lestimation de la matrice des corrlations de b est note cor b par SAS.
c2 (y)H.
qV ar(Yb ) = 2 H est estime par
c2 (y)Hii est lerreur standard de ybi .
q
c2 (y)(1 Hii ) est lerreur standard de ebi .
eb
q i
est le rsidu standardis.
c
2
(y)
ebi
q
est le rsidu studentis.
c2 (y)(1 Hii )
3.6
jj
jj
3.7
Dcomposition de la variance
La mise en uvre dun modle linaire a pour objectif dexpliquer la variabilit dune variable y
par dautres variables.
On note :
n
X
(yi y)2 = n.V ar(y) la variabilit totale de y,
SST =
i=1
n
X
(b
yi y)2 = n.V ar(b
SSL =
y) la variabilit de y explique par le modle, cest--dire par
i=1
les prdicteurs,
n
X
(b
ei )2 = n.V ar(b
e) la variabilit rsiduelle non explique par le modle.
SSR =
i=1
V ar(y) = V ar(b
y ) + V ar(b
e)
soit :
SST = SSL + SSR
On verra par la suite que selon le modle tudi (rgression linaire ou analyse de variance), cette
dcomposition amne des dfinitions spcifiques chaque modle.
Daprs le critre des moindres carrs utilis pour estimer les paramtres, on cherche minimiser
la Somme des Carrs des rsidus SSR, et donc maximimser la Somme des Carrs explique par
le modle SSL.
Pour juger de la qualit dajustement du modle aux donnes, on dfinit le critre R2 qui reprsente
la part de variance de y explique par le modle :
R2 = SSL/SST = V ar(b
y )/V ar(y)
Chapitre 4
Test de Fisher
4.1
4.1.1
Hypothse teste
Principe
4.1.2
= 0 avec Q = (0 0 1), q = 1.
Q
= (0 1 1), q = 1.
0
, q = 2.
1
Calculs sous H0
Lhypothse nulle tant dfinie, on a donc pos un modle contraint que lon va estimer en supposant H0 vraie.
On a not b lestimateur de correspondant au modle de rfrence. On note b0 lestimateur de
b0 et les rsidus
sous H0 , pour le modle contraint. On peut obtenir, sous H0 , les valeurs prdites y
estims b
e0 . Le test de Fisher consiste comparer les estimations du modle de rfrence et celles
sous H0 .
4.2
4.2.1
Le test de Fisher-Sndcor
Principe
Le test de Fisher-Sndcor ou test de Fisher est la rgle de dcision qui permet de dcider si on
rejette ou ne rejette pas H0 : Q = 0 :
13
4.2.2
La statistique de test
(||b
e0 ||2 ||b
e||2 )/q
||b
e||2 /(n k)
Le numrateur reprsente lerreur commise en supposant H0 vraie, sachant que de faon vidente :
||b
e0 ||2 > ||b
e||2 . Fcal est donc lerreur relative due H0 . Si Fcal est grand, on peut rejeter H0 .
Une notation usuelle pour la somme des carrs des rsidus est SSR. Dans ce cas, on dfinit :
SSR0 = ||b
e0 ||2 et SSR1 = ||b
e||2
do lexpression de Fcal :
Fcal =
SSR0 SSR1 (n k)
F (q, n k)
SSR1
q
(||b
y ||2 ||b
y0 ||2 )/q
c2 (y)
b Q (Q(X X)1 Q )1 Qb
F (q, n k)
c2
q
4.2.3
Fonctionnement du test
Il faut dfinir une valeur limite F1 au dessus de laquelle Fcal sera considr comme grand. Dans
ce cas, la limite F1 est le (1 )-quantile de la distribution de Fisher de degrs de libert q et
nk :
P [v.a. de Fisher < F1 ] = 1
P [v.a. de Fisher > F1 ] =
|
|
0
|
|
|
Limite F1
{z
}
Zone de non-rejet de H0
{z
Zone de rejet de H0
Fcal
}
Le risque de premire espce du test de Fisher cest--dire la probabilit de rejeter H0 alors que
H0 est vraie, vaut :
P [Rejeter H0 | H0 vraie] =
En effet, on a montr que Fcal est distribu selon une loi F (q, nk) donc selon la rgle de dcision,
la probabilit de rejeter H0 est la probabilit que Fcal > F1 si Fcal F (q, n k).
H0 non rejete
Dcision
H0 rejete
4.3
Dans le cas particulier o lon teste la nullit dune seule combinaison linaire des composantes
de (q=1), la matrice Q est dordre (1, k) et lhypothse nulle scrit :
H0 : c = 0 = 0 avec Q = c
.
On a donc Q(X X)1 Q = c (X X)1 c = l(c) (cf 2.6.2)
(y)
b 2
Fcal =
F (1, n k)
c2 (y)l(c)
Or une proprit de la distribution de la loi de Fisher-Sndcor est quune distribution de FisherSndcor 1 et m2 degrs de libert est le carr dune distribution de Student m2 degrs de
libert (cf 1.3.5) :
P [F (1, n k) > F1 ] = = P [(T (n k))2 > F1 ] F1 = t21/2
On rejette H0 si Fcal
q > F1
c2 (y)l(c)
|(y)|
b
> t1/2
q
q
c
c2 (y)l(c).
2
t1/2 (y)l(c) < (y)
b
< +t1/2
Or lintervalle de confiance de (dfini au 2.6.3) est
q
c2 (y)l(c)]
[(y)
b t1/2
Chapitre 5
La Rgression linaire
5.1
5.1.1
Introduction
La problmatique
La rgression est un des mthodes les plus connues et les plus appliques en statistique pour
lanalyse de donnes quantitatives. Elle est utilise pour tablir une liaison entre une variable
quantitative et une ou plusieurs autres variables quantitatives, sous la forme dun modle. Si on
sintresse la relation entre deux variables, on parlera de rgression simple en exprimant une
variable en fonction de lautre. Si la relation porte entre une variable et plusieurs autres variables,
on parlera de rgression multiple. La mise en uvre dune rgression impose lexistence dune
relation de cause effet entre les variables prises en compte dans le modle.
Cette mthode peut tre mise en place sur des donnes quantitatives observes sur n individus et
prsentes sous la forme :
une variable quantitative y prenant la valeur yi pour lindividu i {i = 1, ...n}, appele
variable expliquer ou variable rponse,
p variables quantitatives x1 , x2 , ..., xp prenant respectivement les valeurs x1i , x2i , ...xpi pour
lindividu i, appeles variables explicatives ou prdicteurs ; si p = 1, on est dans le cas
de la rgression simple ; lorsque les valeurs prises par une variable explicative sont choisies
par lexprimentateur, on dit que la variable explicative est contrle.
Considrons un couple de variables quantitatives (X, Y ). Sil existe une liaison entre ces deux
variables, la connaissance de la valeur prise par X change notre incertitude concernant la
ralisation de Y . Si lon admet quil existe une relation de cause effet entre X et Y , le phnomne
alatoire reprsent par X peut donc servir prdire celui reprsent par Y et la liaison scrit
sous la forme y = f (x). On dit que lon fait de la rgression de y sur x.
Dans le cas dune rgression multiple de y sur x1 , x2 , ..., xp , la liaison scrit y = f (x1 , x2 , ..., xp ).
Dans les cas les plus frquents, on choisit lensemble des fonctions affines (du type f (x) = ax + b
ou f (x1 , x2 , ...xp ) = a0 + a1 x1 + a2 x2 + ... + ap xp ) et on parle alors de rgression linaire.
5.1.2
16
La relation entre yi et xi scrit alors sous la forme dun modle de rgression linaire simple :
yi = 0 + 1 xi + ei
(5.1)
i = {1, ..., n}
Valeur prdite
*
*
20000
*
*
* *
**
*
ei
erreur
*
*
15000
*
*
**
yi
*
*
**
*
* *
*
* * * *
*
** *
*
* * * *
*
*
*
* *
* * *
* *
* *
*
observe *
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
**
*
*
*
y
Nombre de lettres
*
*
*
**
10000
5000
Valeur
100
xi
150
200
250
300
350
400
Poids du courrier
5.1.3
i = {1, ..., n}
5.2
5.2.1
Estimation
Rsultats gnraux
(5.2)
cov(x, y)
b1 (y) =
var(x)
j=1
c2 (y) =
n
X
(b
ei )2
i=1
np1
On dduit les erreurs standard des paramtres estims b0 (y), ..., bp (y), des valeurs ajustes et des
rsidus calculs :
q
c2 (y)(X X)1
erreur standard de bj (y) : se de bj (y) =
j+1,j+1
q
q
c
c2 (y)Hii
2
5.2.2
Proprits
1. eb = 0,
2. yb = y,
5. Le vecteur des rsidus nest pas corrl avec la variable ajuste Y : cov(b
y, b
e) = 0
var(y) = var(b
y) + var(b
e).
(5.3)
var(b
e)
var(b
y)
=1
var(y)
var(y)
5.2.3
Le coefficient R2
var(b
y)
var(y)
0 6 R2 6 1
var(b
e)
SSR
=1
var(y)
n var(y)
La plupart des logiciels nutilise pas la dcomposition (5.3), mais plutt la dcomposition obtenue
en multipliant cette expression par n :
SST = SSL + SSR
o :
n
X
(yi y)2 est la somme totale des carrs corrigs de y,
SST =
i=1
n
X
(b
yi y)2 est la somme des carrs explique par le modle,
SSL =
SSR =
i=1
n
X
i=1
La proprit (5) ci-dessus montre que la variance de la variable expliquer (ou totale) se
dcompose en somme de la variance explique par le modle (var(b
y )) et de la variance rsiduelle
(var(b
e)). On note encore R2 le rapport de la variance explique sur la variance totale, soit :
R2 =
var(b
y)
var(b
e)
=1
var(y)
var(y)
5.2.4
Augmentation mcanique du R2
Lorsquon ajoute une variable explicative un modle, la somme des carrs des rsidus diminue
ou au moins reste stable. En effet, si on considre un modle p 1 variables :
yi = 0 + 1 x1i + . . . + j xji + . . . + p1 xp1
+ ei ,
i
(0 , 1 , . . . , j , . . . , p1 , 0) = (0 , 1 , . . . , j , . . . , p1 ).
Do lingalit :
(0 , 1 , . . . , j , . . . , p1 , p ) 6 (b0 , b1 , . . . , bj , . . . , bp1 , 0) = (b0 , b1 , . . . , bj , . . . , bp1 ).
5.3
5.3.1
On tudie leffet de la prsence dune variable explicative X j dans le modle en testant lhypothse
nulle :
H0 : j = 0
o j est le paramtre associ la variable explicative X j .
Lhypothse H0 de nullit dun paramtre du modle peut tre teste au moyen de la
statistique de Student :
bj
Tcal =
Student(n p 1)
se de bj
5.3.2
SSR0 SSR1 n p 1
F (q, n p 1)
SSR1
q
o SSR0 est la somme des carrs des rsidus du modle rduit sous H0 et SSR1 est la somme
des carrs des rsidus du modle de rfrence.
On compare Fcal la valeur limite F1 (q, np1) : si Fcal > F1 (q, np1) alors on rejette H0 .
Remarque : dans le cas o q=1, on teste la nullit dun seul paramtre du modle. Etant la
proprit selon laquelle une v.a. distribue selon une loi F (1, m2 ) est le carr dune v.a. de Student
m degrs de libert (cf 1.1.5), le test de Fisher-Sndcor ci-dessus et le test de Student (vu au
paragraphe prcdent) donnent les mmes conclusions.
5.3.3
Tester lhypothse de nullit de tous les paramtres du modle (associs aux variables explicatives) :
H0 : 1 = 2 = ... = p = 0
R2
np1
np1
SSL1
=
F (p, n p 1)
2
SSR1
p
1R
p
o SSL1 est la somme des carrs du modle de rfrence avec SST = SSL1 + SSR1 , et R2 est le
critre dajustement du modle de rfrence.
On compare Fcal la valeur limite F1 (p, n p 1) : si Fcal > F1 (p, n p 1) alors on rejette
H0 et on conclut quil existe au moins un paramtre non nul dans le modle.
5.3.4
Intervalle de confiance de j , de Y i et de Y 0
IC1 (Ybi ) = ybi tnp1,1/2 se de ybi
Pour des valeurs donnes x10 , x20 , ..., xp0 des variables explicatives, la rponse moyenne est :
Y 0 = 0 + 1 x10 + ... + p xp0 = X0 o X0 = (1 x10 x20 ... xp0 )
Lestimateur de Y 0 est :
et la variance de cet estimateur est :
b0 = X0 b
b = 2 X (X X)1 )X0
V ar(Y 0 ) = V ar(X0 )
0
b
Lestimation de Y 0 est yb0 = X0 (y)
do on dduit lintervalle de confiance de Y 0 au risque :
q
1
c
2
IC1 (Y 0 ) = yb0 tnp1,1/2 (y)(X0 (X X) X0 )
5.3.5
Intervalle de prdiction
Avant toute chose, il est important de comprendre la diffrence entre lintervalle de confiance
de Yb0 et lintervalle de prdiction. Dans les deux cas, on suppose un jeu de valeurs donnes des
variables explicatives. Dans le premier cas, on veut prdire une rponse moyenne correspondant
ces variables explicatives alors que dans le second cas, on cherche prdire une nouvelle valeur
individuelle. Par exemple, si on tudie la liaison entre le poids et lge dun animal, on peut
prdire la valeur du poids 20 jours soit comme le poids moyen danimaux 20 jours, soit comme
le poids 20 jours dun nouvel animal. Pour le nouvel animal, on doit prendre en compte la variabilit individuelle, ce qui augmente la variance de lestimateur et donc la largeur de lintervalle.
b
La prdiction est nouveau donne par yb0 = X0 (y).
En revanche, la variance de la prdiction
devient :
V ar(Y 0 ) + V ar(E0 ) = 2 (1 + X0 (X X)1 X0 )
Lintervalle de prdiction de scurit 1 est donn par :
5.4
yb0 tnp1,1/2
c2 (y)(1 + X (X X)1 X0 )
En prsence de p variables explicatives dont on ignore celles qui sont rellement influentes, on doit
rechercher un modle dexplication de Y la fois performant (rsidus les plus petits possibles) et
conomique (le moins possible de variables explicatives).
5.4.1
Les critres
Pour obtenir un compromis satisfaisant entre un modle trop simple (grands rsidus) et un modle
faisant intervenir beaucoup de variables (donc trs instable), on dispose de plusieurs critres qui
ne donnent pas ncessairement le mme rsultat :
c2 (y) est minimum ;
choisir, parmi tous les modles, le modle pour lequel
2
choisir, parmi tous les modles, celui pour lequel le R ajust est maximum avec
2
=
Radj
(n 1)R2 p
n (p + 1)
choisir le modle pour lequel le critre PRESS (Prediction Sum of Squares) de Allen est
minimum :
X
P RESS =
(yi yi )2
i
5.4.2
Toutes les mthodes de slection ncessitent la donne dun des critres cits prcdemment qui
permet de comparer des modles ayant des nombres de paramtres diffrents. On choisit donc un
critre de qualit optimiser, la variable expliquer y et un ensemble de p variables candidates
lexplication de y. Pour k fix, on cherche le groupe de k variables, qui, parmi les p variables,
explique le mieux y. Comme la recherche du maximum du R2 sur tous les ensembles de k variables
prises parmi p peut prendre trop longtemps (ils sont au nombre de Cpk ) et peut amener des
artfacts (un bon rsultat qui nen est pas un), on utilise souvent des mthodes pas pas, qui
sont soit ascendantes, descendantes ou stepwise :
1. Les mthodes ascendantes : On cherche dabord la variable qui explique le mieux y au sens
du R2 (R2 maximum), puis on cherche celle qui, ajoute la premire, augmente le plus le
R2 , etc. Un critre darrt de la procdure peut-tre obtenu en utilisant des critres du type
R2 ajust, Cp de Mallows ou critre AIC : par exemple, on arrte le processus lorsque le R2
ajust commence dcrotre.
2. Les mthodes descendantes : On part du modle utilisant les p variables explicatives et on
cherche, parmi les p variables, celle qui peut tre supprime en occasionnant la plus forte
croissance du critre. Cette variable tant supprime, on itre le processus tant que le R2
ajust ne dcrot pas.
3. Les Mthodes stepwise : Partant dun modle donn, on opre une slection dune nouvelle
variable (comme avec une mthode ascendante), puis on cherche si on peut liminer une
des variables du modle (comme pour une mthode descendante) et ainsi de suite. Il faut
dfinir pour une telle mthode un critre dentre et un critre de sortie.
4. On peut citer la mthode des s best subsets (ou s meilleurs sous-ensembles) : on cherche
de faon exhaustive parmi les sous-ensembles de s variables, les s meilleurs, au sens du
critre considr.
5.5
Validation du modle
5.5.1
Une fois le modle mis en uvre, on doit vrifier a posteriori le bien-fond statistique de ce
modle du point de vue de la normalit des rsidus et de ladquation de la valeur ajuste ybi la
valeur observe yi et de labsence de donnes aberrantes. Pour se faire un ide sur ces questions,
on peut tudier :
ebi
1. les rsidus standardiss : ri = q
.
c
2
(y)
ebi
dont on compare la rpartition la distribution
se de ebi
N (0; 1) (tout en tant conscient que les n rsidus ne sont pas indpendants mais lis par
p + 1 relations linaires) en tracant le P-P Plot ou le Q-Q Plot (droite de Henry) et en
comparant la proportion des rsidus compris entre 1 et +1, entre 2 et +2, entre 2.6
et +2.6 respectivement 70%, 95% et 99%. De grands rsidus signalent plutt des valeurs
atypiques de la variable expliquer.
3. le graphe des n points (yi , ybi ) qui doivent tre peu prs aligns selon la droite de pente
1.
4. le graphe des n points (b
ei , ybi ) qui doit correspondre celui de deux variables non-corrles.
5. leffet levier par les lments diagonaux de la matrice H. En effet, lestimation des paramtres
est trs sensible la prsence de points extrmes pouvant modifier de faon substantielle les
rsultats. Une observation est influente si llment diagonal de la matrice H correspondant
cette observation est grand. Leffet levier apparait principalement pour des observations
dont les valeurs prises par les variables explicatives sont loignes de la moyenne.
6. les mesures dinfluence peuvent aussi permettre de dceler des points atypiques avec la
distance de Cook Di pour lindividu i : (b b(i) ) T T (b b(i) ) o T est le vecteur des
rsidus studentiss. Cette distance conclut une infuence de lobservation i lorsque la valeur
de Di dpasse 1.
5.5.2
Le problme
Lestimation des paramtres et de leurs variances ncessite le calcul de linverse de la matrice
(X X). On dit que (X X) est mal conditionne si son dterminant est proche de 0. La matrice
(X X)1 sera alors trs grande. Cette situation se produit lorsque les variables explicatives sont
trs corrles entre-elles. On parle alors de multi-colinarit et cela conduit des estimations
biaises des paramtres avec des variances importantes.
Remarque : Dans le cas extrme o certaines variables explicatives sont des constantes ou sont des
combinaisons linaires des autres, alors les colonnes de la matrice X sont des vecteurs linairement
lies et X X est singulire. Dans ce cas, SAS limine certaines variables en leur affectant dautorit
un cfficient nul.
Les critres de diagnostic
Il sagit de diagnostiquer ces situations critiques puis dy remdier. Une des techniques (la plus
simple, mais pas la plus rapide) est de dtecter les fortes liaisons entre variables explicatives
en faisant la rgression de chaque variable explicative sur les autres variables explicatives et en
mesurant les liaisons par le R2 de chacune des ces rgressions. Un autre critre de diagnostic
permet de dtecter les problmes de multi-colinarit entre variables : le facteur dinflation de la
variance (V IF ).
la matrice des donnes observes centres (cest--dire la matrice X prive de la colonne
Soit X
11 et centre) et S la matrice diagonale contenant les cart-types empiriques des variables X j , on
peut dfinir R la matrice des corrlations sous la forme :
R=
1 1 1
S X XS
n
On note le vecteur des paramtres associes aux p variables explicatives centres. On peut
b et V ar()
b peuvent sexprimer en fonction de X
:
montrer que
b = (X
b = (X
X)
1 X
Y et V ar()
X)
1 2
b :
et on peut en dduire une nouvelle expression de V ar()
2 1 1 1
b
V ar()
=
S R S
n
b
b
Si on note V ar(j ) le jme lment diagonal de la matrice de variance-covariances de et Vj le
jme lment diagonal de la matrice R1 alors
2
Vj
b ) =
V ar(
.
j
n V ar(Xj )
Vj est appel facteur dinflation de la variance (VIF) : plus Vj est grand, plus la variance de bj
est grande. Vj peut sexprimer comme :
Vj =
1
1 Rj2
o Rj est le cfficient de corrlation multiple obtenu en rgressant Xj sur les p1 autres variables
explicatives. On appelle tolrance 1 Rj2 . Une tolrance et un facteur dinflation de la variance
qui tendent vers 1 signifient une absence de multicolinarit entre les variables explicatives. En
revanche, si la tolrance tend vers 0 et le facteur dinflation de la variance vers , alors on dtecte
un problme de multicolinarit entre les variables explicatives.
Une premire solution : la rgression ridge
Une faon dviter ce problme dinversibilit et donc de rduire les inconvnients de variables
explicatives fortement corrles est de remplacer b par
= (X X + cIp )1 X Y
o c est une rel choisi par lutilisateur de la faon suivante : nest plus un estimateur sans biais de
b On calcule lerreur quadratique de (variance+biais2 )
, mais il est de variance plus petite que .
et on choisit c de faon que lerreur quadratique de soit minimum.
Une seconde solution : la rgression sur composantes principales
Cest une autre faon de grer les colinarits des variables explicatives :
on fait lA.C.P. des variables explicatives et on considre les composantes principales ; on
note C la matrice des composantes principales : C = (x1 |x2 |...|xp )M ;
on remplace les variables explicatives par les composantes principales qui sont non corrles
+ e avec
de variances dcroissantes : on crit donc le modle sous la forme y = X
X = (11|C) = XB donc = B ;
X)
1 Xy.
Comme les dernires composantes de
on estime par
b = (X
b sont petites et de
grandes se, on les remplace par 0 ce qui donne qui est un estimateur biais de , donc
b On calcule lerreur
= B
est un estimateur biais de de plus petite variance que .
Chapitre 6
Lanalyse de variance
6.1
Introduction
1. Un facteur est dit contrl si ses valeurs ne sont pas observes mais fixes par lexprimentateur.
2. Les modalits des variables qualitatives explicatives sont appeles niveaux du facteur.
Dfinition dun plan dexprience
1. On appelle cellule dun plan dexprience une case du tableau, associe une combinaison
des facteurs contrls.
2. Un plan est dit complet sil a au moins une observation dans chaque cellule.
3. Un plan est dit rpt sil y a plus dune observation par cellule.
4. Un plan est dit quilibr si chaque cellule comporte le mme nombre dobservations.
5. Un plan quilibr et rpt est dit quirpt.
6.2
6.2.1
On appelle plan un facteur un plan dexpriences dfini par un seul facteur ; on dispose donc
dune variable quantitative expliquer et dune seul facteur explicatif. On note
i lindice du groupe ou de la "cellule", dfinie par le facteur explicatif,
I le nombre de groupes (i = 1, . . . , I),
ni le nombre dexpriences dans le groupe i,
j = 1, . . . ,P
ni lindice de lexprience dans le groupe i,
enfin n = Ii=1 ni le nombre total dexpriences.
Une exprience (ou encore un "individu") est repre par deux indices, le numro de la cellule
(i) et le numro de lobservation dans la cellule (j). Ainsi on note yij la valeur de la rponse
quantitative pour lexprience j du niveau i.
6.2.2
Le modle
On modlise une variable quantitative en fonction dun facteur I niveaux. y est la variable
expliquer qui prend la valeur yij pour lindividu j du niveau i du facteur. Le modle scrit :
26
I
X
ni
i=1
N (0, 2 )
1
2
6.2.3
Paramtrage centr
I
X
i = 0
i=1
ou bien :
y = 11 +
I1
X
i=1
6.2.4
i (11i 11I ) + e
Estimation
ni
1 X
yij
ni
i=1
Les coefficients i sont estims par les moyennes y i. des observations dans les cellules :
PI
j=1 yij
bi (y) = y i. =
ni
On les appelle les effets principaux des facteurs. Leur variance est estime par :
V ar(b
i ) =
Pn
2
ni
i=1 y i.
bi = yi. y ..
= y .. ;
I
Les valeurs ajustes ybij dans la cellule i sont constantes et sont gales aux moyennes y i. des
observations dans la cellule i :
ybij = y i.
Pour les deux autres paramtrisations :
b(y) =
6.2.5
ebij = yij y i.
c2 (y) =
Proprits
P P
i
j (yij
y i. )2
nI
3. La moyenne des valeurs ajustes est gale la moyenne des valeurs observes : yb = y
b) = 0
4. cov(b
e, y
5. var(y) = var(b
y) + var(b
e)
var(b
y) =
1X
ni (y i. y)2
n
i=1
Cest la variance des moyennes par cellule, pondres pour les poids des cellules ni /n.
On appelle variance intra-groupe, ou variance rsiduelle, la quantit var(b
e), qui scrit
encore :
I ni
I
1 XX
1X
(yij y i. )2 =
ni V ari (y)
var(b
e) =
n
n
i=1 j=1
i=1
o V ari (y) est la variance des valeurs observes dans le niveau i : V ari (y) =
ni
1 X
(yij yi. )2
ni
j=1
var(b
e) est donc la moyenne des variances des observations dans les cellules.
La relation var(y) = var(b
y) + var(b
e) scrit ici
Variance totale = variance inter + variance intra
yij = y i. i, j = 1, . . . , ni
y est constante dans chaque cellule
R2 = 0 var(b
y) = 0 yi. = y i = 1, . . . , I,
La moyenne de y est la mme dans chaque cellule
6.2.6
Dans le cadre gnral du modle gaussien, on a montr que les estimateurs des paramtres du
modle sont distribus selon une loi gaussienne. Cette proprit peut sappliquer au modle un
facteur pour lequel on a pos lhypothse de normalit des rsidus.
On a montr prcdemment que :
E(b
i ) = i et V ar(b
i ) =
do on dduit :
bi N (i ;
2
ni
2
)
ni
bi (y) t(nI),(1/2)
IC1 (i ) =
c
2
(y)
ni
On veut tudier leffet du facteur sur la variable y en posant lhypothse dgalit de tous les
paramtres du modle :
H0 : 1 = 2 = ... = I = i i = 0
vs H1 : (i, i ) tel que i 6= i
Sous H0 , tous les paramtres i sont gaux et le modle scrit :
yij = 0 + eij avec
b0 (y) = y =
1 XX
yij
n
i
F (I 1, n I)
Fcal = P P
2
I 1
SSR
I 1
i
j (yij y i. )
o SSL est la somme des carrs inter-groupes et SSR est la somme des carrs intra-groupes.
Toutes ces estimations peuvent tre prsentes sous la forme dun tableau danalyse de la variance
un facteur :
Source
ddl
Facteur
I 1
Rsiduel n I
Total
6.2.7
n1
ni (y i. y)2 = SSL
ni
I X
X
(yij y i. )2 = SSR
i=1 j=1
ni
I X
X
i=1 j=1
Fcal
SSL
= M SL
I 1
M SL
c2 (y)
SSR
c2 (y)
=
nI
F1
F1 (I 1, n I)
Si on rejette lhypothse dgalit de tous les paramtres i avec le test prcdent, on conclut
quau moins deux paramtres i et i sont diffrents. On peut donc chercher identifier les
couples (i, i ) pour lesquels i 6= i . Il y a donc I(I 1)/2 comparaisons possibles. Pour identifier
ces couples, il est possible de tester les hypothses i i = 0 avec un test de Student tel que le
Les couples pour lesquels 0 nappartient pas lintervalle de confiance sont ceux pour lesquels
i 6= i . La scurit conjointe de ces intervalles est au moins gale 1 .
Dans le cas particulier o le facteur est compos de deux niveaux, le problme se rsume la
comparaison de deux moyennes 1 et 2 de deux distributions gaussiennes de mme variance. Le
test de comparaison de 1 et 2 est un test de Student bas sur la statistique :
Tcal = r
|y 1. y2. |
Student(n 2)
1 c2
1
( + ) (y)
n1 n2
2
c2 (y) =
avec
1 XX
(yij y i. )2
n2
i=1 j=1
Lorsque lhypothse de normalit des distributions nest pas raliste, mais que lon peut accepter
que les deux distributions sont identiques un paramtre de position prs , on peut utiliser le test
des rangs pour comparer 0 : le test de Wilcoxon pour le cas de deux chantillons indpendants,
le test de Mann-Whitney pour le cas de donnes apparis. Le test de Kruskall-Wallis est une
gnralisation du test de Wilcoxon dans le cas de plusieurs chantillons (cest--dire dun facteur
plus de deux niveaux).
6.3
6.3.1
On appelle cellule une case du tableau, facteur ligne le facteur qui dfinit les lignes du tableau,
facteur colonne celui qui dfinit les colonnes du tableau. De plus, on note par :
i = 1, . . . , I
les indices des niveaux du facteurs ligne
(le facteur ligne a I niveaux),
j = 1, . . . , J
les indices des niveaux du facteurs colonne
(le facteur colonne a J niveaux),
nij
le nombre dobservations pour le niveau i du facteur ligne
et pour le niveau j du facteur colonne
(on dit encore nombre dobservations dans la cellule (i, j),
l = 1, . . . , nij les indices des observations dans la cellule (i, j),
yijl
la l-ime observation dans la cellule (i, j),
y ij.
la moyenne des
P observations dans la cellule (i, j),
(yij. = 1/nij l yijl ).
6.3.2
Le modle
6.3.3
La paramtrisation centre
Cette premire paramtrisation dcompose ij par rapport un effet moyen gnral. On dfinit
ainsi les nouveaux paramtres qui interviennent dans cette dcomposition :
1 XX
ij = .. = effet moyen gnral,
IJ
i
j
1X
ij = effet moyen du niveau i du facteur ligne,
i. =
J
L
i
.j =
1X
ij = effet moyen du niveau j du facteur colonne,
I
i
C
j
6.3.4
nij
1 X
2
ij est estim par
bij (y) =
)
yijl = yij. avec
bij N (ij ,
nij
nij
l=1
bi. = y i..
On en dduit
J
I
I
J
X
1X
1 XX
b.j = y .j. = 1
=
y ij. ,
y ij. et
b = y ... =
y ij.
J
I
IJ
j=1
i=1
i=1 j=1
X
X
X
1
1
nij
(b
eijl )2 =
(yijl y ij. )2 avec n =
n IJ
n IJ
ijk
ij
ijk
L
i ,
C
j
SSL =
J
I X
X
i=1 j=1
SSR =
J
I X
X
V arij (y) =
i=1 j=1
6.3.5
nij
1 X
(yijl )2 (y ij. )2
nij
l=1
Le diagramme dinteractions
Le diagramme dintractions permet de visualiser graphiquement la prsence ou labsence dintractions. Pour chaque j fix, on reprsente dans un repre othogonal les points (i, j) de coordonnes
(i, ij ), et on trace les segments joignant les couples de points ((i 1), j), (i, j). On obtient ainsi
pour chaque j fix une ligne brise.
ij
i=1
6.3.6
Tests dhypothses
o SSRl,c est la somme des carrs des rsidus du modle additif, SSR est la somme des carrs
des rsidus du modle complet et SSI la somme des carrs corrigs de leffet dinteraction entre
les deux facteurs.
Tester lhypothse dabsence deffet du facteur ligne est intressant si le test prcdent
a permis de montrer labsence dinteractions. En effet, si les termes dinteractions sont introduits
dans le modle, les facteurs qui constituent cette interaction doivent galement apparatre dans
le modle. Cette remarque est galement valable pour lhypothse dabsence deffet du facteur
colonne. Pour tudier leffet du facteur ligne, on pose lhypothse H0L ce qui revient comparer
le modle additif ( I + J 1 paramtres)
C
yijl = + L
i + j + eijl
o SSRC est la somme des carrs des rsidus du modle un facteur (le facteur colonne) et
SSRL,C est la somme des carrs des rsidus du modle additif ( deux facteurs sans interaction).
Pour tudier leffet du facteur colonne, on compare le modle deux facteurs sans interaction
au modle un facteur ( I paramtres) :
yijl = + L
i + eijl
et on teste lhypothse dabsence deffet du facteur colonne H0C partir de la statistique :
Fcal =
o SSRL,C est la somme des carrs des rsidus du modle additif et SSRL est la somme des
carrs des rsidus du modle un facteur (le facteur ligne).
6.3.7
Dans le cas du modle deux facteurs croiss, la variance inter-cellule (explique par le modle)
peur tre dcompose en une variance explique par le premier facteur, une variance explique
par le second facteur et par une variance explique par les interactions entre les deux facteurs.
Dans le cas dun plan quilibr deux facteurs (o (i, j), nij = n0 ), on dfinit les quantits
suivantes :
SS1, la somme des carrs corrigs de leffet diffrentiel du premier facteur (Ligne) :
SS1 = n0 J
I
I
X
X
2
(y i.. y ... )2 = n0 J
(b
L
i )
i=1
i=1
SS2, la somme des carrs corrigs de leffet diffrentiel du second facteur (Colonne) :
SS2 = n0 I
J
X
j=1
J
X
2
(y .j. y ... ) = n0 I
(b
C
j )
2
j=1
SSI, la somme des carrs corrigs de leffet dinteraction entre les deux facteurs :
SSI = n0
I X
J
I X
J
X
X
(b
ij )2
(y ij. y i.. y .j. + y ... )2 = n0
i=1 j=1
i=1 j=1
ddl
Somme
des Carrs
Moyenne
des Carrs
Fcal
F1
Ligne
I 1
SS1
SS1
= M S1
I 1
M S1
c
2 (y)
F1 (I 1, n IJ)
Colonne
J 1
SS2
SS2
= M S2
J 1
M S2
c2 (y)
F1 (J 1, n IJ)
Interaction
(I 1)(J 1)
SSI
SSI
= M SI
(I 1)(J 1)
M SI
c2 (y)
Rsiduel
n IJ
SSR
SSR
c2 (y)
=
n IJ
Total
n1
SST
Chapitre 7
Analyse de covariance
7.1
Les donnes
Ces donnes peuvent tre reprsentes conjointement sur un mme graphique permettant de
visualiser la relation ventuelle entre y, x et T . Il sagit de tracer un nuage de points de coordonnes
(xij , yij ), o tous les points du niveau j (j=1,...,J) sont reprsents par le mme symbole.
7.2
Le modle
Le modle est explicit dans le cas simple o une variable quantitative Y est explique par une
variable qualitative T J niveaux et une variable quantitative, appele covariable X. Le modle
scrit :
yij = 0j + 1j xij + eij
avec i = 1, ..., nj et j = 1, ...J.
Cela revient estimer une droite de rgression linaire de Y sur X pour chaque niveau j du
facteur T . Pour le niveau j, on estime les paramtres 0j , constante lorigine de la droite de
rgression, et 1j , pente de la droite de rgression.
7.3
La seconde paramtrisation
Comme pour les modles factoriels, SAS opre une reparamtrisation faisant apparatre des effets
diffrentiels par rapport un niveau de rfrence, en gnral le dernier niveau du facteur. Le
modle associ cette nouvelle paramtrisation scrit :
yij = 0J + (0j 0J ) +1J xij + (1j 1J ) xij + eij avec i = 1, ..., nj et j = 1, ...J 1.
{z
}
{z
}
|
|
0j
1j
Le dernier niveau est considr comme le niveau de rfrence caractris par 0J et 1J . Les
autres paramtres 0j et 1j reprsentent respectivement, pour chaque niveau j, lcart entre les
35
constantes lorigine des niveaux j et J, et lcart entre les pentes de rgression des niveaux j et J.
Cette paramtrisation permet de faire apparatre :
un effet dinteraction entre la covariable X et le facteur T (1j ) ;
un effet diffrentiel du facteur T sur la variable Y (0j ) ;
un effet diffrentiel de la covariable X sur la variable Y (1 J).
7.4
Tests dhypothses
Comme pour le modle factoriel, il est important de suivre une dmarche logique dans la mise
en place des tests dhypothses. La premire tape doit consister tester lhypothse de noninteraction entre le facteur T et la covariable X :
H0i : 11 = 12 = ... = 1J 11 = 12 = ... = 1J1 = 0
en comparant le modle dit complet :
yij = 0J + 0j + 1J xij + 1j xij + eij avec i = 1, ..., nj et j = 1, ...J 1.
au modle sans interaction :
(i) yij = 0J + 0j + 1J xij + eij
Si on rejette cette hypothse, on conclut la prsence dinteractions dans le modle. Il est alors
inutile de tester labsence deffet du facteur T ou de la covariable X sur Y , car toute variable
constituant une interaction doit appatre dans le modle.
En revanche, si ce premier test montre que lhypothse H0i est vraisemblable et quil nexiste pas
dinteraction entre T et X (les J droites de rgression partagent la mme pente de rgression),
on peut alors valuer leffet de la covariable X sur Y et celui du facteur T sur Y .
On peut tester deux hypothses en comparant le modle sans interaction :
yij = 0J + 0j + 1J xij + eij avec i = 1, ..., nj et j = 1, ...J 1.
chacun des modles rduits suivants :
(ii) yij = 0J + 0j + eij
correspondant lhypothse dabsence deffet de la covariable X sur Y
H0ii : 11 = 12 = ... = 1J = 0
Seul le facteur T explique Y , on met en place un modle un facteur.
(iii) yij = 0J + 1J xij + eij
correspondant lhypothse dabsence deffet du facteur T sur Y
H0iii : 01 = 02 = ... = 0J 01 = 02 = ... = 0J1 = 0
Les J droites de rgression partagent la mme constante lorigine, seule la covariable X
explique Y : on met en place un modle de rgression linaire simple.
Ces diffrentes hypothses sont testes en comparant le modle complet au modle rduit par la
statistique de Fisher-Sndcor :
Fcal =
o :
Chapitre 8
Gnralits
Dfinition : Une unit statistique est un individu ou objet sur lequel on effectue des mesures
ou observations. Les units statistiques sont numrotes de 1 n ; on note I = {1, . . . , n} cet
ensemble dindices.
Lensemble des individus pourra tre un chantillon (une partie) dune population plus grande.
Sous des hypothses fondes sur la thorie du calcul des probabilits, il sera possible de dduire
dobservations sur lchantillon des conclusions applicables lensemble de la population. Cest
lobjet de la statistique infrentielle. On parlera alors de variable alatoire, et une valeur observe
sera appele une ralisation de la variable alatoire.
Lensemble des observations pourra aussi concerner toute la population. On parle alors de donnes
exhaustives. Dans ce cas, et mme dans le cas dobservations partielles, on peut avoir comme seul
objectif de dcrire les donnes observes, sans chercher tablir de loi valable pour des cas non
observs. Cest le but de la statistique descriptive.
Dfinition : On appelle variable statistique (ou simplement variable) un ensemble de n observations de mme type effectues sur les n individus.
Typologie des variables statistiques
On dit quune variable est quantitative quand elle prend ses valeurs dans lensemble des rels.
Si elle prend ses valeurs dans un ensemble dont le nombre dlments est fini, on dit quelle
est qualitative (on dit aussi catgorielle ou nominale). Pour ce type de variable, dans le cadre du
modle linaire, on parle de facteurs. Lensemble des valeurs dune variable qualitative est appel
lensemble des modalits de la variable ; pour un facteur, on parle de lensemble des niveaux du
facteur. Si lensemble des modalits possde une structure dordre, on parle de variable ordinale
ou qualitative ordonne.
Notations des variables quantitatives
On note yi lobservation relative lindividu i. La variable quantitative y est identifie au vecteur
de IRn de coordonnes yi . Tous les vecteurs sont par convention reprsents en colonne et not en
caractres latin minuscule gras. Un scalaire est dsign par un caractre grec (ou latin) ordinaire,
une matrice par une lettre majuscule. On note donc dans la suite :
y1
...
IRn
y=
y
i
...
yn
38
une variable observe sur les n individus. On parlera aussi du vecteur des observations. Lorsquil
y a plusieurs variables, elles sont indices par j (j = 1, . . . , p, indice plac en haut), et on note yj
la j-me variable. Ainsi pour p variables :
j
1
p
y1
y1
y1
...
...
1
. .p.
j
1
p
j
y = yi , . . . y = yi , . . . y = yi
.
...
...
...
1
j
yn
ynp
yn
8.2
8.2.1
y =
1X
yi
n
i=1
Proprit : Lapplication qui une variable y de IRn associe sa moyenne empirique est une
forme linaire sur IRn (application linaire de IRn dans IR).
Dfinition :
Une variable de moyenne nulle est dite centre ;
soit 1n le vecteur de IRn dont toutes les coordonnes sont gales 1, alors :
y1 y
..
yi y = y y1n
..
.
yn y
est appele variable centre de y . Ses valeurs sont les carts la moyenne de la variable y.
8.2.2
La covariance empirique
i=1
i=1
1X
1X
(yi y)(zi z) =
yi zi yz.
cov(y, z) =
n
n
Proprit : La covariance empirique possde les proprits suivantes :
cov(y, z) = cov(z,
P y) P
cov(y, z) = 2n1 2 ni=1 i I (yi yi )(zi zi )
La covariance est une forme bilinaire :
linarit droite : pour tous rels , , pour toutes variables z et t :
cov(y, z + t) = cov(y, z) + cov(y, t),
linarit gauche : sobtient de la mme manire par permutation.
La covariance dune variable avec une constante est nulle.
8.2.3
i=1
i=1
1X
1X 2
(yi y)2 =
yi y2
n
n
var(y).
Dfinition : On appelle variable centre rduite associe y la variable z = (zi )ni=1 telle que :
zi =
(yi y)
y
8.2.4
cov(y1 , y2 )
var(y1 )var(y2 )
8.2.5
< x, x >=
1X
xi xi ,
n
i=1
et on
1.0
r= -0.995
1.0
r= 0.056
1.0
r= 0.997
z2
0.0
-0.5
0.0
z1
0.5
1.0
-0.5
0.5
1.0
-1.0
1.0
-0.5
0.5
1.0
0.0
z1
0.5
1.0
0.5
z2
0.0
0.5
1.0
r= 0.985
z2
0.0
0.5
-0.5
-1.0
-0.5
0.0
z1
0.5
1.0
-1.0
-0.5
-0.5
-1.0
r= -0.943
1.0
1.0
0.0
z1
-1.0
-1.0
-1.0
-1.0
-1.0
0.5
z2
0.0
-0.5
r= 0.794
-1.0
-0.5
-0.5
z2
0.0
z2
0.0
z2
0.0
-0.5
0.0
z1
1.0
1.0
-0.5
0.5
r= 0.121
-1.0
0.0
z1
-1.0
-0.5
r= -0.155
0.5
0.5
0.0
z1
1.0
1.0
r= 0.895
-1.0
-1.0
0.5
-1.0
-1.0
-1.0
-0.5
-0.5
z2
0.0
z2
0.0
-0.5
0.5
0.5
0.5
-0.5
0.0
z1
0.5
1.0
-1.0
-0.5
0.0
z1
0.5
1.0
Fig. 8.1 Coefficient de corrlation linaire empirique dans diffrents cas de figures
var(y) = ky y1n k2 = kxk2 ;
cov(y1 , y2 ) =< y1 y1 1n , y2 y2 1n >=< x1 , x2 > ;
< x1 , x2 >
< y1 y1 1n , y2 y2 1n >
=
= cov(x1 , x2 )
r(y1 , y2 ) =
1 kkx2 k
1
1
2
2
kx
ky y 1n kky y 1n k
8.2.6
Expressions matricielles
Soit p variables quantitatives {yj , j = 1, . . . , p} o yj est le vecteur colonne de IRn dlments yij .
Enfin Y et X sont les matrices n p de colonnes yj et xj respectivement.
Dfinition : La matrice n p contenant les variables yj en colonne est appele tableau de
donnes ; la matrice X, contenant en colonne les variables centres, est le tableau centr.
Dfinition : La matrice dfinie par jk = cov(yj , yk ) est appele matrice de variancecovariance empirique des variables y1 , . . . , yp .
On a comme expressions matricielles :
yj = n1 (yj ) 1n = n1 1n yj ;
cov(yj , yk ) = n1 (yj yj 1n ) (yk yk 1n ) = n1 (xj ) xk
var(yj ) = n1 (yj yj 1n ) (yj yj 1n ) = n1 (xj ) xj
= n1 X X
P
j
Soit a = (aj )jJ et b = (bj )jJ deux vecteurs de IRp . Alors Y a =
jJ aj y , Y b =
P
P
P
k
j
k
kJ bk y et cov( jJ aj y ,
kJ bk y ) = a b
Proprit : La matrice est symtrique ( = ) et positive (pour tout vecteur u de IRp ,
u u > 0).
R = X DX. De plus, cette matrice est un rsum de lensemble des liaisons entre les variables deux
deux. On peut comparer la matrice de corrlation la matrice des diagrammmes de dispersion.
8.3
8.3.1
Dfinition :
Une v.a. V est distribue normalement de moyenne et de variance 2 , note N (, 2 ), si sa
densit est dfinie par :
1
(v )2
f (v) = exp
; v IR
2 2
2
Si a et b sont deux scalaires, aV + b est distribue selon une loi Normale N (a + b, a2 2 ).
Dfinition :
Une v.a. Z est distribue selon une loi Normale centre rduite si elle est dfinie comme :
Z=
et sa densit est :
V
N (0, 1)
z2
1
f (z) = exp( )
2
2
Proprits :
E(Z 3 ) = 0 et E(Z 4 ) = 3.
De plus, un avantage est que cette loi est tabule.
Les variables normales possdent la proprit dadditivit :
La somme de deux variables X1 et X2 indpendantes suivant
p des lois normales N (m1 , 1 )
et N (m2 , 2 ) respectivement, est une variable N (m1 + m2 , 12 + 22 ).
Cependant, toute combinaison linaire de p variables normales non indpendantes est
normale condition que le vecteur des p variables normales suive une loi normale p
dimensions.
8.3.2
La distribution n-Normale Nn (, )
Dfinition :
Soit V = (V1 , V2 , ..., Vn ) un n-uplet, V est distribue selon une loi n-Normale Nn (, ) o IRn
et est une matrice (n, n) dfinie positive, si sa densit f est dfinie par
f (v) =
(v ) 1 (v )
1
exp(
)
2
(2)n/2 det()
Proprits :
est la matrice de variance-covariance de V de dimension (n, n) :
Si V = (V1 , V2 , ..., Vn ) alors jk = cov(Vj , Vk ).
Si = diag(1 , 2 , ..., n ), V1 , V2 , ..., Vn sont indpendantes.
Si V1 N (1 , 12 ), V2 N (2 , 22 ), et V1 et V2 indpendantes alors
2
V1
1 0
1
N2
, =
V2
2
0 22
Cette proprit reste vraie en n dimensions : Si V Nn (, 2 In ), dans toute base
orthonorme de IRn , les composantes de V V1 , V2 , ..., Vn sont indpendantes, gaussiennes,
de variance 2 et E(Vi ) est la i-me composante de dans cette base.
V1
ne suit pas en gnral une loi Binormale.
V2
Si V est Nn (, ) et si A est une matrice (m, n) de rang m, alors
Si V1 et V2 ne sont pas indpendantes,
AV Nm (A, AA )
La distribution marginale de chaque composante du vecteur V est une loi Normale.
La distribution de 2
8.3.3
Dfinition :
La distribution du 2 est la distribution de la somme des carrs de m v.a. gaussiennes centres,
rduites et indpendantes :
2 =
m
X
i=1
E(Vi4 )
Vi2 2m
v 2 exp( 2 )
si v > 0
m
m
f (v) =
2 (
2
)
2
0
si v < 0
Proprits :
8.3.4
i=1
La distribution de Student
Dfinition :
La distribution de Student est la distribution de la v.a. T dfinie par :
T =p
V1
Student(m)
V2 /m
Son degr de libert est m. Sa densit est symtrique par rapport 0 et est dfinie par :
f (v) =
La moyenne est 0 et la variance
(1 +
v2 m+1
1 m
2 ( ,
m)
2 2) m
m
pour m > 3.
m2
8.3.5
La distribution de Fisher-Sndcor
Dfinition :
La distribution de Fisher-Sndcor est la distribution de la v.a. F dfinie par :
F =
V1 m2
F (m1 , m2 )
V2 m1
N (0, 1)
p
V2 /m2
!2
8.4
Soit X une variable alatoire de loi P o dsigne un paramtre inconnu estimer. Lobjectif
de la statistique infrentielle est de produire une infrence sur (estimation ou test) sur la base
dun chantillon de n observations (x1 , ..., xi , ..., xn ) o xi est la ralisation de Xi ; les Xi tant
supposs en gnral i.i.d. (cest dire indpendants et identiquement distribus) de loi P . Dans
cette section, dsigne un paramtre rel, valeurs dans IR.
8.4.1
Estimateur et estimation
On appelle estimateur de toute fonction des Xi valeurs dans . Un estimateur de est souvent
not bn . La premire qualit dun estimateur est dtre convergent : ce qui signifie que bn converge
(en probabilit) vers quand n . Il est galement souhaitable dutiliser des estimateurs sans
biais, cest dire tels que E(bn ) = . Si bn est not Tn (X1 , . . . , Xn ) alors Tn (x1 , . . . , xn ) sappelle
une estimation ponctuelle de . Il est important de raliser quune estimation de est une grandeur
numrique alors quun estimateur de est une variable alatoire.
Dfinition dun intervalle de confiance
On appelle intervalle de confiance dun paramtre associ un n-chantillon (X1 , X2 , ..., Xn ), un
intervalle I = [A, B] dont les bornes A et B sont des fonctions des Xi , et tel que P (I ) = 1 ;
1 sappelle le niveau de confiance de lintervalle de confiance. Il est important de noter que I
est un intervalle alatoire au sens o les bornes A et B sont alatoires.
8.4.2
La thorie des tests paramtriques consiste formuler des hypothses particulires sur le paramtre
de la loi P ; puis apporter un jugement sur ces hypothses (plus particulirement, trancher
entre deux hypothses). Ce jugement est bas, dune part, sur les rsultats obtenus sur un ou
plusieurs chantillons extraits de la population tudie et dautre part, sur lacceptation dun
certain risque dans la prise de dcision. A titre indicatif, les tests peuvent tre classs en diffrentes
catgories :
test sur une hypothse relative la valeur particulire dun paramtre,
test de conformit de deux distributions ou test dajustement entre une distribution
thorique et une distribution exprimentale,
test de comparaison de deux populations,
test dindpendance de deux caractres dans un tableau de contingence.
Formulation des hypothses
On veut tester une hypothse, que lon appelera hypothse nulle note H0 savoir :
H0 : = 0
contre une hypothse alternative note H1 . Cette hypothse H1 peut se formuler de diffrentes
faons :
6= 0 ou > 0 ou < 0 ou = 1 .
La dcision (cad : choisir soit H0 , soit H1 ) se faisant sur la base des observations x1 , . . . , xn .
H1 (W )
1
Comme indiqu prcdemment, lhypothse alternative H1 peut se formuler de diffrentes faons.
On peut visualiser ces diffrentes hypothses H1 et montrer ainsi la forme de la rgion critique :
Test unilatral droite
H0 : = 0
H1 : > 0
Test bilatral
H0 : = 0
H1 : 6= 0
Dmarche de construction dun test
Pour laborer un test statistique portant sur , il faut suivre la dmarche suivante :
1. Formuler de faon prcise lhypothse nulle H0 et lhypothse alternative H1 .
2. Fixer, avant lexprience, le risque de premire espce , cest--dire le risque de rejeter
tort lhypothse nulle alors quelle est vraie.
3. Prciser les conditions dapplication du test : forme de la loi de probabilit de lestimateur
du paramtre dintrt, taille de lchantillon, variance connue ou inconnue, ....
4. Choisir une statistique de test, cest--dire une fonction de (X1 , ...Xn ) gale Tn ou
intimement lie Tn , et donner sa loi de probabilit sous les hypothses nulle et alternative.
5. Dterminer la rgion critique ou rgion de rejet de lhypothse nulle H0 compte tenu de H1
et en dduire la rgle de dcision.
W : rgion critique conduisant au rejet de H0 : P (W/H0 ) =
W : rgion de non-rejet (ou dacceptation) de H0 : P (W /H0 ) = 1