You are on page 1of 50

M1 IMAT, Anne 2009-2010

MODELES LINEAIRES

C.Chouquet
Laboratoire de Statistique et Probabilits - Universit Paul Sabatier - Toulouse

Table des matires


1 Prambule
1.1 Dmarche statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Un exemple introductif pour la modlisation linaire dune variable quantitative .
1.2.1 Description de la population dtude . . . . . . . . . . . . . . . . . . . . .
1.2.2 Relation entre variables quantitatives . . . . . . . . . . . . . . . . . . . . .
1.2.3 Relation entre variable quantitative et variables qualitatives . . . . . . . .
1.2.4 Modlisation dune variable quantitative en fonction de variables quantitatives et qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.

1
1
2
2
3
4

2 Prsentation du modle linaire gaussien


2.1 Le modle linaire . . . . . . . . . . . . .
2.2 Le modle linaire gaussien . . . . . . . .
2.2.1 Ecriture gnrale . . . . . . . . . .
2.2.2 Le modle de rgression linaire . .
2.2.3 Le modle factoriel . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

6
6
7
7
8
8

3 Estimation
3.1 Mthodes destimation . . . . . . . . . . . . . .
3.1.1 Principe des moindres carrs . . . . . .
3.1.2 Principe du Maximum de Vraisemblance
3.2 Estimation de . . . . . . . . . . . . . . . . . .
3.3 Valeurs ajustes et rsidus calculs . . . . . . .
3.4 Estimation de 2 . . . . . . . . . . . . . . . . .
3.5 Erreurs standard de bj , ybi , ebi . . . . . . . . . .
3.6 Construction de lintervalle de confiance de j .
3.7 Dcomposition de la variance . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

9
9
9
9
10
10
10
11
12
12

4 Test de Fisher
4.1 Hypothse teste . . . . . . . . . . . . . .
4.1.1 Principe . . . . . . . . . . . . . . .
4.1.2 Calculs sous H0 . . . . . . . . . . .
4.2 Le test de Fisher-Sndcor . . . . . . . . .
4.2.1 Principe . . . . . . . . . . . . . . .
4.2.2 La statistique de test . . . . . . . .
4.2.3 Fonctionnement du test . . . . . .
4.3 Cas particulier o q=1 : le test de Student
5 La Rgression linaire
5.1 Introduction . . . . . . . . . . . . . . .
5.1.1 La problmatique . . . . . . . .
5.1.2 Le modle de rgression linaire
5.1.3 Le modle de rgression linaire
5.2 Estimation . . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

13
13
13
13
13
13
14
14
15

. . . . .
. . . . .
simple .
multiple
. . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

16
16
16
16
17
17

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

17
18
18
19
20
20
20
20
21
22
22
22
23
23
23
24

6 Lanalyse de variance
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Lanalyse de variance un facteur . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.3 Paramtrage centr . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.5 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.6 Intervalles de confiance et tests dhypothses sur leffet facteur . . .
6.2.7 Comparaisons multiples : Mthode de Bonferroni . . . . . . . . . . .
6.3 Analyse de variance deux facteurs croiss . . . . . . . . . . . . . . . . . .
6.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.2 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.3 La paramtrisation centre . . . . . . . . . . . . . . . . . . . . . . .
6.3.4 Estimations des paramtres . . . . . . . . . . . . . . . . . . . . . . .
6.3.5 Le diagramme dinteractions . . . . . . . . . . . . . . . . . . . . . . .
6.3.6 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3.7 Tableau danalyse de la variance deux facteurs croiss dans le cas
plan quilibr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
dun
. . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

26
26
26
26
26
27
27
28
29
29
30
30
30
31
31
32
32

7 Analyse de covariance
7.1 Les donnes . . . . . . . . .
7.2 Le modle . . . . . . . . . .
7.3 La seconde paramtrisation
7.4 Tests dhypothses . . . . .

5.3

5.4

5.5

5.2.1 Rsultats gnraux . . . . . . . . . . . . . . . . .


5.2.2 Proprits . . . . . . . . . . . . . . . . . . . . . .
5.2.3 Le coefficient R2 . . . . . . . . . . . . . . . . . .
5.2.4 Augmentation mcanique du R2 . . . . . . . . .
Tests et Intervalles de confiance . . . . . . . . . . . . . .
5.3.1 Test de nullit dun paramtre du modle . . . .
5.3.2 Test de nullit de quelques paramtres du modle
5.3.3 Test de nullit de tous les paramtres du modle
5.3.4 Intervalle de confiance de j , de Y i et de Y 0 . . .
5.3.5 Intervalle de prdiction . . . . . . . . . . . . . . .
Slection des variables explicatives . . . . . . . . . . . .
5.4.1 Les critres . . . . . . . . . . . . . . . . . . . . .
5.4.2 Les mthodes de slection . . . . . . . . . . . . .
Validation du modle . . . . . . . . . . . . . . . . . . . .
5.5.1 Contrle de lajustement du modle . . . . . . .
5.5.2 Etude des colinarits des variables explicatives .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

. 34

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

35
35
35
35
36

8 Quelques rappels de Statistique et de Probabilits


8.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Indicateurs statistiques pour variables quantitatives . . . . . . . .
8.2.1 Moyenne empirique dune variable . . . . . . . . . . . . .
8.2.2 La covariance empirique . . . . . . . . . . . . . . . . . . .
8.2.3 Variance empirique et cart-type empirique . . . . . . . .
8.2.4 Cfficient de corrlation linaire empirique . . . . . . . .
8.2.5 Interprtation gomtrique de quelques indices statistiques
8.2.6 Expressions matricielles . . . . . . . . . . . . . . . . . . .
8.3 Rappels sur quelques lois de probabilit . . . . . . . . . . . . . .
8.3.1 La distribution Normale N (, 2 ) . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

38
38
39
39
39
40
40
40
41
42
42

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

8.4

8.3.2 La distribution n-Normale Nn (, ) . . . . . . . . . . . . . . .


8.3.3 La distribution de 2 . . . . . . . . . . . . . . . . . . . . . . .
8.3.4 La distribution de Student . . . . . . . . . . . . . . . . . . . .
8.3.5 La distribution de Fisher-Sndcor . . . . . . . . . . . . . . .
Rappels de statistique infrentielle . . . . . . . . . . . . . . . . . . .
8.4.1 Estimation ponctuelle, estimation par intervalle de confiance .
8.4.2 Notions gnrales sur la thorie des tests paramtriques . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

42
43
43
44
44
44
44

Chapitre 1

Prambule
1.1

Dmarche statistique
Nombre dindividus,
variables observes
quantitatives/qualitatives

Population tudie

Tableau de frquences,
moyenne, cart-type, mdiane,
Analyse univarie
diagramme en btons,
histogramme, box-plot


Tableau crois, 2 ,
comparaison de moyennes,
coefficient de corrlation,
nuage de points

Analyse bivarie

Synthtiser linformation
issue de plusieurs variables
RRR
pour mieux lexpliquer
RRR
RRR

Analyse multivarie
k
kkk
kkk
k
k
k
kkk
kkk
u kk
k

RRR
RRR
RRR
RRR
RRR
R)

Structurer et simplifier les donnes


issues de plusieurs variables,
sans privilgier lune dentre elles
en particulier

Expliquer une variable laide


de plusieurs autres variables

Une variable
expliquer
quantitative

l
lll
lll
l
l
lll
lll
l
l
lll
lu ll

Une variable
expliquer
qualitative




Analyse de Donnes
Multidimensionnelle
(ACP, AFC, ACM)

Modlisation
Linaire :
Rgression Linaire simple
Rgression Linaire multiple
Analyse de variance
Analyse de covariance
1

Modlisation
non-linaire
(logistique, ...)

1.2

Un exemple introductif pour la modlisation linaire dune


variable quantitative

Pour illustrer la dmarche statistique et les problmatiques auxquelles peuvent rpondre les modles linaires, nous prsentons dans cette partie un exemple simple, mais complet dune analyse
statistique. Cette feuille de bord, constitue de tableaux et de graphiques, a pour objectif de
rappeler les principaux outils de statistique descriptive simple et dintroduire les diffrents types
de modles linaires que nous verrons dans cet enseignement.
Dans une entreprise, on a relev les salaires des 32 employs (mensuel en euros, not sal), ainsi
que certaines caractristiques socio-dmographiques telles que lanciennet dans lentreprise (en
annes, note anc), le nombre dannes dtudes aprs le bac (not apbac), le sexe (1 = F /2 = M ,
not sex), le type demplois occups (en 3 catgories codes de 1 3, not emp). Un extrait des
donnes est prsent ci-dessous :
num

anc

1
2
...
33
34

7
15
...
12
13

sal
1231
1550
...
1539
1587

sex
1
1
...
2
2

apbac
3
3
...
2
2

emp
2
2
...
1
2

Lobjectif principal de cette tude est dvaluer leffet ventuel des caractristiques sociodmographiques sur le salaire des employs.

1.2.1

Description de la population dtude

Les variables sont analyses diffremment selon leur nature : quantitative ou qualitative. Les
variables quantitatives sont rsumes sous forme dindicateurs (moyenne, cart-type, ....), comme
dans le tableau ci-dessous, et sont prsentes graphiquement sous forme dhistogramme et de
botes moustache ou box-plot (Figure 1).
Variable
n Moyenne Ecart-type Mdiane Minimum Maximum
Anciennet
32
10.0
6.1
12
1.0
20.0
Salaire
32 1365.4
308.0
1357
926.0
2024.0
Nombre dannes dtudes 32
2.3
1.5
2.0
0.0
5.0

Fig. 1.1 Box-plot et histogramme reprsentant la distribution des variables quantitatives : le


salaire, lanciennet dans lentreprise et le nombre dannes dtudes aprs le bac

Pour les variables qualitatives, on rsume les donnes sous forme de tableau de frquences (comme
ci-dessous) et on les prsente graphiquement par des diagrammes en btons (Figure 2).
Variable
Sexe

Modalits
Effectif Frquence(%)
Fminin (1)
21
65.6%
Masculin (2)
11
34.4%
Type demplois 1
10
31.3%
2
17
53.1%
3
5
15.6%

Fig. 1.2 Diagramme en btons reprsentant la distribution des variables qualitatives : le sexe
(1=F, 2=M) et le type demplois occups (1, 2 ou 3)

1.2.2

Relation entre variables quantitatives

Etant donn lobjectif de ltude, nous allons nous intresser dans cette partie aux relations entre
le salaire et les autres variables renseignes. L encore, selon la nature des variables, les mthodes
danalyse sont diffrentes.
Pour tudier la relation entre deux variables quantitatives (par exemple, entre le salaire et
lanciennet, et entre le salaire et le nombre danne dtudes), on peut tracer un nuage de points
(Figure 3) et calculer le cfficient de corrlation linaire entre ces deux variables :
Pearson Correlation Coefficients, N = 32
Prob > |r| under H0: Rho=0

sal

anc
0.85559
<.0001

apbac
0.42206
0.0161

Fig. 1.3 Nuage de points reprsentant la relation entre le salaire et les deux autres variables
quantitatives : lanciennet et le nombre dannes aprs le bac

Le nuage de points peut tre rsum par une droite que lon appellera la droite de rgression
linaire simple. Cest le cas le plus simple de modle linaire, qui permet dexpliquer une variable
quantitative en fonction dune autre variable quantitative. Par exemple, la droite de rgression
linaire rsumant la relation entre le salaire et lanciennet a pour quation :
sali =

+
42.9
anci + ei
|934.5
{z }
|{z}
constante lorigine pente du salaire sur lanciennet

La constante lorigine correspond au salaire moyen des employs au moment de lentre dans
lentreprise. La pente reprsente la variation moyenne de salaire par anne danciennet. La pente
gale 42.9 est significativement diffrente de 0, montrant que le salaire et lanciennet sont lis de
faon significative. Il en est de mme pour la rgression linaire du salaire sur le nombre danne
dtudes. Dans cet enseignement, on verra comment estimer les paramtres du modle et tester
leur nullit.
Il peut tre galement intressant de modliser une variable en fonction de plusieurs autres
variables, par un modle de rgression linaire multiple. Par exemple, on peut modliser
le salaire en fonction de lanciennet et du nombre dannes dtudes, ce qui donne lquation
suivante :
sali = 858.9 + 40.2 anci + 45.3 apbaci + ei

1.2.3

Relation entre variable quantitative et variables qualitatives

Il est possible dtudier la relation entre une variable quantitative et une variable qualitative,
par exemple entre le salaire et le sexe, ou entre le salaire et le type demplois. Cette relation est
reprsente graphiquement par des box-plots parallles (Figure 4).

Fig. 1.4 Box-plots parallles reprsentant la relation entre le salaire et les deux variables
qualitatives : le sexe (1=F, 2=M) et le type demplois occups (1, 2 ou 3)
Intuitivement, pour comparer le salaire des hommes et celui des femmes, on va calculer le salaire
moyen -entre autre- pour chaque groupe. De la mme faon pour tudier les diffrences ventuelles
entre les trois types demplois au niveau du salaire, on peut calculer le salaire moyen pour chaque
type demplois.
Statistiquement, on modlise le salaire en fonction du sexe en mettant en uvre un modle
danalyse de variance un facteur qui scrit sous la forme :
sali =

11sexei =1 +
11sexei =2 + ei
|1460.3
{z }
{z }
|1315.7
salaire moyen des femmes
salaire moyen des hommes

Il est galement possible dtudier leffet conjoint du sexe et du type demplois sur le salaire.
Intuitivement, on peut tudier les moyennes par classe, en croisant les deux variables qualitatives,

comme dans le tableau ci-dessous :


Sexe
F
M
Tous sexes confondus
Type demplois
1
1182.3 1111.2
1153.9
2
1312.8 1750.4
1441.5
3
1593.7 1433.0
1529.4
Tous types confondus
1315.7 1460.3
Pour tudier leffet combin du sexe et du type demplois sur le salaire, on met en uvre
un modle danalyse de variance deux facteurs croiss. Ce modle nous permettra
dtudier leffet de chaque facteur (sexe et type demplois) sur le salaire, mais aussi de dtecter
des combinaisons entre le sexe et le type demplois qui donneraient un salaire particulirement
diffrent des autres classes.

1.2.4

Modlisation dune variable quantitative en fonction de variables quantitatives et qualitatives

Sur notre exemple, on peut tenter dexpliquer le salaire selon lanciennet (variable quantitative)
et le sexe (variable qualitative). Dans ce cas, on peut reprsenter deux nuages de points entre
le salaire et lanciennet, lun pour les femmes et lautre pour les hommes, comme le montre la
figure 5.

Fig. 1.5 Nuages de points reprsentant la relation entre le salaire et lanciennet selon le sexe
On peut ainsi comparer leffet de lanciennet sur le salaire, selon le sexe. Cela nous amne
mettre en uvre un modle danalyse de la covariance permettant de modliser le salaire en
fonction de lanciennet et du sexe.

Chapitre 2

Prsentation du modle linaire


gaussien
2.1

Le modle linaire

Dfinition :
On appelle modle linaire un modle statistique qui peut scrire sous la forme
k
X

Y =

j X j + E

j=1

On dfinit les quantits qui interviennent dans ce modle :


Y est une v.a.r. que lon observe et que lon souhaite expliquer et/ou prdire ; on lappelle
variable expliquer ou variable rponse ; on suppose que la variance de Y est constante :
cest ce quon appelle lhypothse dhomoscdasticit.
Les k variables X 1 , ..., X k sont des variables relles ou dichotomiques, non alatoires et
galement observes ; lcriture de ce modle suppose que lensemble des X j est cens
expliquer Y par une relation de cause effet ; les variables X j sont appeles variables
explicatives ou prdicteurs.
Les j (j = 1, ..., k) sont les paramtres du modle, non observs et donc estimer par des
techniques statistiques appropries.
E est le terme derreur dans le modle ; cest une v.a.r. non observe pour laquelle on pose
les hypothses suivantes :
E(E) = 0 ; V ar(E) = 2 > 0
o 2 est un paramtre inconnu, estimer.
Les hypothses poses sur E impliquent les caractristiques suivantes sur Y :
E(Y ) =

k
X

j X j ; V ar(Y ) = 2

j=1

En moyenne, Y scrit donc comme une combinaison linaire des X j : la liaison entre les X j
et Y est de nature linaire. Cest la raison pour laquelle ce modle est appel modle linaire.
Lestimation des paramtres de ce modle est base sur n observations simultanes des variables
X j et Y ralises sur n individus supposs indpendants. Pour la i-me observation, les valeurs
observes des variables sont notes yi , x1i , ..., xki , de sorte que le modle scrit :
yi =

k
X

j xji + ei

j=1

Introduisons maintenant :
y le vecteur de IRn compos des valeurs y1 , ...yn ,
X la matrice (n,k) de rang k, contenant les valeurs observes des k variables explicatives
disposes en colonnes,
le vecteur de IRk contenant les k paramtres du modle,
e le vecteur de IRn des erreurs du modle.
On peut donc crire le modle sous forme matricielle :
y = X + e
Selon la forme de la matrice X, on est dans le cas de la rgression linaire (X est alors compose
de la variable constante 1 et des p variables explicatives) ou dans le cas du modle factoriel (X
est compose des variables indicatrices associes aux niveaux du (ou des) facteur(s)).

2.2

Le modle linaire gaussien

On reprend la dfinition prcdente du modle linaire en ajoutant une hypothse de normalit


des rsidus. Lide sous-jacente rside dans le fait quil existe une vraie valeur inconnue . Quand
on ralise une srie dexpriences, on obtient, comme pour les moyennes, les proportions ou les
b cest--dire une valeur approche de la vraie valeur . Cette estirpartitions, une estimation ,
mation de est diffrente selon les chantillons obtenus. Daprs le Thorme Centrale Limite,
cette estimation tend en moyenne vers la vraie valeur de . b est donc une variable alatoire dont
b la question est de savoir si
on va chercher la distribution. Une fois pose la distribution de ,
lapproximation obtenue est bonne ? Peut-on dterminer un intervalle du type [bj j ; bj + j ]
qui contienne trs probablement (avec un risque derreur petit) la vraie valeur j ?
Lhypothse de normalit des rsidus revient poser que les n composantes e1 , ..., en du vecteur e
sont des observations indpendantes dune variable alatoire E distribue selon une loi N (0, 2 ),
avec 2 inconnu.

2.2.1

Ecriture gnrale

On appelle modle linaire gaussien la donne dun vecteur y de IRn tel que :
y = X + e o

X est une matrice (n, k) de rang k,


est un vecteur inconnu de IRk ,
e est un vecteur de n ralisations indpendantes dune v.a.
normale de moyenne 0 et de variance 2 inconnue.

Cette nouvelle formulation du modle linaire a pour consquences :


e est une ralisation dune variable alatoire E de distribution Nn (0, 2 In ) ; on peut dire
aussi que ei est une observation de la v.a. Ei distribue selon une loi N (0, 2 ) et les n v.a.
relles Ei sont indpendantes.
y est une observation de Y = X + E de distribution Nn (X, 2 In ) : yi est lobservation
de Yi de distribution N ((X)i , 2 ) et ces n variables alatoires sont indpendantes.
En faisant intervenir les v.a. Y et E, le modle linaire gaussien peut aussi scrire sous la forme :
Y = X + E avec E Nn (0, 2 In ) o

Y IRn ,
X M(n,k) , connue, dterministe, de rang k,
IRk , inconnu,
2 IR+ , inconnue.

Il en dcoule la normalit de Y :
Y Nn (X, 2 In )
Lhypothse de normalit des rsidus peut se justifier :
1. par un argument thorique : les rsidus sont caractrisables comme des erreurs de mesure.
Ceux sont une accumulation de petits alas non-matrisables et indpendants. Par exemple,
la mesure du poids dun animal peut tre soumise des fluctuations dues des erreurs de
mesure la pese, ltat de sant de lanimal, son bagage gntique, leffet individuel de
lanimal prendre plus ou moins du poids. Daprs le Thorme Central Limite, si tous ces
effets sont indpendants de mme moyenne nulle et de mme petite variance, leur somme
tend vers une variable Normale. La distribution gaussienne modlise assez bien toutes les
situations o le hasard est la rsultante de plusieurs causes indpendantes les unes des
autres ; les erreurs de mesure suivent gnralement assez bien la loi gaussienne.
2. par un argument pratique : il est facile de contrler si une variable alatoire suit une loi
Normale. En tudiant a posteriori la distribution des rsidus calculs et en la comparant
la distribution thorique (Normale), on constate souvent quelle peut tre considre comme
sapprochant de la loi gaussienne.

2.2.2

Le modle de rgression linaire

On cherche modliser une variable quantitative Y en fonction de variables explicatives quantitatives x1 , x2 , ..., xp . Sous lhypothse gaussienne, le modle de rgression linaire scrit :
yi = 0 + 1 x1i + ... + p xpi + ei
avec 0 , 1 , ..., p inconnus, et e1 , ..., en n observations indpendantes dune loi N (0, 2 ) avec 2
inconnue.

2.2.3

Le modle factoriel

On cherche modliser une variable quantitative Y en fonction dune (ou de plusieurs) variable(s)
explicative(s) qualitative(s) (appele facteur). Sous lhypothse gaussienne, le modle un facteur
scrit :
yij = i + eij
i = 1, ...I ; j = 1, ..., ni
avec 1 , ..., I inconnus, et e11 , ..., eInI n observations indpendantes dune loi N (0, 2 ) avec 2
inconnue.

Chapitre 3

Estimation
est le vecteur des paramtres estimer. Dans le cas gnral que nous tudions dans ce chapitre,
est un vecteurs k composantes : 1 , 2 , ..., k . On note :
Y la variable alatoire expliquer,
y une ralisation de cette v.a. Y ,
la vraie valeur thorique du vecteur des paramtres du modle,
b lestimateur de ,
b
(y)
une ralisation de la v.a. b (ou une estimation de partir des donnes observes).

3.1

3.1.1

Mthodes destimation

Principe des moindres carrs

La mthode des moindres carrs consiste estimer en minimisant la somme des carrs des
rsidus (SSR), telle que
b
((y))
= min

n
n
X
X
2
(yi ybi )2
(b
ei ) = min
i=1

i=1

Le critre des moindres carrs peut scrire aussi de la faon suivante :


2
b 2 = Inf
||b
e||2 = ||y X ||
k ||y X||
IR
Cette mthode destimation ne ncessite pas que lon pose lhypothse de normalit des rsidus.

3.1.2

Principe du Maximum de Vraisemblance

Lestimation par maximum de vraisemblance est base sur la vraisemblance du modle linaire
gaussien :
n
Y
f (yi ; )
L(; y) =
i=1

o f (yi ; ) est la densit de la loi Normale sur Y .

Pour obtenir lestimateur b du maximum de vraisemblance, on maximise sa log-vraisemblance


selon en rsolvant le systme dquations du maximum de vraisemblance :

ln L(1 , ..., k ; y) = 0 pour j = 1, ..., k.


j
b
dont (y)
est solution, sous rserve que la condition de seconde ordre soit vrifie. On pourra
galement obtenir lestimateur du MV de 2 en maximisant la log-vraisemblance selon 2 .
Remarque : Les estimateurs du Maximum de Vraisemblance de sont quivalents aux estimateurs
des Moindres Carrs de . On pourra le montrer dans le cas de la rgression linaire. En revanche,
certaines proprits ne sont possibles que sous lhypothse de normalit des rsidus.
9

3.2

Estimation de

b
Si y est la ralisation de Y , lestimation de , (y),
est lunique lment de IRk tel que
b =y
b.
X (y)

On a donc

b = (X X)1 X y
(y)

b est lobservation de la v.a. b = (X X)1 X Y : b est la transforme de Y par la.l. (X X)1 X .


(y)

Proprits

b est un estimateur sans biais de .

b a pour matrice de variance-covariance b = 2 (X X)1 .


b suit une loi Gaussienne dans IRk .

On peut donc crire que :

3.3

b Nk (; 2 (X X)1 )

Valeurs ajustes et rsidus calculs

Les ybi sappellent les valeurs ajustes ou valeurs prdites par le modle : ybi est une valeur approche de yi . On estime galement les rsidus ebi .
b = X(X X)1 X y
y
b
b
e=yy

b
b = X (y)
y
est le vecteur des valeurs ajustes.
b est lobservation de la v.a. Yb = X(X X)1 X Y avec Yb Nn (X; 2 H).
y
|
{z
}
H

H = X(X X)1 X est appele la matrice chapeau ou Hat Matrix.

b est le vecteur des rsidus calculs.


b
e = yy
b = Y Yb = (In H)Y avec E
b Nn (0; 2 (In H)).
b
e est lobservation de la variable alatoire E
b sont deux v.a. indpendantes ; E
b et b sont deux v.a. indpendantes.
Proprits : Yb et E

3.4

Estimation de 2

On note :
2 la vraie valeur thorique de la variance des rsidus,
c2 lestimateur de 2 ,

c2 (y) la ralisation de la v.a.


c2 (ou une estimation de 2 partir des donnes observes).
et

Dfinition
2 est la variance thorique des rsidus, on lappelle variance rsiduelle. Une autre dfinition de
2 est donne par la variance de Y pour X fix, cest--dire la variance de Y autour de la droite
de rgression thorique. Cette dfinition de 2 suggre que son estimation est calcule partir

b.
des carts entre les valeurs observes y et les valeurs ajustes y
Lestimateur de 2 est :
c2 = 1 ||E||
b 2 = 1 ||Y Yb ||2

nk
nk
Lestimation de 2 est donc

c2 (y) =

1
||y||2 ||b
y||2
1
b ||2 =
||b
e||2 =
||y y
nk
nk
nk

Le dnominateur (n k) provient du fait que lon a estim k paramtres dans le modle.


n
X
2
b (X y).
yi2 et que ||b
y||2 = (y)
Rappelons que : ||y|| =
i=1

Proprits
c2
(n k)

2nk (Somme des carrs de n v.a. N (0, 1) qui vrifient k relations linaires).
2
4
c2 est un estimateur sans biais de 2 et de variance 2 .

nk
c2 sont deux v.a. indpendantes ; b et
c2 sont deux v.a. indpendantes.
Yb et

3.5

Erreurs standard de bj , ybi , b


ei

La matrice de variance-covariance de b note b = 2 (X X)1 est estime par :


c2 (X X)1 .
cb =

c2 (X X)1 .
V ar(bj ) est donc estime par
jj
Lerreur standard de bj (y) note sej est donc :
sej =

c2 (y)(X X)1

jj

c2 (y)(X X)1 est note cov b par


Remarque : Lestimation de la matrice de variance-covariance
SAS.
b
La matrice des corrlations de (y)
a pour lment j,j :
r(bj (y), bj (y)) =

c2 (y)(X X)1

jj
sej sej

=q

(X X)1
jj
1

(X X)1
jj (X X)j j

Remarque : Lestimation de la matrice des corrlations de b est note cor b par SAS.

c2 (y)H.
qV ar(Yb ) = 2 H est estime par
c2 (y)Hii est lerreur standard de ybi .

q
c2 (y)(1 Hii ) est lerreur standard de ebi .

eb
q i
est le rsidu standardis.
c
2
(y)
ebi
q
est le rsidu studentis.
c2 (y)(1 Hii )

3.6

Construction de lintervalle de confiance de j

b on a crit que : b Nk (; 2 (X X)1 ) soit bj N (j ; 2 (X X)1 )


Selon les proprits de ,
jj
c2
bj j
(n k)
La v.a. q
est distribue selon
est distribue selon une loi N (0; 1) et la v.a.
2
2 (X X)1
jj
une loi 2nk .
Ces deux v.a. tant indpendantes, on peut crire que :
s
c2
b
(n k)
j j
bj j
q
/
Student(n k)
T =q
=
(n k) 2
c2 (X X)1
2 (X X)1

jj
jj

Si on note t(1 2 ) est le (1 2 )-quantile de la distribution de Student(n k), lintervalle de


confiance de j de scurit 1 est dfini par :

 h
q
i
c2 (y)(X X)1 = bj (y) t sej
IC1 (j ) = bj (y) t(1 2 )
(1 2 )
jj

3.7

Dcomposition de la variance

La mise en uvre dun modle linaire a pour objectif dexpliquer la variabilit dune variable y
par dautres variables.
On note :

n
X
(yi y)2 = n.V ar(y) la variabilit totale de y,
SST =
i=1

n
X
(b
yi y)2 = n.V ar(b
SSL =
y) la variabilit de y explique par le modle, cest--dire par
i=1

les prdicteurs,
n
X
(b
ei )2 = n.V ar(b
e) la variabilit rsiduelle non explique par le modle.
SSR =
i=1

La variance totale de y admet la dcomposition :

V ar(y) = V ar(b
y ) + V ar(b
e)
soit :
SST = SSL + SSR
On verra par la suite que selon le modle tudi (rgression linaire ou analyse de variance), cette
dcomposition amne des dfinitions spcifiques chaque modle.
Daprs le critre des moindres carrs utilis pour estimer les paramtres, on cherche minimiser
la Somme des Carrs des rsidus SSR, et donc maximimser la Somme des Carrs explique par
le modle SSL.
Pour juger de la qualit dajustement du modle aux donnes, on dfinit le critre R2 qui reprsente
la part de variance de y explique par le modle :
R2 = SSL/SST = V ar(b
y )/V ar(y)

Chapitre 4

Test de Fisher
4.1
4.1.1

Hypothse teste
Principe

On considre un modle linaire gaussien


Y = X + E avec E Nn (0, 2 In )
et on sintresse examiner la nullit de certaines composantes de ou de certaines combinaisons
linaires des composantes de , telles que : j = 0 ; j = k = 0 ou j = k . Ces hypothses
reposent sur la notion de modles embots : deux modles sont dits embots si lun peut tre
considr comme un cas particulier de lautre. Cela revient comparer un modle de rfrence
un modle rduit ou contraint.
Pour spcifier la nullit de certaines composantes de , on introduit la matrice Q dordre (q, k) o
k est le nombre de paramtres dans le modle de rfrence et q le nombre de contraintes linaires
testes (1 6 q 6 k) telle que :
H0 : Q M(q,k) | Q = 0
Par exemple, supposons un modle k = 3 paramtres
Tester lhypothse H0 : 2 = 0 revient poser Q
H0 : 1 = 2 <=> Q = 0 avec Q = (0 1 1) ou
0 1
H0 : 1 = 2 = 0 <=> Q = 0 avec Q =
0 0

4.1.2

= 0 avec Q = (0 0 1), q = 1.
Q
= (0 1 1), q = 1.
0
, q = 2.
1

Calculs sous H0

Lhypothse nulle tant dfinie, on a donc pos un modle contraint que lon va estimer en supposant H0 vraie.
On a not b lestimateur de correspondant au modle de rfrence. On note b0 lestimateur de
b0 et les rsidus
sous H0 , pour le modle contraint. On peut obtenir, sous H0 , les valeurs prdites y
estims b
e0 . Le test de Fisher consiste comparer les estimations du modle de rfrence et celles
sous H0 .

4.2
4.2.1

Le test de Fisher-Sndcor
Principe

Le test de Fisher-Sndcor ou test de Fisher est la rgle de dcision qui permet de dcider si on
rejette ou ne rejette pas H0 : Q = 0 :

13

Rejeter H0 , cest dcider que Q 6= 0, cest--dire que certaines composantes de Q ne sont


pas nulles.
Ne pas rejeter H0 , cest ne pas exclure que toutes les composantes de Q sont nulles.
On suppose que H0 est vraie, cest--dire que Q = 0. On r-estime par b0 caractrisant le
b0 et le vecteur des rsidus est
modle contraint (not M0 ). Le vecteur des valeurs ajustes est y
b
b0 .
e0 = y y

4.2.2

La statistique de test

On utilise la statistique de test suivante :


Fcal =

(||b
e0 ||2 ||b
e||2 )/q
||b
e||2 /(n k)

Le numrateur reprsente lerreur commise en supposant H0 vraie, sachant que de faon vidente :
||b
e0 ||2 > ||b
e||2 . Fcal est donc lerreur relative due H0 . Si Fcal est grand, on peut rejeter H0 .
Une notation usuelle pour la somme des carrs des rsidus est SSR. Dans ce cas, on dfinit :
SSR0 = ||b
e0 ||2 et SSR1 = ||b
e||2
do lexpression de Fcal :
Fcal =

SSR0 SSR1 (n k)

F (q, n k)
SSR1
q

On peut galement montrer que


Fcal =

(||b
y ||2 ||b
y0 ||2 )/q
c2 (y)

On peut crire la statistique du test de Fisher-Sndcor sous une autre forme :


Fcal =

b Q (Q(X X)1 Q )1 Qb
F (q, n k)
c2
q

permettant de tester H0 :Q = 0 contre H1 :Q 6= 0. Cette expression a lavantage de ne pas


ncessiter lestimation du modle contraint.

4.2.3

Fonctionnement du test

Il faut dfinir une valeur limite F1 au dessus de laquelle Fcal sera considr comme grand. Dans
ce cas, la limite F1 est le (1 )-quantile de la distribution de Fisher de degrs de libert q et
nk :
P [v.a. de Fisher < F1 ] = 1
P [v.a. de Fisher > F1 ] =
|
|
0
|

|
|
Limite F1
{z
}
Zone de non-rejet de H0

{z
Zone de rejet de H0

Fcal
}

Le risque de premire espce du test de Fisher cest--dire la probabilit de rejeter H0 alors que
H0 est vraie, vaut :
P [Rejeter H0 | H0 vraie] =
En effet, on a montr que Fcal est distribu selon une loi F (q, nk) donc selon la rgle de dcision,
la probabilit de rejeter H0 est la probabilit que Fcal > F1 si Fcal F (q, n k).

H0 non rejete
Dcision
H0 rejete

4.3

La ralit (la vrit)


H0 vraie
H0 fausse
Bonne dcision
Mauvaise dcision
(risque de 2me espce)
Mauvaise dcision
Bonne dcision
(risque de 1re espce)

Cas particulier o q=1 : le test de Student

Dans le cas particulier o lon teste la nullit dune seule combinaison linaire des composantes
de (q=1), la matrice Q est dordre (1, k) et lhypothse nulle scrit :
H0 : c = 0 = 0 avec Q = c
.
On a donc Q(X X)1 Q = c (X X)1 c = l(c) (cf 2.6.2)
(y)
b 2
Fcal =
F (1, n k)
c2 (y)l(c)

Or une proprit de la distribution de la loi de Fisher-Sndcor est quune distribution de FisherSndcor 1 et m2 degrs de libert est le carr dune distribution de Student m2 degrs de
libert (cf 1.3.5) :
P [F (1, n k) > F1 ] = = P [(T (n k))2 > F1 ] F1 = t21/2

On rejette H0 si Fcal
q > F1
c2 (y)l(c)
|(y)|
b
> t1/2
q
q
c
c2 (y)l(c).
2
t1/2 (y)l(c) < (y)
b
< +t1/2
Or lintervalle de confiance de (dfini au 2.6.3) est
q
c2 (y)l(c)]
[(y)
b t1/2

Le test consiste donc rejeter H0 ssi 0 nappartient lintervalle de confiance de .

Chapitre 5

La Rgression linaire
5.1
5.1.1

Introduction
La problmatique

La rgression est un des mthodes les plus connues et les plus appliques en statistique pour
lanalyse de donnes quantitatives. Elle est utilise pour tablir une liaison entre une variable
quantitative et une ou plusieurs autres variables quantitatives, sous la forme dun modle. Si on
sintresse la relation entre deux variables, on parlera de rgression simple en exprimant une
variable en fonction de lautre. Si la relation porte entre une variable et plusieurs autres variables,
on parlera de rgression multiple. La mise en uvre dune rgression impose lexistence dune
relation de cause effet entre les variables prises en compte dans le modle.
Cette mthode peut tre mise en place sur des donnes quantitatives observes sur n individus et
prsentes sous la forme :
une variable quantitative y prenant la valeur yi pour lindividu i {i = 1, ...n}, appele
variable expliquer ou variable rponse,
p variables quantitatives x1 , x2 , ..., xp prenant respectivement les valeurs x1i , x2i , ...xpi pour
lindividu i, appeles variables explicatives ou prdicteurs ; si p = 1, on est dans le cas
de la rgression simple ; lorsque les valeurs prises par une variable explicative sont choisies
par lexprimentateur, on dit que la variable explicative est contrle.
Considrons un couple de variables quantitatives (X, Y ). Sil existe une liaison entre ces deux
variables, la connaissance de la valeur prise par X change notre incertitude concernant la
ralisation de Y . Si lon admet quil existe une relation de cause effet entre X et Y , le phnomne
alatoire reprsent par X peut donc servir prdire celui reprsent par Y et la liaison scrit
sous la forme y = f (x). On dit que lon fait de la rgression de y sur x.
Dans le cas dune rgression multiple de y sur x1 , x2 , ..., xp , la liaison scrit y = f (x1 , x2 , ..., xp ).
Dans les cas les plus frquents, on choisit lensemble des fonctions affines (du type f (x) = ax + b
ou f (x1 , x2 , ...xp ) = a0 + a1 x1 + a2 x2 + ... + ap xp ) et on parle alors de rgression linaire.

5.1.2

Le modle de rgression linaire simple

Soit un chantillon de n individus. Pour un individu i (i = 1, ...n), on a observ


yi la valeur de la variable quantitative y,
xi la valeur de la variable quantitative x.
On veut tudier la relation entre ces deux variables, et en particulier, leffet de x (variable
explicative) sur y (variable rponse). Dans un premier temps, on peut reprsenter graphiquement
cette relation en tracant le nuage des n points de coordonnes (xi , yi ). Dans le cas o le nuage de
points est de forme linaire, on cherchera ajuster ce nuage de points par une droite.

16

La relation entre yi et xi scrit alors sous la forme dun modle de rgression linaire simple :
yi = 0 + 1 xi + ei

(5.1)

i = {1, ..., n}

o ei est une ralisation de Ei N (0, 2 ), et les n v.a. Ei sont indpendantes.


La premire partie du modle 0 + 1 xi reprsente la moyenne de yi sachant xi , et la seconde
partie ei , la diffrence entre cette moyenne et la valeur observe yi . Le nuage de points est rsum
par la droite dquation y = 0 + 1 x.
*
*

Valeur prdite

*
*

20000

*
*
* *
**
*

ei

erreur

*
*

15000

*
*
**

yi

*
*

**

*
* *
*
* * * *
*
** *
*
* * * *
*
*
*
* *
* * *
* *
* *
*
observe *
*
*
*
*
* *
*
*
*
*
*
*
*

*
*

* *

*
*
*

*
*

**
*
*
*

y
Nombre de lettres

*
*

*
**

10000

5000

Valeur

droite de rgression de y sur x

100

xi

150

200

250

300

350

400

Poids du courrier

Pour un xi donn, correspondent donc yi la valeur observe et 0 + 1 xi la valeur prdite par la


droite.

5.1.3

Le modle de rgression linaire multiple

On dispose dun chantillon de n individus pour chacun desquels on a observ


yi , la valeur de la variable rponse y quantitative,
x1i , ..., xpi , les valeurs de p autres variables quantitatives x1 , ..., xp ,
pour i = {1, ..., n}.
On veut expliquer une variable quantitative y par p variables quantitatives x1 , ..., xp .
Le modle scrit :
yi = 0 + 1 x1i + ... + p xpi + ei

i = {1, ..., n}

o ei est une ralisation de Ei N (0, 2 ) et o les n v.a. Ei sont indpendantes.

5.2
5.2.1

Estimation
Rsultats gnraux

Les paramtres du modle de rgression linaire sont estims par :


b
(y)
= (X X)1 X y

(5.2)

Dans le cas de la rgression linaire simple sous la forme yi = 0 + 1 xi + ei , on peut estimer 0


et 1 en utilisant aussi les formules suivantes :
b0 (y) = y b1 (y) x

On sait que b Np+1 (, 2 (X X)1 ).


p
X
b
bj (y)xji est la valeur ajuste de yi .
ybi = 0 (y) +

cov(x, y)
b1 (y) =
var(x)

j=1

ebi = yi ybi est le rsidu calcul.

Une estimation de 2 est :

c2 (y) =

n
X
(b
ei )2
i=1

np1

On dduit les erreurs standard des paramtres estims b0 (y), ..., bp (y), des valeurs ajustes et des
rsidus calculs :
q
c2 (y)(X X)1
erreur standard de bj (y) : se de bj (y) =
j+1,j+1
q
q
c
c2 (y)Hii
2

erreur standard de ybi : se de ybi = (y)(X(X X) X )ii =


q
c2 (y)(1 Hii )
erreur standard de ebi : se de ebi =

5.2.2

Proprits

1. eb = 0,

2. yb = y,

3. La droite de rgression passe par le point de coordonnes (x, y)


4. Le vecteur des rsidus nest pas corrl avec la variable explicative : cov(x, b
e) = 0

5. Le vecteur des rsidus nest pas corrl avec la variable ajuste Y : cov(b
y, b
e) = 0

6. La variance de Y admet la dcomposition :

var(y) = var(b
y) + var(b
e).

(5.3)

7. Le carr du coefficient de corrlation de x et de y scrit sous les formes suivantes :


r 2 (x, y) =

var(b
e)
var(b
y)
=1
var(y)
var(y)

On en dduit que la variance empirique de y se dcompose en somme dune part de variance


explique (var(b
y)) et dune variance rsiduelle (var(b
e)), et que le carr de r(x, y) est le rapport
de la variance explique sur la variance de la variable expliquer.

5.2.3

Le coefficient R2

On dduit de cette dcomposition que le coefficient R2 , dfini comme le carr du coefficient de


corrlation de x et y est une mesure de qualit de lajustement, gale au rapport de la variance
effectivement explique sur la variance expliquer :
R2 = r 2 (x, y) =

var(b
y)
var(y)

0 6 R2 6 1

Le R2 est la proportion de variance explique par la rgression.

Pour calculer le R2 , on utilise galement les expressions :


R2 = 1

var(b
e)
SSR
=1
var(y)
n var(y)

La plupart des logiciels nutilise pas la dcomposition (5.3), mais plutt la dcomposition obtenue
en multipliant cette expression par n :
SST = SSL + SSR
o :

n
X
(yi y)2 est la somme totale des carrs corrigs de y,
SST =
i=1

n
X
(b
yi y)2 est la somme des carrs explique par le modle,
SSL =

SSR =

i=1
n
X
i=1

(ebi )2 est la somme des carrs des rsidus.

La proprit (5) ci-dessus montre que la variance de la variable expliquer (ou totale) se
dcompose en somme de la variance explique par le modle (var(b
y )) et de la variance rsiduelle
(var(b
e)). On note encore R2 le rapport de la variance explique sur la variance totale, soit :
R2 =

var(b
y)
var(b
e)
=1
var(y)
var(y)

Dfinition : On appelle coefficient de corrlation multiple de y avec x1 , ..., xp , et on note


b:
r(y, (x1 , ..., xp )) le coefficient de corrlation linaire empirique de y avec y
b)
r(y, (x1 , ..., xp )) = r(y, y

Proprit : Le coefficient R2 de la rgression multiple est gal au carr du coefficient de


corrlation linaire empirique r(y, (x1 , ..., xp )).

5.2.4

Augmentation mcanique du R2

Lorsquon ajoute une variable explicative un modle, la somme des carrs des rsidus diminue
ou au moins reste stable. En effet, si on considre un modle p 1 variables :
yi = 0 + 1 x1i + . . . + j xji + . . . + p1 xp1
+ ei ,
i

alors les coefficients (b0 , b1 , . . . , bj , . . . , bp1 ) estims minimisent


n 
2
X
yi (0 + 1 x1i + . . . + j xji + . . . + p1 xp1
)
.
(0 , 1 , . . . , j , . . . , p1 ) =
i
i=1

Si on rajoute une nouvelle variable explicative (la variable xp ) au modle, on obtient

yi = 0 + 1 x1i + . . . + j xji + . . . + p1 xp1


+ p xpi + ei ,
i
et les coefficients estims, nots (0 , 1 , . . . , j , . . . , p1 , p ) minimisent la fonction :
n 
2
X
yi (0 + 1 x1i + . . . + j xji + . . . + p1 xp1
+ p xpi ) ,
(0 , 1 , . . . , j , . . . , p1 , p ) =
i
i=1

qui est par construction telle que

(0 , 1 , . . . , j , . . . , p1 , 0) = (0 , 1 , . . . , j , . . . , p1 ).
Do lingalit :
(0 , 1 , . . . , j , . . . , p1 , p ) 6 (b0 , b1 , . . . , bj , . . . , bp1 , 0) = (b0 , b1 , . . . , bj , . . . , bp1 ).

do le rsultat. On verra par la suite quaugmenter ainsi mcaniquement le R2 nest pas


forcment synonyme damlioration de modle.

5.3
5.3.1

Tests et Intervalles de confiance


Test de nullit dun paramtre du modle

On tudie leffet de la prsence dune variable explicative X j dans le modle en testant lhypothse
nulle :
H0 : j = 0
o j est le paramtre associ la variable explicative X j .
Lhypothse H0 de nullit dun paramtre du modle peut tre teste au moyen de la
statistique de Student :
bj
Tcal =
Student(n p 1)
se de bj

comparer avec la valeur limite t(np1),(1 2 ) .


Si |Tcal | > t(np1),(1 2 ) alors on rejette H0 .
Si |Tcal | < t(np1),(1 2 ) alors on ne peut pas rejeter H0 .

5.3.2

Test de nullit de quelques paramtres du modle

Soit un modle de rfrence p variables explicatives. On veut tudier linfluence de q variables


explicatives (avec q 6 p) sur la variable expliquer. Cela revient tester lhypothse de nullit
de q paramtres du modle :
H0 : 1 = 2 = ... = q = 0 avec q 6 p
Sous lhypothse alternative, au moins un des paramtres 1 , ..., q est non-nul.
Ce test peut tre formul comme la comparaison de deux modles embots, lun p+1 paramtres
et lautre p + 1 q paramtres :
yi = 0 + 1 x1i + ... + p xpi + ei sous H1
versus yi = 0 + q+1 xq+1
+ ... + p xpi + ei sous H0
i
Lhypothse H0 peut tre teste au moyen de la statistique :
Fcal =

SSR0 SSR1 n p 1

F (q, n p 1)
SSR1
q

o SSR0 est la somme des carrs des rsidus du modle rduit sous H0 et SSR1 est la somme
des carrs des rsidus du modle de rfrence.
On compare Fcal la valeur limite F1 (q, np1) : si Fcal > F1 (q, np1) alors on rejette H0 .
Remarque : dans le cas o q=1, on teste la nullit dun seul paramtre du modle. Etant la
proprit selon laquelle une v.a. distribue selon une loi F (1, m2 ) est le carr dune v.a. de Student
m degrs de libert (cf 1.1.5), le test de Fisher-Sndcor ci-dessus et le test de Student (vu au
paragraphe prcdent) donnent les mmes conclusions.

5.3.3

Test de nullit de tous les paramtres du modle

Tester lhypothse de nullit de tous les paramtres du modle (associs aux variables explicatives) :
H0 : 1 = 2 = ... = p = 0

revient comparer la qualit dajustement du modle de rfrence celle du modle blanc.


Cette hypothse compose de p contraintes signifie que les p paramtres associs aux p variables
explicatives sont nuls, cest--dire quaucune variable explicative prsente dans le modle ne
permet dexpliquer Y .
Sous H0 , le modle scrit :
yi = 0 + ei avec b0 = y
et la somme des carrs des rsidus (SSR0 ) est gale la somme des carrs totale (SST ).

La statistique de Fisher-Sndcor permettant de tester la nullit des p paramtres du modle


peut donc scrire :
Fcal =

R2
np1
np1
SSL1
=
F (p, n p 1)

2
SSR1
p
1R
p

o SSL1 est la somme des carrs du modle de rfrence avec SST = SSL1 + SSR1 , et R2 est le
critre dajustement du modle de rfrence.
On compare Fcal la valeur limite F1 (p, n p 1) : si Fcal > F1 (p, n p 1) alors on rejette
H0 et on conclut quil existe au moins un paramtre non nul dans le modle.

5.3.4

Intervalle de confiance de j , de Y i et de Y 0

Lintervalle de confiance du paramtre j au risque (ou de scurit 1 ) est de la forme :


h
i
IC1 (j ) = bj (y) tnp1,1/2 se de bj (y)

1 2 , ..., xp ) des variables


On note Y i la rponse moyenne
i
i
Xde Yij associe au jeu de valeurs (xi , xP
j xi . On lestime par : ybi = b0 (y) + j bj (y)xji .
explicatives : Y i = (X)i = 0 +
j

Lintervalle de confiance de Y i au risque est :



IC1 (Ybi ) = ybi tnp1,1/2 se de ybi

Pour des valeurs donnes x10 , x20 , ..., xp0 des variables explicatives, la rponse moyenne est :
Y 0 = 0 + 1 x10 + ... + p xp0 = X0 o X0 = (1 x10 x20 ... xp0 )
Lestimateur de Y 0 est :
et la variance de cet estimateur est :

b0 = X0 b

b = 2 X (X X)1 )X0
V ar(Y 0 ) = V ar(X0 )
0

b
Lestimation de Y 0 est yb0 = X0 (y)
do on dduit lintervalle de confiance de Y 0 au risque :



q

1
c
2
IC1 (Y 0 ) = yb0 tnp1,1/2 (y)(X0 (X X) X0 )

5.3.5

Intervalle de prdiction

Avant toute chose, il est important de comprendre la diffrence entre lintervalle de confiance
de Yb0 et lintervalle de prdiction. Dans les deux cas, on suppose un jeu de valeurs donnes des
variables explicatives. Dans le premier cas, on veut prdire une rponse moyenne correspondant
ces variables explicatives alors que dans le second cas, on cherche prdire une nouvelle valeur
individuelle. Par exemple, si on tudie la liaison entre le poids et lge dun animal, on peut
prdire la valeur du poids 20 jours soit comme le poids moyen danimaux 20 jours, soit comme
le poids 20 jours dun nouvel animal. Pour le nouvel animal, on doit prendre en compte la variabilit individuelle, ce qui augmente la variance de lestimateur et donc la largeur de lintervalle.
b
La prdiction est nouveau donne par yb0 = X0 (y).
En revanche, la variance de la prdiction
devient :
V ar(Y 0 ) + V ar(E0 ) = 2 (1 + X0 (X X)1 X0 )
Lintervalle de prdiction de scurit 1 est donn par :


5.4

yb0 tnp1,1/2

c2 (y)(1 + X (X X)1 X0 )

Slection des variables explicatives

En prsence de p variables explicatives dont on ignore celles qui sont rellement influentes, on doit
rechercher un modle dexplication de Y la fois performant (rsidus les plus petits possibles) et
conomique (le moins possible de variables explicatives).

5.4.1

Les critres

Pour obtenir un compromis satisfaisant entre un modle trop simple (grands rsidus) et un modle
faisant intervenir beaucoup de variables (donc trs instable), on dispose de plusieurs critres qui
ne donnent pas ncessairement le mme rsultat :
c2 (y) est minimum ;
choisir, parmi tous les modles, le modle pour lequel
2
choisir, parmi tous les modles, celui pour lequel le R ajust est maximum avec
2
=
Radj

(n 1)R2 p
n (p + 1)

o p est le nombre de variables explicatives dans le modle ;


choisir le modle pour lequel Cp de Mallows est minimum avec
P
(b
ei )2
+ 2p n
Cp =
c2 (y)

choisir le modle pour lequel le critre PRESS (Prediction Sum of Squares) de Allen est
minimum :
X
P RESS =
(yi yi )2
i

o yi est obtenu de la faon suivante :


on retire lobservation i du jeu de donnes,
est alors estim par b(i) ,
yi est la prdiction de yi daprs cette estimation de .

5.4.2

Les mthodes de slection

Toutes les mthodes de slection ncessitent la donne dun des critres cits prcdemment qui
permet de comparer des modles ayant des nombres de paramtres diffrents. On choisit donc un
critre de qualit optimiser, la variable expliquer y et un ensemble de p variables candidates
lexplication de y. Pour k fix, on cherche le groupe de k variables, qui, parmi les p variables,
explique le mieux y. Comme la recherche du maximum du R2 sur tous les ensembles de k variables
prises parmi p peut prendre trop longtemps (ils sont au nombre de Cpk ) et peut amener des
artfacts (un bon rsultat qui nen est pas un), on utilise souvent des mthodes pas pas, qui
sont soit ascendantes, descendantes ou stepwise :
1. Les mthodes ascendantes : On cherche dabord la variable qui explique le mieux y au sens
du R2 (R2 maximum), puis on cherche celle qui, ajoute la premire, augmente le plus le
R2 , etc. Un critre darrt de la procdure peut-tre obtenu en utilisant des critres du type
R2 ajust, Cp de Mallows ou critre AIC : par exemple, on arrte le processus lorsque le R2
ajust commence dcrotre.
2. Les mthodes descendantes : On part du modle utilisant les p variables explicatives et on
cherche, parmi les p variables, celle qui peut tre supprime en occasionnant la plus forte
croissance du critre. Cette variable tant supprime, on itre le processus tant que le R2
ajust ne dcrot pas.
3. Les Mthodes stepwise : Partant dun modle donn, on opre une slection dune nouvelle
variable (comme avec une mthode ascendante), puis on cherche si on peut liminer une
des variables du modle (comme pour une mthode descendante) et ainsi de suite. Il faut
dfinir pour une telle mthode un critre dentre et un critre de sortie.
4. On peut citer la mthode des s best subsets (ou s meilleurs sous-ensembles) : on cherche
de faon exhaustive parmi les sous-ensembles de s variables, les s meilleurs, au sens du
critre considr.

5.5

Validation du modle

5.5.1

Contrle de lajustement du modle

Une fois le modle mis en uvre, on doit vrifier a posteriori le bien-fond statistique de ce
modle du point de vue de la normalit des rsidus et de ladquation de la valeur ajuste ybi la
valeur observe yi et de labsence de donnes aberrantes. Pour se faire un ide sur ces questions,
on peut tudier :
ebi
1. les rsidus standardiss : ri = q
.
c
2
(y)

ebi
dont on compare la rpartition la distribution
se de ebi
N (0; 1) (tout en tant conscient que les n rsidus ne sont pas indpendants mais lis par
p + 1 relations linaires) en tracant le P-P Plot ou le Q-Q Plot (droite de Henry) et en
comparant la proportion des rsidus compris entre 1 et +1, entre 2 et +2, entre 2.6
et +2.6 respectivement 70%, 95% et 99%. De grands rsidus signalent plutt des valeurs
atypiques de la variable expliquer.

2. les rsidus studentiss : ti =

3. le graphe des n points (yi , ybi ) qui doivent tre peu prs aligns selon la droite de pente
1.
4. le graphe des n points (b
ei , ybi ) qui doit correspondre celui de deux variables non-corrles.

5. leffet levier par les lments diagonaux de la matrice H. En effet, lestimation des paramtres
est trs sensible la prsence de points extrmes pouvant modifier de faon substantielle les
rsultats. Une observation est influente si llment diagonal de la matrice H correspondant
cette observation est grand. Leffet levier apparait principalement pour des observations
dont les valeurs prises par les variables explicatives sont loignes de la moyenne.

6. les mesures dinfluence peuvent aussi permettre de dceler des points atypiques avec la
distance de Cook Di pour lindividu i : (b b(i) ) T T (b b(i) ) o T est le vecteur des
rsidus studentiss. Cette distance conclut une infuence de lobservation i lorsque la valeur
de Di dpasse 1.

5.5.2

Etude des colinarits des variables explicatives

Le problme
Lestimation des paramtres et de leurs variances ncessite le calcul de linverse de la matrice
(X X). On dit que (X X) est mal conditionne si son dterminant est proche de 0. La matrice
(X X)1 sera alors trs grande. Cette situation se produit lorsque les variables explicatives sont
trs corrles entre-elles. On parle alors de multi-colinarit et cela conduit des estimations
biaises des paramtres avec des variances importantes.
Remarque : Dans le cas extrme o certaines variables explicatives sont des constantes ou sont des
combinaisons linaires des autres, alors les colonnes de la matrice X sont des vecteurs linairement
lies et X X est singulire. Dans ce cas, SAS limine certaines variables en leur affectant dautorit
un cfficient nul.
Les critres de diagnostic
Il sagit de diagnostiquer ces situations critiques puis dy remdier. Une des techniques (la plus
simple, mais pas la plus rapide) est de dtecter les fortes liaisons entre variables explicatives
en faisant la rgression de chaque variable explicative sur les autres variables explicatives et en
mesurant les liaisons par le R2 de chacune des ces rgressions. Un autre critre de diagnostic
permet de dtecter les problmes de multi-colinarit entre variables : le facteur dinflation de la
variance (V IF ).
la matrice des donnes observes centres (cest--dire la matrice X prive de la colonne
Soit X
11 et centre) et S la matrice diagonale contenant les cart-types empiriques des variables X j , on
peut dfinir R la matrice des corrlations sous la forme :
R=

1 1 1
S X XS
n

On note le vecteur des paramtres associes aux p variables explicatives centres. On peut
b et V ar()
b peuvent sexprimer en fonction de X
:
montrer que
b = (X
b = (X
X)
1 X
Y et V ar()
X)
1 2

b :
et on peut en dduire une nouvelle expression de V ar()

2 1 1 1
b
V ar()
=
S R S
n

b
b
Si on note V ar(j ) le jme lment diagonal de la matrice de variance-covariances de et Vj le
jme lment diagonal de la matrice R1 alors
2
Vj
b ) =
V ar(
.
j
n V ar(Xj )

Vj est appel facteur dinflation de la variance (VIF) : plus Vj est grand, plus la variance de bj
est grande. Vj peut sexprimer comme :
Vj =

1
1 Rj2

o Rj est le cfficient de corrlation multiple obtenu en rgressant Xj sur les p1 autres variables
explicatives. On appelle tolrance 1 Rj2 . Une tolrance et un facteur dinflation de la variance
qui tendent vers 1 signifient une absence de multicolinarit entre les variables explicatives. En
revanche, si la tolrance tend vers 0 et le facteur dinflation de la variance vers , alors on dtecte
un problme de multicolinarit entre les variables explicatives.
Une premire solution : la rgression ridge
Une faon dviter ce problme dinversibilit et donc de rduire les inconvnients de variables
explicatives fortement corrles est de remplacer b par
= (X X + cIp )1 X Y

o c est une rel choisi par lutilisateur de la faon suivante : nest plus un estimateur sans biais de
b On calcule lerreur quadratique de (variance+biais2 )
, mais il est de variance plus petite que .
et on choisit c de faon que lerreur quadratique de soit minimum.
Une seconde solution : la rgression sur composantes principales
Cest une autre faon de grer les colinarits des variables explicatives :
on fait lA.C.P. des variables explicatives et on considre les composantes principales ; on
note C la matrice des composantes principales : C = (x1 |x2 |...|xp )M ;
on remplace les variables explicatives par les composantes principales qui sont non corrles
+ e avec
de variances dcroissantes : on crit donc le modle sous la forme y = X

X = (11|C) = XB donc = B ;
X)
1 Xy.
Comme les dernires composantes de
on estime par
b = (X
b sont petites et de
grandes se, on les remplace par 0 ce qui donne qui est un estimateur biais de , donc
b On calcule lerreur
= B
est un estimateur biais de de plus petite variance que .

quadratique de et on choisit le nombre de composantes principales que lon nglige de

faon minimiser lerreur quadratique de .

Chapitre 6

Lanalyse de variance
6.1

Introduction

On applique des modles factoriels quand on dispose :


dune variable quantitative expliquer,
dune ou de plusieurs variables qualitatives explicatives, appeles facteurs.
Dfinition dun facteur

1. Un facteur est dit contrl si ses valeurs ne sont pas observes mais fixes par lexprimentateur.

2. Les modalits des variables qualitatives explicatives sont appeles niveaux du facteur.
Dfinition dun plan dexprience

1. On appelle cellule dun plan dexprience une case du tableau, associe une combinaison
des facteurs contrls.
2. Un plan est dit complet sil a au moins une observation dans chaque cellule.
3. Un plan est dit rpt sil y a plus dune observation par cellule.
4. Un plan est dit quilibr si chaque cellule comporte le mme nombre dobservations.
5. Un plan quilibr et rpt est dit quirpt.

6.2
6.2.1

Lanalyse de variance un facteur


Notations

On appelle plan un facteur un plan dexpriences dfini par un seul facteur ; on dispose donc
dune variable quantitative expliquer et dune seul facteur explicatif. On note
i lindice du groupe ou de la "cellule", dfinie par le facteur explicatif,
I le nombre de groupes (i = 1, . . . , I),
ni le nombre dexpriences dans le groupe i,
j = 1, . . . ,P
ni lindice de lexprience dans le groupe i,
enfin n = Ii=1 ni le nombre total dexpriences.
Une exprience (ou encore un "individu") est repre par deux indices, le numro de la cellule
(i) et le numro de lobservation dans la cellule (j). Ainsi on note yij la valeur de la rponse
quantitative pour lexprience j du niveau i.

6.2.2

Le modle

On modlise une variable quantitative en fonction dun facteur I niveaux. y est la variable
expliquer qui prend la valeur yij pour lindividu j du niveau i du facteur. Le modle scrit :
26

yij = i + eij avec i = 1, ..., I ; j = 1, ..., ni et n =

I
X

ni

i=1

o eij est une ralisation de Eij

N (0, 2 )

et o les n v.a. Eij sont indpendantes.

Le modle peut galement scrire sous la forme :

1
2

y = (111 |112 |...|11I ) . + e avec E N (0, 2 In )


..
I

o 11i est lindicatrice du niveau i. Ce modle contient I paramtres estimer.

6.2.3

Paramtrage centr

Pour des raisons dinterprtation, on peut sintresser un changement de paramtrage. Il sagit


dun changement de variables dans la fonction minimiser dont les variables sont les paramtres
du modle. Soulignons que les nouvelles quations que nous allons dfinir ci-aprs correspondent
toujours celles dun modle un facteur. Si on veut comparer les effets des niveaux du facteur,
on peut prendre comme rfrence un effet moyen, et examiner les carts des effets des diffrents
niveaux cet effet moyen.
P
i
= . leffet moyen gnral et i = i
Introduisons quelques nouvelles notations : = i
I
leffet diffrentiel (centr) du niveau i. Le modle initial peut scrire sous la forme :
yij = + i + eij avec

I
X

i = 0

i=1

ou bien :
y = 11 +

I1
X
i=1

6.2.4

i (11i 11I ) + e

Estimation

On note yi. la moyenne des observations yij dans la cellule i :


y i. =

ni
1 X
yij
ni
i=1

Les coefficients i sont estims par les moyennes y i. des observations dans les cellules :
PI
j=1 yij

bi (y) = y i. =
ni

On les appelle les effets principaux des facteurs. Leur variance est estime par :
V ar(b
i ) =
Pn

2
ni

i=1 y i.

bi = yi. y ..
= y .. ;
I
Les valeurs ajustes ybij dans la cellule i sont constantes et sont gales aux moyennes y i. des
observations dans la cellule i :
ybij = y i.
Pour les deux autres paramtrisations :
b(y) =

dont on dduit les rsidus estims :


Lestimation de 2 est donne par :

6.2.5

ebij = yij y i.

c2 (y) =

Proprits

P P
i

j (yij

y i. )2

nI

On a les proprits suivantes analogues celles de la rgression linaire :


1. La moyenne des rsidus par cellule est nulle : pour tout i = 1, . . . , I, ebi. = 0
2. La moyenne gnrale des rsidus est nulle : eb = 0

3. La moyenne des valeurs ajustes est gale la moyenne des valeurs observes : yb = y
b) = 0
4. cov(b
e, y

5. var(y) = var(b
y) + var(b
e)

La dernire proprit nous amne dfinir les quantits suivantes :


On appelle variance inter-groupe la quantit var(b
y), qui scrit encore :
I

var(b
y) =

1X
ni (y i. y)2
n
i=1

Cest la variance des moyennes par cellule, pondres pour les poids des cellules ni /n.
On appelle variance intra-groupe, ou variance rsiduelle, la quantit var(b
e), qui scrit
encore :
I ni
I
1 XX
1X
(yij y i. )2 =
ni V ari (y)
var(b
e) =
n
n
i=1 j=1

i=1

o V ari (y) est la variance des valeurs observes dans le niveau i : V ari (y) =

ni
1 X
(yij yi. )2
ni
j=1

var(b
e) est donc la moyenne des variances des observations dans les cellules.
La relation var(y) = var(b
y) + var(b
e) scrit ici
Variance totale = variance inter + variance intra

On dfinit galement le coefficient R2 comme le rapport de la variance inter-groupe sur la variance


totale :
var(b
y)
var(b
e)
R2 =
=1
var(y)
var(y))
On lappelle rapport de corrlation empirique entre la variable quantitative y et le facteur
considr. Cest une mesure de liaison entre une variable qualitative et une variable quantitative.
On peut mentionner les deux cas particuliers suivants :
R2 = 1 b
e=0

yij = y i. i, j = 1, . . . , ni
y est constante dans chaque cellule
R2 = 0 var(b
y) = 0 yi. = y i = 1, . . . , I,
La moyenne de y est la mme dans chaque cellule

6.2.6

Intervalles de confiance et tests dhypothses sur leffet facteur

Dans le cadre gnral du modle gaussien, on a montr que les estimateurs des paramtres du
modle sont distribus selon une loi gaussienne. Cette proprit peut sappliquer au modle un
facteur pour lequel on a pos lhypothse de normalit des rsidus.
On a montr prcdemment que :
E(b
i ) = i et V ar(b
i ) =
do on dduit :

bi N (i ;

2
ni

2
)
ni

On peut en dduire un intervalle de confiance de i de scurit 1 de la forme :

bi (y) t(nI),(1/2)
IC1 (i ) =

c
2
(y)
ni

On veut tudier leffet du facteur sur la variable y en posant lhypothse dgalit de tous les
paramtres du modle :
H0 : 1 = 2 = ... = I = i i = 0
vs H1 : (i, i ) tel que i 6= i
Sous H0 , tous les paramtres i sont gaux et le modle scrit :
yij = 0 + eij avec
b0 (y) = y =

1 XX
yij
n
i

On teste lhypothse dgalit des paramtres i du modle partir de la statistique de FisherSndcor :


P P
2
nI
SSL
nI
i
j (y i. y)

F (I 1, n I)
Fcal = P P
2
I 1
SSR
I 1
i
j (yij y i. )
o SSL est la somme des carrs inter-groupes et SSR est la somme des carrs intra-groupes.
Toutes ces estimations peuvent tre prsentes sous la forme dun tableau danalyse de la variance
un facteur :
Source

ddl

Facteur

I 1

Rsiduel n I
Total

6.2.7

n1

Somme des Carrs


I
X
i=1

ni (y i. y)2 = SSL

ni
I X
X
(yij y i. )2 = SSR
i=1 j=1
ni
I X
X
i=1 j=1

(yij y)2 = SST

Moyenne des Carrs

Fcal

SSL
= M SL
I 1

M SL
c2 (y)

SSR
c2 (y)
=
nI

F1
F1 (I 1, n I)

Comparaisons multiples : Mthode de Bonferroni

Si on rejette lhypothse dgalit de tous les paramtres i avec le test prcdent, on conclut
quau moins deux paramtres i et i sont diffrents. On peut donc chercher identifier les
couples (i, i ) pour lesquels i 6= i . Il y a donc I(I 1)/2 comparaisons possibles. Pour identifier
ces couples, il est possible de tester les hypothses i i = 0 avec un test de Student tel que le

risque de premire espce conjoint soit .


Ceci consiste donc dterminer un intervalle de confiance de i i de scurit 1 avec
= 2/I(I 1) :
r


1
1
c
2
IC1 (i i ) = (y i. yi . ) tnI,1/2 (y)( +
)
ni ni

Les couples pour lesquels 0 nappartient pas lintervalle de confiance sont ceux pour lesquels
i 6= i . La scurit conjointe de ces intervalles est au moins gale 1 .
Dans le cas particulier o le facteur est compos de deux niveaux, le problme se rsume la
comparaison de deux moyennes 1 et 2 de deux distributions gaussiennes de mme variance. Le
test de comparaison de 1 et 2 est un test de Student bas sur la statistique :
Tcal = r

|y 1. y2. |
Student(n 2)
1 c2
1
( + ) (y)
n1 n2
2

c2 (y) =
avec

1 XX
(yij y i. )2
n2
i=1 j=1

Lorsque lhypothse de normalit des distributions nest pas raliste, mais que lon peut accepter
que les deux distributions sont identiques un paramtre de position prs , on peut utiliser le test
des rangs pour comparer 0 : le test de Wilcoxon pour le cas de deux chantillons indpendants,
le test de Mann-Whitney pour le cas de donnes apparis. Le test de Kruskall-Wallis est une
gnralisation du test de Wilcoxon dans le cas de plusieurs chantillons (cest--dire dun facteur
plus de deux niveaux).

6.3
6.3.1

Analyse de variance deux facteurs croiss


Notations

On appelle cellule une case du tableau, facteur ligne le facteur qui dfinit les lignes du tableau,
facteur colonne celui qui dfinit les colonnes du tableau. De plus, on note par :
i = 1, . . . , I
les indices des niveaux du facteurs ligne
(le facteur ligne a I niveaux),
j = 1, . . . , J
les indices des niveaux du facteurs colonne
(le facteur colonne a J niveaux),
nij
le nombre dobservations pour le niveau i du facteur ligne
et pour le niveau j du facteur colonne
(on dit encore nombre dobservations dans la cellule (i, j),
l = 1, . . . , nij les indices des observations dans la cellule (i, j),
yijl
la l-ime observation dans la cellule (i, j),
y ij.
la moyenne des
P observations dans la cellule (i, j),
(yij. = 1/nij l yijl ).

6.3.2

Le modle

Le modle deux facteurs croiss scrit sous la forme :


yijl = ij + eijl avec i = 1, ..., I; j = 1, ..., J; l = 1, ..., nij
o eijl est une ralisation de Eijl N (0, 2 ), n v.a. indpendantes.
Deux autres paramtrisations permettent de dcomposer ij afin de dfinir des quantits, fonctions
des ij , qui mesurent les effets spars des deux facteurs et les effets conjoints.

6.3.3

La paramtrisation centre

Cette premire paramtrisation dcompose ij par rapport un effet moyen gnral. On dfinit
ainsi les nouveaux paramtres qui interviennent dans cette dcomposition :
1 XX
ij = .. = effet moyen gnral,
IJ
i
j
1X
ij = effet moyen du niveau i du facteur ligne,
i. =
J

L
i

= i. .. = effet diffrentiel du niveau i du facteur ligne,

.j =

1X
ij = effet moyen du niveau j du facteur colonne,
I
i

C
j

= .j .. = effet diffrentiel du niveau j du facteur colonne,

ij = ij i. .j +.. = interaction du niveau i du facteur ligne et du niveau j du facteur colonne.


Ces paramtres vrifient les conditions suivantes :
X
X
X
X
L
C
ij = 0 ; j
ij = 0
i =0;
j = 0 ; i
i

Le modle complet scrit alors sous la forme :


C
yijl = + L
i + j + ij + eijl

Les I.J paramtres ij sont donc redfinis en fonction de :


: un paramtre de centrage gnral,
L
i : I 1 paramtres qui caractrisent globalement sur j les I niveaux du facteur ligne,
C
j : J 1 paramtres qui caractrisent globalement sur i les J niveaux du facteur colonne,
ij : (I 1)(J 1) paramtres qui prennent en compte que les effets des niveaux du facteur
ligne varie selon le niveau du facteur colonne.

6.3.4

Estimations des paramtres

nij
1 X
2
ij est estim par
bij (y) =
)
yijl = yij. avec
bij N (ij ,
nij
nij
l=1

bi. = y i..
On en dduit

J
I
I
J
X
1X
1 XX
b.j = y .j. = 1
=
y ij. ,
y ij. et
b = y ... =
y ij.
J
I
IJ
j=1

i=1

i=1 j=1

Valeurs ajustes et rsidus estims : ybijl =


bij = y ij. et ebijl = yijl y ij.
c2 (y) =

X
X
X
1
1
nij
(b
eijl )2 =
(yijl y ij. )2 avec n =
n IJ
n IJ
ijk

ij

ijk

L
i ,

C
j

Des estimations de ij , on dduit les estimations de ,


et ij en remplacant ij par son
L
C
estimation dans les dfinitions de , i , j et ij .
Comme dans lanalyse de variance un facteur, la variabilit totale de y se dcompose en une
variabilit inter-cellule explique par le modle (note SSL) et une variabilit intra-cellule non
explique par le modle (note SSR) :
nij
J X
I X
X
(yijl y)2
SST =
i=1 j=1 l=1

SSL =

J
I X
X
i=1 j=1

SSR =

J
I X
X

nij (y ij. y)2

nij V arij (y)

V arij (y) =

i=1 j=1

6.3.5

nij
1 X
(yijl )2 (y ij. )2
nij
l=1

Le diagramme dinteractions

Le diagramme dintractions permet de visualiser graphiquement la prsence ou labsence dintractions. Pour chaque j fix, on reprsente dans un repre othogonal les points (i, j) de coordonnes
(i, ij ), et on trace les segments joignant les couples de points ((i 1), j), (i, j). On obtient ainsi
pour chaque j fix une ligne brise.

ij

i=1

Fig. 6.1 Construction dun diagramme dinteractions


Proprit : Si lhypothse de non-interaction est vraie, alors les lignes brises dans le diagramme
dinteraction sont parallles.
En, effet, la ligne brise associe au niveau j joint les points (1, 1j ), (2, 2j ), . . ., (I, Ij ). Sil ny a
pas dinteractions, alors ces points ont pour coordonnes (1, u1 + vj ), (2, u2 + vj ), . . . , (I, uI + vj ),
et les lignes brises associes au niveaux j et j se correspondent par une translation verticale
damplitude vj vj .
On lit sur ce diagramme leffet principal des modalits j (le niveau moyen dune ligne brise),
leffet principal des modalits i (la moyenne des ordonnes des points abcisse fixe). En ce qui
concerne les interactions, on obtiendra rarement des lignes brises strictement parallles. Le problme sera alors de savoir si leur non-paralllisme traduit une interaction significative. Ce sera
lun des points de la partie sur le modle linaire gaussien.

6.3.6

Tests dhypothses

Trois hypothses sont couramment considres :


lhypothse dabsence dinteractions entre les deux facteurs ou hypothse dadditivit des
deux facteurs :
H0L,C : i, j, ij = 0
qui impose (I 1)(J 1) contraintes ;
lhypothse dabsence deffet du facteur ligne :
H0L : i, L
i =0
qui impose (I 1) contraintes ;

lhypothse dabsence deffet du facteur colonne :


H0C : j, C
j =0
qui impose (J 1) contraintes.
Pour ces trois hypothses, le calcul de la statistique consiste r-estimer les paramtres sous la
contrainte que lhypothse est vraie, en dduire les nouvelles estimations des ij , les valeurs
ajustes et les rsidus calculs sous cette hypothse. On en dduit la statistique du test.
Une remarque trs importante porte sur la dmarche de ces tests dhypothses : Sil existe des
interactions entre les deux facteurs, alors les deux facteurs qui constituent cette interaction doivent imprativement tre introduits dans le modle ; dans ce cas, il est
donc inutile de tester leffet de chacun des deux facteurs. En effet, la prsence dinteractions entre les deux facteurs signifie quil y a un effet combin des deux facteurs, et donc un effet
de chaque facteur.
Tester lhypothse de non-interaction entre les deux facteurs consiste comparer
le modle complet (avec interactions) et le modle additif (sans interactions) en utilisant la
statistique de Fisher :
Fcal =

SSRL,C SSR/(I 1)(J 1)


SSI
n IJ
=

F ((I 1)(J 1), n IJ)


SSR/n IJ
SSR (I 1)(J 1)

o SSRl,c est la somme des carrs des rsidus du modle additif, SSR est la somme des carrs
des rsidus du modle complet et SSI la somme des carrs corrigs de leffet dinteraction entre
les deux facteurs.
Tester lhypothse dabsence deffet du facteur ligne est intressant si le test prcdent
a permis de montrer labsence dinteractions. En effet, si les termes dinteractions sont introduits
dans le modle, les facteurs qui constituent cette interaction doivent galement apparatre dans
le modle. Cette remarque est galement valable pour lhypothse dabsence deffet du facteur
colonne. Pour tudier leffet du facteur ligne, on pose lhypothse H0L ce qui revient comparer
le modle additif ( I + J 1 paramtres)
C
yijl = + L
i + j + eijl

et le modle un facteur ( J paramtres)


yijl = + C
j + eijl
Le test est bas sur la statistique de Fisher-Sndcor :
Fcal =

(SSRC SSRL,C )/(I 1)


F (I 1, n (I + J 1))
SSRL,C /n (I + J 1)

o SSRC est la somme des carrs des rsidus du modle un facteur (le facteur colonne) et
SSRL,C est la somme des carrs des rsidus du modle additif ( deux facteurs sans interaction).
Pour tudier leffet du facteur colonne, on compare le modle deux facteurs sans interaction
au modle un facteur ( I paramtres) :
yijl = + L
i + eijl
et on teste lhypothse dabsence deffet du facteur colonne H0C partir de la statistique :
Fcal =

(SSRL SSRL,C )/(J 1)


F (J 1, n (I + J 1))
SSRL,C /n (I + J 1)

o SSRL,C est la somme des carrs des rsidus du modle additif et SSRL est la somme des
carrs des rsidus du modle un facteur (le facteur ligne).

6.3.7

Tableau danalyse de la variance deux facteurs croiss dans le cas dun


plan quilibr

Dans le cas du modle deux facteurs croiss, la variance inter-cellule (explique par le modle)
peur tre dcompose en une variance explique par le premier facteur, une variance explique
par le second facteur et par une variance explique par les interactions entre les deux facteurs.
Dans le cas dun plan quilibr deux facteurs (o (i, j), nij = n0 ), on dfinit les quantits
suivantes :
SS1, la somme des carrs corrigs de leffet diffrentiel du premier facteur (Ligne) :
SS1 = n0 J

I
I
X
X
2
(y i.. y ... )2 = n0 J
(b
L
i )
i=1

i=1

SS2, la somme des carrs corrigs de leffet diffrentiel du second facteur (Colonne) :
SS2 = n0 I

J
X
j=1

J
X
2
(y .j. y ... ) = n0 I
(b
C
j )
2

j=1

SSI, la somme des carrs corrigs de leffet dinteraction entre les deux facteurs :
SSI = n0

I X
J
I X
J
X
X
(b
ij )2
(y ij. y i.. y .j. + y ... )2 = n0
i=1 j=1

i=1 j=1

On peut montrer que :


SSL = SS1 + SS2 + SSI
On peut ainsi dresser le tableau danalyse de la variance dun plan quilibr deux facteurs
croiss :
Source

ddl

Somme
des Carrs

Moyenne
des Carrs

Fcal

F1

Ligne

I 1

SS1

SS1
= M S1
I 1

M S1
c
2 (y)

F1 (I 1, n IJ)

Colonne

J 1

SS2

SS2
= M S2
J 1

M S2
c2 (y)

F1 (J 1, n IJ)

Interaction

(I 1)(J 1)

SSI

SSI
= M SI
(I 1)(J 1)

M SI
c2 (y)

F1 ((I 1)(J 1), n IJ)

Rsiduel

n IJ

SSR

SSR
c2 (y)
=
n IJ

Total

n1

SST

Chapitre 7

Analyse de covariance
7.1

Les donnes

Sur un chantillon de n individus, on observe deux variables quantitatives x et y, et une variable


qualitative T . La variable quantitative y est la variable rponse que lon cherche expliquer en
fonction de la variable quantitative x et de du facteur T J niveaux.
Chaque individu de lchantillon est repr par un double indice (i, j), j reprsentant le niveau du
facteur T auquel appartient lindividu et i correspondant lindice de lindividu dans le niveau
j. Pour chaque individu (i, j), on dispose dune valeur xij de la variable x et dune valeur yij de
la variable y.
Pour chaque niveau j de T (avec j = 1, ..., J), on observe nj valeurs x1j , ..., xnj j et nj valeurs
y1j , ..., ynj j de Y .
P
n = Jj=1 nj est le nombre dobservations.

Ces donnes peuvent tre reprsentes conjointement sur un mme graphique permettant de
visualiser la relation ventuelle entre y, x et T . Il sagit de tracer un nuage de points de coordonnes
(xij , yij ), o tous les points du niveau j (j=1,...,J) sont reprsents par le mme symbole.

7.2

Le modle

Le modle est explicit dans le cas simple o une variable quantitative Y est explique par une
variable qualitative T J niveaux et une variable quantitative, appele covariable X. Le modle
scrit :
yij = 0j + 1j xij + eij
avec i = 1, ..., nj et j = 1, ...J.
Cela revient estimer une droite de rgression linaire de Y sur X pour chaque niveau j du
facteur T . Pour le niveau j, on estime les paramtres 0j , constante lorigine de la droite de
rgression, et 1j , pente de la droite de rgression.

7.3

La seconde paramtrisation

Comme pour les modles factoriels, SAS opre une reparamtrisation faisant apparatre des effets
diffrentiels par rapport un niveau de rfrence, en gnral le dernier niveau du facteur. Le
modle associ cette nouvelle paramtrisation scrit :
yij = 0J + (0j 0J ) +1J xij + (1j 1J ) xij + eij avec i = 1, ..., nj et j = 1, ...J 1.
{z
}
{z
}
|
|
0j
1j

Le dernier niveau est considr comme le niveau de rfrence caractris par 0J et 1J . Les
autres paramtres 0j et 1j reprsentent respectivement, pour chaque niveau j, lcart entre les
35

constantes lorigine des niveaux j et J, et lcart entre les pentes de rgression des niveaux j et J.
Cette paramtrisation permet de faire apparatre :
un effet dinteraction entre la covariable X et le facteur T (1j ) ;
un effet diffrentiel du facteur T sur la variable Y (0j ) ;
un effet diffrentiel de la covariable X sur la variable Y (1 J).

7.4

Tests dhypothses

Comme pour le modle factoriel, il est important de suivre une dmarche logique dans la mise
en place des tests dhypothses. La premire tape doit consister tester lhypothse de noninteraction entre le facteur T et la covariable X :
H0i : 11 = 12 = ... = 1J 11 = 12 = ... = 1J1 = 0
en comparant le modle dit complet :
yij = 0J + 0j + 1J xij + 1j xij + eij avec i = 1, ..., nj et j = 1, ...J 1.
au modle sans interaction :
(i) yij = 0J + 0j + 1J xij + eij
Si on rejette cette hypothse, on conclut la prsence dinteractions dans le modle. Il est alors
inutile de tester labsence deffet du facteur T ou de la covariable X sur Y , car toute variable
constituant une interaction doit appatre dans le modle.
En revanche, si ce premier test montre que lhypothse H0i est vraisemblable et quil nexiste pas
dinteraction entre T et X (les J droites de rgression partagent la mme pente de rgression),
on peut alors valuer leffet de la covariable X sur Y et celui du facteur T sur Y .
On peut tester deux hypothses en comparant le modle sans interaction :
yij = 0J + 0j + 1J xij + eij avec i = 1, ..., nj et j = 1, ...J 1.
chacun des modles rduits suivants :
(ii) yij = 0J + 0j + eij
correspondant lhypothse dabsence deffet de la covariable X sur Y
H0ii : 11 = 12 = ... = 1J = 0
Seul le facteur T explique Y , on met en place un modle un facteur.
(iii) yij = 0J + 1J xij + eij
correspondant lhypothse dabsence deffet du facteur T sur Y
H0iii : 01 = 02 = ... = 0J 01 = 02 = ... = 0J1 = 0
Les J droites de rgression partagent la mme constante lorigine, seule la covariable X
explique Y : on met en place un modle de rgression linaire simple.
Ces diffrentes hypothses sont testes en comparant le modle complet au modle rduit par la
statistique de Fisher-Sndcor :
Fcal =
o :

(SSR0 SSR1 )/q


F (q, ddl)
SSR1 /ddl

SSR1 est la somme des carrs des rsidus du modle complet,


SSR0 est la somme des carrs des rsidus du modle contraint,
q est le nombre de contraintes poses sous lhypothse nulle, cest--dire le nombre de
paramtres dans le modle complet - le nombre de paramtres dans le modle comtraint,
ddl est le nombre de degrs de libert associ aux rsidus du modle complet, cest--dire le
nombre dobservations - le nombre de paramtres dans le modle complet.
Cette statistique est comparer la valeur limite F (q, ddl). Si Fcal est suprieure cette valeur
limite, on rejette lhypothse nulle.

Chapitre 8

Quelques rappels de Statistique et de


Probabilits
8.1

Gnralits

Dfinition : Une unit statistique est un individu ou objet sur lequel on effectue des mesures
ou observations. Les units statistiques sont numrotes de 1 n ; on note I = {1, . . . , n} cet
ensemble dindices.
Lensemble des individus pourra tre un chantillon (une partie) dune population plus grande.
Sous des hypothses fondes sur la thorie du calcul des probabilits, il sera possible de dduire
dobservations sur lchantillon des conclusions applicables lensemble de la population. Cest
lobjet de la statistique infrentielle. On parlera alors de variable alatoire, et une valeur observe
sera appele une ralisation de la variable alatoire.
Lensemble des observations pourra aussi concerner toute la population. On parle alors de donnes
exhaustives. Dans ce cas, et mme dans le cas dobservations partielles, on peut avoir comme seul
objectif de dcrire les donnes observes, sans chercher tablir de loi valable pour des cas non
observs. Cest le but de la statistique descriptive.
Dfinition : On appelle variable statistique (ou simplement variable) un ensemble de n observations de mme type effectues sur les n individus.
Typologie des variables statistiques
On dit quune variable est quantitative quand elle prend ses valeurs dans lensemble des rels.
Si elle prend ses valeurs dans un ensemble dont le nombre dlments est fini, on dit quelle
est qualitative (on dit aussi catgorielle ou nominale). Pour ce type de variable, dans le cadre du
modle linaire, on parle de facteurs. Lensemble des valeurs dune variable qualitative est appel
lensemble des modalits de la variable ; pour un facteur, on parle de lensemble des niveaux du
facteur. Si lensemble des modalits possde une structure dordre, on parle de variable ordinale
ou qualitative ordonne.
Notations des variables quantitatives
On note yi lobservation relative lindividu i. La variable quantitative y est identifie au vecteur
de IRn de coordonnes yi . Tous les vecteurs sont par convention reprsents en colonne et not en
caractres latin minuscule gras. Un scalaire est dsign par un caractre grec (ou latin) ordinaire,
une matrice par une lettre majuscule. On note donc dans la suite :

y1
...

IRn
y=
y
i

...
yn
38

une variable observe sur les n individus. On parlera aussi du vecteur des observations. Lorsquil
y a plusieurs variables, elles sont indices par j (j = 1, . . . , p, indice plac en haut), et on note yj
la j-me variable. Ainsi pour p variables :
j
1
p
y1
y1
y1
...
...

1
. .p.
j
1
p
j

y = yi , . . . y = yi , . . . y = yi
.

...

...
...
1
j
yn
ynp
yn

Lespace IRn est appel espace des variables.

8.2
8.2.1

Indicateurs statistiques pour variables quantitatives


Moyenne empirique dune variable

Dfinition : La moyenne empirique dune variable y est dfinie par :


n

y =

1X
yi
n
i=1

Proprit caractristique : a IR est la moyenne empirique de la variable y


n
X
(yi a) = 0
i=1

Proprit : Lapplication qui une variable y de IRn associe sa moyenne empirique est une
forme linaire sur IRn (application linaire de IRn dans IR).

Dfinition :
Une variable de moyenne nulle est dite centre ;
soit 1n le vecteur de IRn dont toutes les coordonnes sont gales 1, alors :

y1 y

..

yi y = y y1n

..

.
yn y

est appele variable centre de y . Ses valeurs sont les carts la moyenne de la variable y.

8.2.2

La covariance empirique

Dfinition : La covariance empirique de y et z scrit :


n

i=1

i=1

1X
1X
(yi y)(zi z) =
yi zi yz.
cov(y, z) =
n
n
Proprit : La covariance empirique possde les proprits suivantes :
cov(y, z) = cov(z,
P y) P
cov(y, z) = 2n1 2 ni=1 i I (yi yi )(zi zi )
La covariance est une forme bilinaire :
linarit droite : pour tous rels , , pour toutes variables z et t :
cov(y, z + t) = cov(y, z) + cov(y, t),
linarit gauche : sobtient de la mme manire par permutation.
La covariance dune variable avec une constante est nulle.

8.2.3

Variance empirique et cart-type empirique

Dfinition : La variance empirique de y est :


var(y) = cov(y, y) =
Lcart-type empirique est y =

i=1

i=1

1X
1X 2
(yi y)2 =
yi y2
n
n

var(y).

Proprit : La variance possde les proprits suivantes :


var(y) = 0 P
i P
I, yi = y y est une variable constante.
var(y) = 2n1 2 ni=1 i I (yi yi )2
et IR :
var(y + 1n ) = var(y) = 2 var(y)
La transformation y y + 1n correspond un changement de lorigine de lchelle des
mesures, et la transformation y y correspond un changement dunit.

Dfinition : On appelle variable centre rduite associe y la variable z = (zi )ni=1 telle que :
zi =

(yi y)
y

Proprit : z est une variable centre rduite si et seulement si z = 0 et var(z) = 1 .

8.2.4

Cfficient de corrlation linaire empirique

Dfinition : Le cfficient de corrlation linaire empirique de y1 et y2 est :


r(y1 , y2 ) = p

cov(y1 , y2 )
var(y1 )var(y2 )

Proprit : Le cfficient de corrlation linaire vrifie les proprits suivantes :


r(y, y) = 1 ; r(y1 , y2 ) = r(y2 , y1 ) ; r(y1 , y2 ) [1, +1]
r(y1 , y2 ) = 1 et | i I : yi1 = yi2 + avec signe() = signe(r) .
, , , IR, r(y1 + 1n , y2 + 1n ) = signe( ) r(y1 , y2 ).
Deux variables de corrlation linaire nulle sont dites non corrles. Attention, le cfficient de
corrlation linaire ne mesure la liaison que lorsque celle-ci est de type linaire. Il suppose aussi
une "bonne" rpartition des observations. On donne figure 8.1. des exemples de diagrammes de
dispersion de paires de variables statistiques : pour chaque paire, on donne la valeur du coefficient
de corrlation empirique. En cas de liaison non linaire, on peut utiliser le cfficient de corrlation
des rangs : on ne sintresse alors qu lordre des observations. Pour le calculer, on remplace dans
la formule donnant le cfficient de corrlation linaire empirique, les valeurs de chaque variable
par les rangs des valeurs observes.

8.2.5

Interprtation gomtrique de quelques indices statistiques

On munit lespace des variables IRn du produit scalaire dfini par :


n

< x, x >=

1X
xi xi ,
n
i=1

et on

note k k la norme associe : kxk =< x, x >1/2 . Si x est la variable centre de y, on a :


y =< y, 1n >
y est centr y 1n
x est la projection orthogonale de y sur le sous-espace vectoriel 1
n ;

1.0

r= -0.995

1.0

r= 0.056

1.0

r= 0.997

z2
0.0

-0.5

0.0
z1

0.5

1.0

-0.5

0.5

1.0

-1.0

1.0

-0.5

0.5

1.0

0.0
z1

0.5

1.0

0.5

z2
0.0

0.5

1.0

r= 0.985

z2
0.0

0.5

-0.5

-1.0

-0.5

0.0
z1

0.5

1.0

-1.0

-0.5





-0.5

-1.0

r= -0.943

1.0

1.0

0.0
z1

-1.0

-1.0

-1.0

-1.0

-1.0
0.5

z2
0.0
-0.5

r= 0.794

-1.0

-0.5

-0.5

z2
0.0

z2
0.0

z2
0.0
-0.5

0.0
z1

1.0

1.0

-0.5

0.5

r= 0.121

-1.0

0.0
z1

-1.0

-0.5

r= -0.155

0.5

0.5

0.0
z1

1.0

1.0

r= 0.895

-1.0
-1.0

0.5

-1.0

-1.0

-1.0

-0.5

-0.5

z2
0.0

z2
0.0

-0.5

0.5

0.5

0.5

-0.5

0.0
z1

0.5

1.0




-1.0

-0.5

0.0
z1

0.5

1.0

Fig. 8.1 Coefficient de corrlation linaire empirique dans diffrents cas de figures
var(y) = ky y1n k2 = kxk2 ;
cov(y1 , y2 ) =< y1 y1 1n , y2 y2 1n >=< x1 , x2 > ;
< x1 , x2 >
< y1 y1 1n , y2 y2 1n >
=
= cov(x1 , x2 )
r(y1 , y2 ) =
1 kkx2 k

1
1
2
2
kx
ky y 1n kky y 1n k

8.2.6

Expressions matricielles

Soit p variables quantitatives {yj , j = 1, . . . , p} o yj est le vecteur colonne de IRn dlments yij .
Enfin Y et X sont les matrices n p de colonnes yj et xj respectivement.
Dfinition : La matrice n p contenant les variables yj en colonne est appele tableau de
donnes ; la matrice X, contenant en colonne les variables centres, est le tableau centr.
Dfinition : La matrice dfinie par jk = cov(yj , yk ) est appele matrice de variancecovariance empirique des variables y1 , . . . , yp .
On a comme expressions matricielles :
yj = n1 (yj ) 1n = n1 1n yj ;
cov(yj , yk ) = n1 (yj yj 1n ) (yk yk 1n ) = n1 (xj ) xk
var(yj ) = n1 (yj yj 1n ) (yj yj 1n ) = n1 (xj ) xj
= n1 X X
P
j
Soit a = (aj )jJ et b = (bj )jJ deux vecteurs de IRp . Alors Y a =
jJ aj y , Y b =
P
P
P
k
j
k

kJ bk y et cov( jJ aj y ,
kJ bk y ) = a b
Proprit : La matrice est symtrique ( = ) et positive (pour tout vecteur u de IRp ,
u u > 0).

Dfinition : La matrice de corrlation empirique dun ensemble de p variables yj (j = 1, . . . , p)


est une matrice carre dordre p dont llment (i, j) est la corrlation r(yi , yj ).
On a des proprits analogues celle de la matrice de covariance. En particulier si X dsigne la
matrice ayant en colonnes les variables centres et rsuites, alors la matrice des corrlations est

R = X DX. De plus, cette matrice est un rsum de lensemble des liaisons entre les variables deux
deux. On peut comparer la matrice de corrlation la matrice des diagrammmes de dispersion.

8.3
8.3.1

Rappels sur quelques lois de probabilit


La distribution Normale N(, 2 )

Dfinition :
Une v.a. V est distribue normalement de moyenne et de variance 2 , note N (, 2 ), si sa
densit est dfinie par :
1
(v )2
f (v) = exp
; v IR
2 2
2
Si a et b sont deux scalaires, aV + b est distribue selon une loi Normale N (a + b, a2 2 ).
Dfinition :
Une v.a. Z est distribue selon une loi Normale centre rduite si elle est dfinie comme :
Z=
et sa densit est :

V
N (0, 1)

z2
1
f (z) = exp( )
2
2

Proprits :
E(Z 3 ) = 0 et E(Z 4 ) = 3.
De plus, un avantage est que cette loi est tabule.
Les variables normales possdent la proprit dadditivit :
La somme de deux variables X1 et X2 indpendantes suivant
p des lois normales N (m1 , 1 )
et N (m2 , 2 ) respectivement, est une variable N (m1 + m2 , 12 + 22 ).
Cependant, toute combinaison linaire de p variables normales non indpendantes est
normale condition que le vecteur des p variables normales suive une loi normale p
dimensions.

8.3.2

La distribution n-Normale Nn (, )

Dfinition :
Soit V = (V1 , V2 , ..., Vn ) un n-uplet, V est distribue selon une loi n-Normale Nn (, ) o IRn
et est une matrice (n, n) dfinie positive, si sa densit f est dfinie par
f (v) =

(v ) 1 (v )
1
exp(
)
2
(2)n/2 det()

Proprits :
est la matrice de variance-covariance de V de dimension (n, n) :
Si V = (V1 , V2 , ..., Vn ) alors jk = cov(Vj , Vk ).
Si = diag(1 , 2 , ..., n ), V1 , V2 , ..., Vn sont indpendantes.
Si V1 N (1 , 12 ), V2 N (2 , 22 ), et V1 et V2 indpendantes alors




 2

V1
1 0
1
N2
, =
V2
2
0 22
Cette proprit reste vraie en n dimensions : Si V Nn (, 2 In ), dans toute base
orthonorme de IRn , les composantes de V V1 , V2 , ..., Vn sont indpendantes, gaussiennes,
de variance 2 et E(Vi ) est la i-me composante de dans cette base.


V1
ne suit pas en gnral une loi Binormale.
V2
Si V est Nn (, ) et si A est une matrice (m, n) de rang m, alors
Si V1 et V2 ne sont pas indpendantes,

AV Nm (A, AA )
La distribution marginale de chaque composante du vecteur V est une loi Normale.

La distribution de 2

8.3.3

Dfinition :
La distribution du 2 est la distribution de la somme des carrs de m v.a. gaussiennes centres,
rduites et indpendantes :
2 =

m
X
i=1

E(Vi4 )

Vi2 2m

avec Vi N (0, 1) et indpendantes.

= 3 et V ar(Vi ) = E(Vi2 ) = 1 donc E(2 ) = m et V ar(2 ) = 2m.


m est le degr de libert.
La densit de la distribution de 2m est f dfinie par :
m
1
v

v 2 exp( 2 )
si v > 0
m
m
f (v) =
2 (
2
)
2

0
si v < 0
Proprits :

Si deux variables de 2 de degrs m1 et m2 sont indpendantes, leur somme est un 2 de


degr de libert m1 + m2 .
Pour n grand, on peut approcher la distribution 2m par la distribution N (m, 2m).
Si les variables alatoires Vi ne sont pas indpendantes, mais vrifient k relations linaires,
le nombre de degrs de libert diminue de k.
On rencontre quelquefois une distribution de 2 dcentre qui est la distribution de la
somme des carrs de m v.a. gaussiennes V1 , V2 , ..., Vm indpendantes avec E(Vi ) = i et
m
X
2i . On
V ar(Vi ) = 1 ; son degr de libert est m ; son paramtre de dcentrage est =
montre que E(2m, ) = m + et V ar(2m, ) = 2m + 4.

8.3.4

i=1

La distribution de Student

Dfinition :
La distribution de Student est la distribution de la v.a. T dfinie par :
T =p

V1
Student(m)
V2 /m

avec V1 N (0, 1), V2 2m , et V1 et V2 indpendantes.

Son degr de libert est m. Sa densit est symtrique par rapport 0 et est dfinie par :
f (v) =
La moyenne est 0 et la variance

(1 +

v2 m+1
1 m
2 ( ,
m)
2 2) m

m
pour m > 3.
m2

Pour m = 5, P [2.57 6 T 6 2.57] = 0.95 et P [4.03 6 T 6 4.03] = 0.99.


Pour m = 10, P [2.23 6 T 6 2.23] = 0.95 et P [3.17 6 T 6 3.17] = 0.99.
Pour m grand, on peut approcher la distribution de Student par la distribution N (0, 1).

8.3.5

La distribution de Fisher-Sndcor

Dfinition :
La distribution de Fisher-Sndcor est la distribution de la v.a. F dfinie par :
F =

V1 m2

F (m1 , m2 )
V2 m1

o V1 2m1 , V2 2m2 , V1 et V2 indpendantes.


m1 est le degr de libert attach V1 (degr de libert du numrateur) et m2 est le degr de
m2
. Sa densit est
libert attach V2 (degr de libert du dnominateur). Sa moyenne est
m2 2
nulle sur IR2 .
Proprits :
V F (m1 , m2 ) alors V1 F (m2 , m1 ).
Si m1 = 1 alors V1 est le carr dune v.a. N (0, 1) :
(N (0, 1))2
=
F =
V2 /m2

N (0, 1)
p
V2 /m2

!2

F est donc le carr dune v.a. de Student de degr de libert m2 : F = T 2 o T


Student(m2 ).

8.4

Rappels de statistique infrentielle

Soit X une variable alatoire de loi P o dsigne un paramtre inconnu estimer. Lobjectif
de la statistique infrentielle est de produire une infrence sur (estimation ou test) sur la base
dun chantillon de n observations (x1 , ..., xi , ..., xn ) o xi est la ralisation de Xi ; les Xi tant
supposs en gnral i.i.d. (cest dire indpendants et identiquement distribus) de loi P . Dans
cette section, dsigne un paramtre rel, valeurs dans IR.

8.4.1

Estimation ponctuelle, estimation par intervalle de confiance

Estimateur et estimation
On appelle estimateur de toute fonction des Xi valeurs dans . Un estimateur de est souvent
not bn . La premire qualit dun estimateur est dtre convergent : ce qui signifie que bn converge
(en probabilit) vers quand n . Il est galement souhaitable dutiliser des estimateurs sans
biais, cest dire tels que E(bn ) = . Si bn est not Tn (X1 , . . . , Xn ) alors Tn (x1 , . . . , xn ) sappelle
une estimation ponctuelle de . Il est important de raliser quune estimation de est une grandeur
numrique alors quun estimateur de est une variable alatoire.
Dfinition dun intervalle de confiance
On appelle intervalle de confiance dun paramtre associ un n-chantillon (X1 , X2 , ..., Xn ), un
intervalle I = [A, B] dont les bornes A et B sont des fonctions des Xi , et tel que P (I ) = 1 ;
1 sappelle le niveau de confiance de lintervalle de confiance. Il est important de noter que I
est un intervalle alatoire au sens o les bornes A et B sont alatoires.

8.4.2

Notions gnrales sur la thorie des tests paramtriques

La thorie des tests paramtriques consiste formuler des hypothses particulires sur le paramtre
de la loi P ; puis apporter un jugement sur ces hypothses (plus particulirement, trancher
entre deux hypothses). Ce jugement est bas, dune part, sur les rsultats obtenus sur un ou
plusieurs chantillons extraits de la population tudie et dautre part, sur lacceptation dun

certain risque dans la prise de dcision. A titre indicatif, les tests peuvent tre classs en diffrentes
catgories :
test sur une hypothse relative la valeur particulire dun paramtre,
test de conformit de deux distributions ou test dajustement entre une distribution
thorique et une distribution exprimentale,
test de comparaison de deux populations,
test dindpendance de deux caractres dans un tableau de contingence.
Formulation des hypothses
On veut tester une hypothse, que lon appelera hypothse nulle note H0 savoir :
H0 : = 0
contre une hypothse alternative note H1 . Cette hypothse H1 peut se formuler de diffrentes
faons :
6= 0 ou > 0 ou < 0 ou = 1 .
La dcision (cad : choisir soit H0 , soit H1 ) se faisant sur la base des observations x1 , . . . , xn .

Risques et probabilits derreur


Pour des vnements dans lesquels le hasard intervient, toute dcision prise comporte un certain
risque que cette dcision soit errone. On peut par exemple accepter un risque gal 5% de rejeter
lhypothse H0 alors quelle est vraie ; cest aussi le risque daccepter tort lhypothse H1 . Ce
risque, not , est le risque de rejeter tort lhypothse H0 alors quelle est vraie. On lappelle
risque de premire espce :
= P (rejeter H0 / H0 vraie) = P (choisir H1 /H0 vraie)
On appelle rgion critique quon note en gnral W (ou parfois Rc ), lensemble des valeurs de
la v.a. de dcision (appele statistique de test) qui conduisent carter H0 au profit de H1 . La
rgion complmentaire W reprsente la rgion dacceptation de H0 . La rgle de dcision peut se
formuler ainsi : si la valeur de la statistique de test considre appartient la rgion dacceptation
W , on choisit H0 ; si elle appartient la rgion critique W , on choisit H1 .
Il existe un deuxime risque derreur appel risque de deuxime espce et not risque . Cest le
risque de ne pas rejeter H0 alors que H1 est vraie :
= P (ne pas rejeter H0 / H1 vraie) = P (choisir H0 / H1 vraie)
En introduisant la rgion critique, on peut aussi crire :
P (W /H0 ) = 1 P (W/H1 ) = 1
La quantit 1 sappelle la puissance du test. Elle reprsente la probabilit de ne pas rejeter
H0 alors que H1 est vraie. Ces diffrentes situations sont rsumes dans le tableau suivant :
Vrit
H0
H1
Dcision
H0 (W ) 1

H1 (W )

1
Comme indiqu prcdemment, lhypothse alternative H1 peut se formuler de diffrentes faons.
On peut visualiser ces diffrentes hypothses H1 et montrer ainsi la forme de la rgion critique :
Test unilatral droite
H0 : = 0
H1 : > 0

Test unilatral gauche


H0 : = 0
H0 : < 0

Test bilatral
H0 : = 0
H1 : 6= 0
Dmarche de construction dun test
Pour laborer un test statistique portant sur , il faut suivre la dmarche suivante :
1. Formuler de faon prcise lhypothse nulle H0 et lhypothse alternative H1 .
2. Fixer, avant lexprience, le risque de premire espce , cest--dire le risque de rejeter
tort lhypothse nulle alors quelle est vraie.
3. Prciser les conditions dapplication du test : forme de la loi de probabilit de lestimateur
du paramtre dintrt, taille de lchantillon, variance connue ou inconnue, ....
4. Choisir une statistique de test, cest--dire une fonction de (X1 , ...Xn ) gale Tn ou
intimement lie Tn , et donner sa loi de probabilit sous les hypothses nulle et alternative.
5. Dterminer la rgion critique ou rgion de rejet de lhypothse nulle H0 compte tenu de H1
et en dduire la rgle de dcision.
W : rgion critique conduisant au rejet de H0 : P (W/H0 ) =
W : rgion de non-rejet (ou dacceptation) de H0 : P (W /H0 ) = 1

6. Calculer la valeur numrique de la statistique de test en utilisant les donnes de lchantillon.


7. Donner les conclusions du test :
Si cette valeur appartient W , on rejette H0 au profit de H1 ;
Si cette valeur appartient W , on ne peut pas rejeter H0 .

You might also like