Professional Documents
Culture Documents
Méthodes de régression
Chapitre 17
Inférence classique pour la régression simple
Dans le Chapitre 3, le modèle de régression simple a été introduit. Ce modèle décrit la
relation entre deux variables X et Y à l’aide d’une droite. X est la variable explicative et
Y la réponse. Les coefficients a (intercept) et b (pente) de la droite sont déterminés à l’aide
d’un échantillon (x1 , y1 ), . . . , (xn , yn ): le critère des moindres carrés fournit les estimations
â et b̂. Les méthodes d’inférence permettent de tester des hypothèses telles que “b (ou a)
est égal à une valeur spécifiée” et de déterminer des intervalles de confiance pour a et b.
Dans ce chapitre, nous utilisons les notations introduites au Chapitre 3.
X1 X2 X3 X4 ... Xn
Remarques
1. Souvent les Xi sont obtenus de façon aléatoire simultanément aux Yi . Dans ce cas,
il faudra interpréter les résultats concernants la distribution des estimateurs de façon
conditionnelle, les valeurs obervées des Xi étant données.
A.
c Marazzi
17.2
yi = a + bxi + ui , i = 1, . . . , n.
Notez que les erreurs ui ne sont pas observables (car a et b sont inconnus).
3. On dit que les équations Yi = a + bxi + Ui caractérisent la “structure du modèle”,
tandis que les conditions 2 et 3 caractérisent la “partie aléatoire du modèle”. Une autre
expression de la structure du modèle est
E(Y |X = x) = a + bx.
où
n
2 1 x̄2 1
σ (â) = + σ2, σ (b̂) = 2 · σ 2 ,
2
s2xx = (xi − x̄)2 .
n s2xx sxx i=1
En outre, si ŷx = â + b̂x indique la réponse calculée en fonction d’une valeur x donnée,
alors ŷx suit une distribution de Gauss de moyenne yx = a + bx et de variance
2 1 (x − x̄)2 2
σ (ŷx ) = + σ .
n s2xx
Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. Mais en
pratique, σ 2 est presque toujours inconnu et il faut l’estimer. Dans ce but, on utilise
l’estimateur
n
2 1 2
σ̂ = e ,
n−2 1 i
où ei = yi −(â+ b̂xi ). (Noter que les résidus observés ei ne sont pas les erreurs aléatoires Ui
et que σ̂ 2 est noté s2E au Chapitre 3.) Des estimations σ̂ 2 (â), σ̂ 2 (b̂) et σ̂ 2 (ŷx ) des variances
de â, b̂ et ŷx sont alors obtenues des expressions de σ 2 (â), σ 2 (b̂) et σ 2 (ŷx ), en remplaçant
σ 2 par σ̂ 2 . On démontre alors que:
– La variable aléatoire (n − 2)σ̂ 2 /σ 2 suit une distribution χ2 à n − 2 degrés de liberté.
– Les estimateurs standardisés
A.
c Marazzi
17.4
relation (relation non linéaire, variance non homogène) ne doit apparaı̂tre. Si une relation
apparaı̂t le modèle de Gauss et les inférences obtenues avec son appui doivent être mis en
doute.
17.6 Exemple
La Table 1 donne les temps t [s] de chute d’une bille lâchée de différentes hauteurs h
[m]. Les mesures ont été prises par une étudiante du gymnase aux travaux pratiques de
physique, dans le but de vérifier la relation h = (1/2)γt2 avec γ = 9.81 [m/s2 ].
Les points (hi , t2i ), avec t2i = t2i sont représentés dans la Figure 2. L’allure est celle d’une
relation linéaire; la relation entre h et t2 peut donc être décrite par le modèle h = a+b·(t2).
Un programme de régression simple donne les résultats suivants:
Coefficients:
Value Std.Error t value Pr(>|t|)
Intercept a 0.0001 0.0076 0.0176 0.9861
Pente b 4.8320 0.0917 52.6938 0.0000
Residual standard error: 0.01712 on 38 degrees of freedom
Multiple R-Squared: 0.9865
Correlation of Coefficients:
Intercept
b -0.9346
17.5
â = 0.0001, b̂ = 4.8320
σ̂(â) = 0.0076, σ̂(b̂) = 0.0917.
â
= 0.0176, P(|t38 | > 0.0176) = 0.9861,
σ̂(â)
b̂
= 52.6938, P(|t38 | > 52.6938) = 0.0000,
σ̂(b̂)
où t38 indique une variable aléatoire qui suit une distribution t à 38 degrés de liberté. Il
faut donc retenir l’hypothèse a = 0 et rejeter l’hypothèse b = 0. En supprimant l’intercept
on obtient:
Coefficients:
Value Std.Error t value Pr(>|t|)
Pente b 4.8335 0.0322 150.1507 0.0000
La pente de la droite est maintenant b̂ = 4.8335. On remarquera que 2b̂ = 9.6670 est
une estimation de l’accélération de gravité γ. Pour construire un intervalle de confiance
pour γ calculons le percentile 97.5% de la distribution t à 39 degrés de liberté. On trouve
t97.5%,39 = 2.0226, et donc
est un intervalle de confiance avec coefficient de couverture 95% pour γ. Selon ce calcul
il faut alors rejeter l’hypothèse que l’accélération est 9.81 [m/s2 ] (et ceci, au niveau 5%).
Toutefois, l’analyse des résidus des Figures 3 et 4 indique que la condition de normalité des
erreurs n’est pas bien satisfaite. L’inférence basée sur cette condition est alors douteuse.
Voir la remarque ci-dessous.
Dans la Figure 5 plusieurs intervalles de confiance pour les hauteurs h = a + b(t2) sont
représentés par les lignes traitillées. Pour leur calcul, la valeur de t97.5%,38 = 2.024 a été
utilisée. La ligne continue est obtenue selon la règle décrite dans le Complément 2 (avec
F95%,2,38 = 3.245).
Remarque. Nous avons ajusté le modèle h = b · (t2) + erreur car il fournit directement
une estimation et un intervalle de confiance pour γ = 2b selon les formules des sections
précédentes. Toutefois, dans l’expérience, les temps de chute ont été mesurés en fonction
d’hauteurs préfixées. Il est donc préférable d’ajuster le modèle t2 = c + d · h + erreur.
A.
c Marazzi
17.6
Coefficients:
Value Std.Error t value Pr(>|t|)
Pente d 0.2065 0.0014 150.1507 0.0000
0.02
Residus
Residus
-0.02
-0.02
-0.06
-0.06
0.6
••• •
••• •
••• •
• •••
Hauteur
0.4
•• ••
• •• •
•• •
0.2 ••• •
••• •
• •• •
0.0
Temps**2
A.
c Marazzi
17.8
Compléments
1. Conséquences théoriques du modèle de Gauss
a. Les conditions 1 et 2 impliquent que les estimateurs des moindres carrés â et b̂ ne sont
pas biaisés pour a et b (Chapitre 9, Complément 1: E(â) = a, E(b̂) = b).
b. Sous les conditions 1 et 2, σ̂ 2 est un estimateur sans biais de σ 2 .
c. Les conditions 1 et 2 impliquent que les estimateurs â et b̂ sont les estimateurs de vari-
ance minimale parmi tous les estimateurs linéaires en y1 , . . . , yn et sans biais (théorème
de Gauss-Markov).
d. Les conditions 1, 2 et 3 impliquent que les estimateurs â et b̂ sont les estimateurs de
variance minimale parmi tous les estimateurs de a et b.
2. Bandes de confiance
Supposons de construire des intervalles de confiance avec coefficient de couverture 1 − 2α
pour yx = a + bx et pour différentes valeurs de x: x = x1 , x = x2 , etc. Supposons ensuite
que nous joignions les extrémités supérieures et les extrémités inférieures, obtenant ainsi les
deux courbes comme celles indiquées en traitillé dans la Figure 5. Il serait faux d’affirmer
que la région entre les deux courbes couvre l’ensemble de toutes les valeurs de a + bx avec
probabilité 1 − 2α. (Si Ii est l’intervalle de confiance pour yxi et P (yxi ∈ Ii ) = 1 − 2α
pour i = 1, . . . , n, on ne peut pas conclure que P (yx1 ∈ I1 ∩ . . . ∩ yxn ∈ In ) = 1 − 2α.) Une
région de confiance “simultanée” pour tous les yx peut être obtenue (Miller R.G, 1966, p.
111) en joignant les extrémités supérieures et les extrémités inférieures des intervalles
[ŷx − σ̂(ŷx ) 2F1−2α,2,n−2 , ŷx + σ̂(ŷx ) 2F1−2α,2,n−2 ],
où F2α,2,n−2 est le percentile 1 − 2α de la distribution F à 2 et n − 2 degrés de liberté.
3. Intervalle de confiance pour un rapport
Soient â et b̂ des estimateurs sans biais de deux paramètres a et b. Notre objectif est
d’estimer le rapport r = a/b et de construire un intervalle de confiance pour r. Supposons
que â et b̂ suivent approximativement une distribution de Gauss et que
V (â) = vaa σ 2 , V (b̂) = vbb σ 2 , V (â, b̂) = vab σ 2 ,
où vaa , vab , vbb et σ sont connues. Alors, V (â − r b̂) = (vaa − 2rvab + r 2 vbb )σ 2 , et
(â − r b̂)2 2
P ≤ z1−α ≈ 1 − 2α,
V (â − r b̂)
où z1−α est le percentile 1 − α de la distribution de Gauss standard. Pour trouver les
limites rl et ru d’un intervalle de confiance avec coefficient de couverture 1 − 2α pour r,
il suffit donc de résoudre pour r l’équation quadratique (â − r b̂)2 = z1−α2
V (â − r b̂). Les
solutions sont
1/2
2
vab z1−α σ 2 vab
(rl , ru ) = r̂ − g ± vaa − 2r̂vab + r̂ vbb − g vaa − (1 − g),
vbb |b̂| vbb
2
où g = z1−α σ 2 vbb /b̂2 , et r̂ = â/b̂ est l’estimateur de r. Dans un problème de régression,
a et b sont souvent des coefficients, les valeurs de vaa , vab et vbb sont fournies par les
programmes (“matrice de covariance sans échelle”) et σ 2 est estimé par σ̂ 2 (avec n − 2
degrés de liberté). Il faut alors remplacer z1−α par t1−α,n−2 . Dans l’exemple (Section 6)
la valeur t97.5%,39 = 2.0226 a été utilisée.
18.1
Chapitre 18
Régression multiple: introduction
La régression multiple est l’une des méthodes les plus importantes en statistique. Son but
est d’étudier et modéliser la relation entre une variable réponse Y et plusieurs variables
explicatives X1 , X2 , . . ., Xp .
A.
c Marazzi
18.2
•
1.8 •
• •
• •
• • • • • • •• • •
1.6
•
log(Conc.)
•• • • •• •
••
• • • • • •
1.4
• •
• • •
• •
• •
1.2
5 10 15
Age
Nous indiquons par yi (i = 1, . . . , n) les valeurs de la variable réponse, par xi1 les valeurs de
la variable explicative X1 = Age et par xi2 les valeurs de la deuxième variable explicative
X2 = Age2 . Dans l’exemple,
y1 = ln(4.8), y2 = ln(4.1), ..., y43 = ln(5.1);
x11 = 5.2, x21 = 8.8, ..., x43,1 = 10.8;
x12 = (5.2)2 , x22 = (8.8)2 , ..., x43,2 = (10.8)2 .
Alors, une méthode fréquemment utilisée pour déterminer θ0 , θ1 , et θ2 consiste à les choisir
de façon que la somme
n
(yi − θ0 − θ1 xi1 − θ2 xi2 )2
i=1
soit minimale. C’est la méthode des moindres carrés. Les valeurs θ̂0 = 1.197, θ̂1 = 0.079
et θ̂2 = −0.004 ont été obtenues de cette façon. Avec ces valeurs on obtient la courbe
représentée dans la Figure 1.
18.3
Les appareils ont été échantillonnés dans trois groupes (“Lot”) provenant de trois fa-
bricants: A, B, C. Il faut étudier la relation entre la variable réponse “Quantité” et les
variables explicatives “Hrs” et “Lot”. Les données sont représentées dans la Figure 2.
B B CC
A C
A
30
30
30
C
C CC
B
A B C
25
25
25
Quantite
Quantite
Quantite
B
A
C
A AAA
20
20
20
B
B
15
15
15
BB
100 200 300 400 100 200 300 400 100 200 300 400
A.
c Marazzi
18.4
En définissant Y = Quantité et X4 = Hrs, on peut alors décrire les données par le modèle
Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4 (2)
et déterminer les coefficients θ1 , θ2 , θ3 et θ4 à l’aide des données. Ces coefficients sont les
intercepts des trois droites parallèles Y = θ1 + θ4 X4 , Y = θ2 + θ4 X4 et Y = θ3 + θ4 X4 qui
décrivent les relations entre Quantité et Hrs pour les trois groupes.
La méthode des moindres carrés pour déterminer θ1 , θ2 , θ3 , et θ4 consiste à les choisir de
façon que la somme
n
(yi − θ1 xi1 − θ2 xi2 − θ3 xi3 − θ4 xi4 )2
i=1
soit minimale. Dans l’exemple on trouve θ̂1 = 32.13, θ̂2 = 36.11, θ̂3 = 35.60, θ̂4 = −0.06,
ce qui signifie que pour les données du groupe A, Y ≈ 32.13 − 0.06X4 , pour les données
du groupe B, Y ≈ 36.11 − 0.06X4 , et pour celles du groupe C, Y ≈ 35.60 − 0.06X4 . Ces
trois droites sont indiquées dans les diagrammes de la Figure 2.
Une autre façon de “paramétriser” le modèle utilise seulement deux variables indicatrices,
par exemple, X1 et X2 :
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ4 X 4 . (3)
Dans ce cas, θ0 est l’intercept de la droite du groupe C, tandis que θ1 et θ2 sont les écarts
entre les intercepts de A et B par rapport à C, qui constitue le niveau de référence. La
méthode des moindres carrés donne θ̂0 = 35.60, θ̂1 = −3.47, θ̂2 = 0.51 et θ̂4 = −0.06.
L’intercept de A est donc 35.60 − 3.47 = 32.13 et celui de B est 35.60 + 0.51 = 36.11.
En général, pour coder un facteur à deux niveaux il suffit d’utiliser une seule variable
indicatrice (pour la présence ou l’absence de l’une des deux caractéristiques). Pour coder
un facteur à k niveaux il suffit d’utiliser k − 1 variables indicatrices.
Remarque. Les coefficients θ0 , . . . , θ4 du modèle
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4
ne peuvent pas être déterminés de façon unique. En effet, une infinité de valeurs de θ0 , θ1 , θ2
et θ3 peuvent fournir θ0 + θ1 = 32.13, θ0 + θ2 = 36.11 et θ0 + θ3 = 35.60.
Modèle avec interactions. Pour décrire les quantités d’hormone distribuées par trois ap-
pareils nous avons utilisé trois droites parallèles. On peut se demander si un modèle plus
souple, avec trois droites non nécessairement parallèles, ne serait pas plus avantageux. La
modélisation des trois droites peut se faire en utilisant les variables indicatrices X1 , X2 et
X3 ainsi que trois variables supplémentaires X5 , X6 , X7 définies comme suit:
xi5 = Hrs de l’appareil i, si i appartient au Lot A,
= 0 si l’appareil i n’appartient pas au Lot A,
xi6 = Hrs de l’appareil i, si i appartient au Lot B,
= 0 si l’appareil i n’appartient pas au Lot B,
xi7 = Hrs de l’appareil i, si i appartient au Lot C,
= 0 si l’appareil i n’appartient pas au Lot C.
18.5
A.
c Marazzi
18.6
⎜ 1 x2 ⎟ a
X =⎜ ⎝ ... .. ⎟
⎠ , θ= .
. b
1 xn
La première colonne contient des “1” et sera associée à a; la deuxième contient les valeurs
de la variable explicative. On obtient ainsi
⎛ ⎞
a + bx1
⎜ a + bx2 ⎟
Xθ = ⎜ ⎝ .. ⎟
⎠
.
a + bxn
et les n equations caractérisant la structure modèle sont exprimées d’un seul coup par:
y = Xθ + u. (6)
Cette équation représente aussi les modèles de régression multiple si on définit de façon ap-
propriée la matrice X et le vecteur θ. Par exemple, pour exprimer le modèle (1) définissons
⎛ ⎞
1 5.2 5.22 ⎛ ⎞
⎜ 1 8.8 8.82 ⎟ θ0
⎜
X = ⎝ .. .. ⎟
.. ⎠ , θ = θ1 ⎠ .
⎝
. . . θ2
1 10.8 10.82
18.7
A.
c Marazzi
19.1
Chapitre 19
Ajustement du modèle de régression multiple
Ce chapitre considère quelques aspects du calcul des coefficients d’une régression par la
méthode des moindres carrés ainsi qu’une interprétation géométrique de cette méthode. Il
n’est pas requis pour les chapitres suivants.
Dans ce chapitre, la longueur d’un vecteur y sera notée par |y|: donc, |y| = (y T y)1/2 .
A.
c Marazzi
19.2
n
IR
y
y-v e
^v = ^y
O
v
r
V
Chapitre 20
Inférence classique pour la régression multiple
Ce chapitre étend les résultats du Chapitre 17 à la régression multiple. Nous considérons
la relation
Y ≈ θ1 X 1 + . . . + θp X p
entre une réponse Y et p variables explicatives X1 , . . . , Xp ; X1 pourrait être identique à
1, auquel cas, θ1 serait une constante additive.
Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. En pratique,
il faut presque toujours estimer σ 2 et, dans ce but, on utilise l’estimateur
n
2 1 2
σ̂ = e .
n−p 1 i
Des estimations Σ̂2 (θ̂) et σ̂ 2 (ŷx ) sont alors obtenues en remplaçant σ 2 par σ̂ 2 dans les
expressions de Σ2 (θ̂) et σ 2 (ŷx ). On démontre que:
– La variable aléatoire (n − p)σ̂ 2 /σ 2 suit une distribution χ2 à n − p degrés de liberté.
A.
c Marazzi
20.2
20.5 Exemples
Ajustement d’un polynôme. Nous considérons les données de la Table 1, Chapitre 18 et
ajustons le modèle
log(Concentration) ≈ θ0 + θ1 Age + θ2 Age2 .
On a les résultats suivants:
Coefficients:
Value Std.Error t value Pr(>|t|)
theta0 1.1973 0.0767 15.6040 0.0000
theta1 0.0787 0.0204 3.8673 0.0004
theta2 -0.0037 0.0012 -3.0406 0.0042
Correlation of Coefficients:
theta0 theta1
theta1 -0.8880
theta2 0.7678 -0.9696
A.
c Marazzi
20.4
Selon cette analyse, θ̂0 , θ̂1 et θ̂2 sont significativement différentes de 0 (au niveau 1%).
La courbe dessinée dans la Figure 1, Chapitre 18, soulève toutefois quelques doutes à
propos du modèle polynomial de deuxième degré, comme description de la relation entre
log(Conc.) et Age. En effet, on ne voit pas clairement pour quelle raison biologique la
relation devrait être décroissante pour Age> 10. Enfin, l’analyse graphique des résidus
fournie dans la Figure 1 suggère que la variance des erreurs croı̂t en fonction de l’âge. Il
s’agit d’une violation du modèle de Gauss qui soulève quelques doutes supplémentaires sur
la validité de l’inférence.
• • •
0.2
0.2
0.2
• • •
•• • • • •
• • •
••• • • • • • • • •• ••
•••••• • • •• •• • • •••
••••• • • • •• • •••
••• • •• •
0.0
0.0
0.0
Residus
Residus
Residus
•• • • •
• • ••
••••• • • • • •
• • •
•• • • • • •
• •
•• • • • •
•• • • • •
• • •
-0.2
-0.2
-0.2
•• • • ••
• • •
• • •
Figure 1. Analyse des résidus de la régression polynomiale. (1) Quantile-quantile plot des
résidus; (2) résidus versus âge; (3) résidus versus réponses calculées.
20.5
Correlation of Coefficients:
theta0 theta1 theta2
theta1 -0.4600
theta2 -0.2136 0.5164
theta4 -0.5847 -0.1787 -0.4900
L’analyse graphique des résidus fournie dans la Figure 2 ne contredit pas les hypothèses
classiques pour l’inférence. L’écart 0.5078 entre l’intercept du groupe B et l’intercept
de référence C (35.5973) n’est donc pas significativement différent de zéro. En d’autre
termes, l’hypothèse H0 : θ2 = 0 ne peut pas être rejetée, car P(|t23 | > 0.5849) = 0.5643.
Par contre, l’intercept de A est significativement plus petit que celui de C, car P(|t40 | >
4.5061) = 0.0002. La différence est visible dans la Figure 2 du Chapitre 18.
3
• B
• C
• • B A
2
• A
•• B C
1
• C
• B
Residus
Residus
•• • • A A CC
0
••• B
B A C
••• A A
• A
-1
-1
• C
•• B C
• B
-2
-2
• C
• A
• B
-3
-3
-2 -1 0 1 2 15 20 25 30 35
Quantiles of Standard Normal Reponses ajustees
Figure 2. Analyse des résidus du modèle pour les quantité d’hormone. (1) Quantile-
quantile plot des résidus; (2) résidus versus réponses calculées.
A.
c Marazzi
20.6
Ω: Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ5 X 5 + θ6 X 6 + θ7 X 7 .
Ce modèle Ω sera appelé le modèle complet. Il sera comparé au modèle réduit
ω: Y ≈ η1 Z1 + η2 Z2 + η3 Z3 + η4 Z4 ,
où Z1 = X1 , Z2 = X2 , Z3 = X3 et Z4 = X5 + X6 + X7 . Le modèle ω est obtenu de Ω en
utilisant les deux équations
H0 : θ 5 = θ 6 = θ 7 ,
qui représentent l’hypothèse de parallélisme. Dans le modèle ω, η4 représente la pente
commune des trois droites exprimées comme fonctions de Z4 = Hrs. L’hypothèse H0 est
un système de deux équations linéaires dans les coefficients:
θ5 − θ6 = 0,
θ5 − θ7 = 0.
On dit que H0 est une hypothèse linéaire.
Le coefficient R2 de Ω vaut 0.9971, tandis que celui de ω vaut 0.9966. La différence est
minime: en d’autre termes le gain en ajustement ne semble pas justifier le modèle plus
complexe.
Cas général
En général, soit
Ω: Y ≈ θ1 X 1 + . . . + θp X p
un modèle de régression multiple. Nous appellerons Ω le modèle complet. Nous supposons
que les conditions de Gauss s’appliquent à Ω. Une hypothèse linéaire est un système de r
équations indépendantes dans les coefficients, c’est à dire,
H0 : Aθ = 0
où A est une matrice p × p (de constantes) de rang r et θ = (θ1 , . . . , θp )T . En utilisant ces
équations il est possible d’exprimer r coefficients à l’aide des autres et d’obtenir ainsi un
modèle réduit
ω : Y ≈ η1 Z1 + . . . + ηq Zq ,
où q = p − r et Z1 , . . . , Zq sont des combinaisons linéaires de X1 , . . . , Xp .
20.7
Statistique de test
Les ajustement de Ω et ω aux données fournissent les vecteurs de résidus rΩ et rω . In-
diquons par |rΩ |2 et |rω |2 les sommes des carrés de leurs composantes, et soit
n−p
f= · |rω |2 − |rΩ |2 /|rΩ |2 .
p−q
Sous H0 , la variable aléatoire f suit une distribution F à p − q degrés de liberté (dans le
numérateur) et n − p degrés de liberté (dans le dénominateur). On peut donc rejeter H0
au niveau α si la valeur observée de f est supérieure au percentile 1 − α de la distribution
F à p − q et n − p degrés de liberté.
Remarque. Une expression équivalente de f est
2
(RΩ − Rω2 )/(p − q)
f= 2 )/(n − p) ,
(1 − RΩ
2
où RΩ et Rω2 indiquent les coefficients de détermination des modèles Ω et ω.
Exemple: continuation
Pour Ω on obtient
Coeff. Value Std.Error t value Pr(>|t|)
theta1 33.3601 1.2116 27.5343 0.0000
theta2 35.2061 1.0645 33.0726 0.0000
theta3 37.1937 1.5063 24.6918 0.0000
theta5 0.0062 0.0147 0.4241 0.6758
theta6 0.0182 0.0133 1.3659 0.1864
theta7 -0.0745 0.0127 -5.8490 0.0000
Les sommes des carrés des résidus sont obtenues à partir des erreurs standards des résidus:
|rΩ |2 = 50.8691 ≈ 21 · 1.5562 et |rω |2 = 59.2709 ≈ 23 · 1.6052 .
Ainsi,
27 − 6
f= · 59.2709 − 50.8691 /50.8691 = 1.7342.
6−4
Le percentile 95% de la distribution F à 2 et 21 degrés de liberté se situe à 3.4668. Il n’est
donc pas possible de rejeter l’hypotèse de parallélisme au niveau 5%.
A.
c Marazzi
20.8
Chapitre 21
Inférence par bootstrap pour la régression
Le bootstrap (Chapitre 16) permet de réaliser l’inférence sans faire appel à un modèle
mathématique de la distribution des données. Ce chapitre décrit le bootstrap pour la
régression multiple. Les notations du Chapitre 18 seront utilisées; en particulier, le symbole
xTi indiquera la i-ème ligne de la matrice X du modèle et yi la i-ème réponse observée.
On utilisera aussi l’abréviation zi = (xT
i , yi ).
A.
c Marazzi
21.2
21.3 Exemples
Exemple 1. Considérons les données de la Table 2, Chapitre 18, et le modèle ω du Chapitre
20, Section 6. La Figure 1 montre les histogrammes des 1000 valeurs simulées par bootstrap
des paires de η̂1 , η̂2 , η̂3 et η̂4 .
Les estimations bootstrap des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont: 0.798, 1.252,
0.645 et 0.004. Ces valeurs sont assez proches de celles fournies par la méthode classique
et reportées au Chapitre 20, Section 6. L’estimation bootstrap la moins semblable à
l’estimation classique est celle de l’erreur standard de η̂2 ; or, la distribution bootstrap de
η̂2 est clairement asymétrique.
Les intervalles percentiles de couverture 95% pour η1 , η2 , η3 et η4 sont respectivement:
[30.54, 33.74], [34.34, 39.46], [34.45, 37.02], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux continus dans la Figure 1. Les intervalles
classiques correspondants, obtenus par la méthode décrite au Chapitre 20, Section 3, sont:
[30.58, 33.68], [34.09, 38.11], [34.23, 36.96], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux en traitillé dans la Figure 1. Les intervalles
classiques et les intervalles percentile sont assez semblables dans cet exemple. Ce fait n’est
pas surprenant car, comme nous l’avions remarqué grâce à l’analyse graphique du Chapitre
20, Section 5, les hypothèses classiques pour l’inférence sont plausibles.
Exemple 2. Le bootstrap des résidus du modèle ω produit les histogrammes de la Figure 2.
Les estimations des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont respectivement 0.695, 0.926,
0.609, 0.003 et les intervalles percentiles de couverture 95% sont:
[30.78, 33.44], [34.26, 38.01], [34.44, 36.84], [−0.07, −0.05].
Les extrémités de ces intervalles sont indiquées par des segments verticaux dans la Figure 2.
Remarque. Le bootstrap fournit une approximation de la distribution conjointe de η̂1 ,
η̂2 , η̂3 et η̂4 . Cette distribution nous permet d’estimer, par exemple, la corrélation entre
les coefficients estimés. Les histogrammes dans la Figure 1 et Figure 2 représentent les
distributions marginales.
21.3
80
100
60
80
60
40
40
20
20
0
0
30 31 32 33 34 35 34 36 38 40 42
Theta 1 Theta 2
60
80 100
40
60
40
20
20
0
Theta 3 Theta 4
Figure 1. Histogrammes de 1000 valeurs simulées par bootstrap des paires des coefficients
de ω. Les traits verticaux continus indiquent les intervalles percentiles et les traits en
traitillé les intervalles de confiance classiques. La couverture est de 95% dans tous les cas.
80 100 120
80
60
60
40
40
20
20
0
30 31 32 33 34 34 35 36 37 38 39
Theta 1 Theta 2
60
60
40
40
20
20
0
Theta 3 Theta 4
Figure 2. Histogrammes de 1000 valeurs simulées par bootstrap des résidus des coefficients
de ω. Les segments verticaux indiquent les intervalles percentiles de couverture 95%.
A.
c Marazzi
21.4
0 2 4 6 8
Complément
Bootstrap d’un lissage non paramétrique.
La Figure 4 montre à nouveau les données de la Table 1, Chapitre 18. La ligne foncée, qui
représente une fonction (Age), est obtenue par un procédé de lissage non paramétrique
(“loess”). La description de ce procédé est en dehors du cadre de ce cours; voir, par
exemple, Chambers et Hastie, Eds., “Statistical Models in S”, Wadworth & Brooks/Cole,
1992; Chapitre 8. La ligne s’adapte aux données de façon locale, sans faire appel à un
modèle paramétrique unique pour l’ensemble des valeurs d’Age. Il faut la comparer au
polynôme de deuxième degré de la Figure 1, Chapitre 18. Le polynôme décroı̂t pour Age
> 10, tandis que le lissage s’aplatit à partir de Age = 5 ou 6.
Les lignes en traitillé représentent 20 lissages ∗ (Age) calculés, par le même procédé ,
sur autant d’échantillons simulés. Chaque échantillon a été obtenu en tirant au sort, avec
remise, 43 paires (Age, ln(Conc.)) de la Table 1. Le nuage donne une image palpable de
la variabilité du lissage et confirme visuellement son aplatissement.
Pour tester l’existence d’une éventuelle flexion pour Age > 10, nous avons simulé 500
échantillons et, pour chaque échantillon, nous avons calculé un lissage simulé ∗ . Pour
chaque lissage, nous avons cherché à calculer la pente
(∗ (15.6) − ∗ (10))/(15.6 − 10),
mais seuls 329 échantillons s’étendaient jusqu’à la valeur 15.6. Ainsi, nous n’avons obtenu
que 329 pentes simulées. Les percentiles 5% et 95% de la distribution des 329 pentes ainsi
obtenus sont respectivement −0.0183 et 0.0153. On ne peut donc pas rejeter l’hypothèse
que la flexion est nulle.
o
1.8
o
o
o o
o
o o o
o o o oo o
o
1.6
o o o oo
o o o
o
log(Conc.)
o o o
o o
o
o o
1.4
o o o
o o
o o
1.2
5 10 15
Age
Figure 4. Lissage non-paramétrique (ligne foncée) des données de la Table 1, Chapitre 18,
et 20 lissages non-paramétriques simulés (lignes traitillées).
A.
c Marazzi
22.1
Chapitre 22
Introduction à la régression logistique
La régression ordinaire permet d’analyser une variable réponse quantitative en fonction
d’une ou plusieurs variables explicatives. Souvent, c’est un résultat binaire (ou dichotomi-
que) d’une expérience ou d’une observation que l’on souhaite mettre en relation avec des
variables explicatives; par exemple:
– des patients peuvent survivre ou décéder; les différentes thérapies et les facteurs de
risque peuvent être considérés comme des variables qui contribuent à expliquer la
survie ou le décès;
– des personnes peuvent être atteintes par une maladie. On souhaite étudier la relation
entre les chances d’être atteint et certains facteurs explicatifs ou facteurs de risque
(par exemple, âge, fumée, sexe);
– des personnes peuvent avoir ou ne pas avoir un emploi selon leur âge, sexe, type de
formation;
– un appareil peut fonctionner ou ne pas fonctionner; cet état peut être mis en relation
avec son âge, les conditions de l’environnement, etc.
La régression logistique permet d’étudier la relation entre une variable réponse binaire et
plusieurs variables explicatives. Ce chapitre donne une brève introduction à la régression
logistique. On trouvera un traitement plus approfondi dans le livre de Hosmer et Lemeshow
(1989), duquel cette introduction est tirée.
22.1 Introduction
En général, le résultat d’une observation binaire est appelé “succès” ou “échec”. Il est
représenté mathématiquement par une variable aléatoire Y telle que Y = 1 s’il y a succès
et Y = 0 s’il y a échec. Cette variable a une distribution de Bernoulli et on note par
p = P (Y = 1) la probabilité de succès; donc P (Y = 0) = 1 − p. L’espérance mathématique
et la variance de Y sont, respectivement, E(Y ) = p et σ 2 (Y ) = p(1 − p). Le résultat Y
peut dépendre des valeurs assumées par k variables explicatives X1 ,. . .,Xk au moment de
l’observation et nous souhaitons étudier cette relation. L’exemple suivant montre que les
techniques de régression ordinaire ne sont pas adaptées à ce type d’analyse.
Exemple 1. La Table 1 concerne un échantillon de 100 personnes, pour lesquels la présence
(CHD = 1) ou l’absence (CHD = 0) d’une maladie cardiovasculaire a été observée. On
souhaite étudier la relation entre CHD et la variable explicative âge (AGE). La Figure 1
montre un diagramme de dispersion de CHD versus AGE. Evidemment, ce diagramme
ne donne pas une information très utile même si on remarque une proportion plus élevée
de “cas” (CHD = 1) pour les personnes agées que pour les jeunes. Il n’est pas opportun
d’adapter une droite à ce diagramme. Il est, toutefois, raisonnable de décrire la relation
entre la probabilité de CHD = 1 pour une valeur donnée a de AGE, c’est à dire, la
probabilité conditionnelle P (CHD = 1|AGE = a), par une fonction mathématique simple
(modèle) de la variable AGE. La Figure 2, qui représente les fréquences relatives de CHD =
1 selon les catégories d’âge définies par la variable AGRP de la Table 1, nous suggère l’allure
de cette fonction.
A.
c Marazzi
22.2
Table 1. Age (AGE) et présence (1) ou absence (0) d’une maladie cardiovasculaire (CHD)
pour un échantillon de 100 personnes. AGRP représente des catégories d’âge et ID est le
numéro du cas.
ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD
1 1 20 0 35 3 38 0 68 6 51 0
2 1 23 0 36 3 39 0 69 6 52 0
3 1 24 0 37 3 39 1 70 6 52 1
4 1 25 0 38 4 40 0 71 6 53 1
5 1 25 1 39 4 40 1 72 6 53 1
6 1 26 0 40 4 41 0 73 6 54 1
7 1 26 0 41 4 41 0 74 7 55 0
8 1 28 0 42 4 42 0 75 7 55 1
9 1 28 0 43 4 42 0 76 7 55 1
10 1 29 0 44 4 42 0 77 7 56 1
11 2 30 0 45 4 42 1 78 7 56 1
12 2 30 0 46 4 43 0 79 7 56 1
13 2 30 0 47 4 43 0 80 7 57 0
14 2 30 0 48 4 43 1 81 7 57 0
15 2 30 0 49 4 44 0 82 7 57 1
16 2 30 1 50 4 44 0 83 7 57 1
17 2 32 0 51 4 44 1 84 7 57 1
18 2 32 0 52 4 44 1 85 7 57 1
19 2 33 0 53 5 45 0 86 7 58 0
20 2 33 0 54 5 45 1 87 7 58 1
21 2 34 0 55 5 46 0 88 7 58 1
22 2 34 0 56 5 46 1 89 7 59 1
23 2 34 1 57 5 47 0 90 7 59 1
24 2 34 0 58 5 47 0 91 8 60 0
25 2 34 0 59 5 47 1 92 8 60 1
26 3 35 0 60 5 48 0 93 8 61 1
27 3 35 0 61 5 48 1 94 8 62 1
28 3 36 0 62 5 48 1 95 8 62 1
29 3 36 1 63 5 49 0 96 8 63 1
30 3 36 0 64 5 49 0 97 8 64 0
31 3 37 0 65 5 49 1 98 8 64 1
32 3 37 1 66 6 50 0 99 8 65 1
33 3 37 0 67 6 50 1 100 8 69 1
34 3 38 0
22.3
1.0
0.8
0.6
CHD
0.4
0.2
20 30 40 50 60 70
AGE
Figure 2. Diagramme des proportions de personnes avec CHD = 1 selon AGE en groupes.
1.0
•
0.8
•
•
0.6
CHD
•
0.4
•
•
0.2
• •
0.0
20 30 40 50 60 70
AGE
•
0.8
•
•
0.6
CHD
•
0.4
•
•
0.2
• •
0.0
20 30 40 50 60 70
AGE
A.
c Marazzi
22.4
Considérons d’abord le cas d’une seule variable explicative quantitative X. Nous nous pro-
posons d’utiliser une fonction mathématique p(x) simple comme modèle pour
P (Y = 1|X = x). S’agissant d’une probabilité, la fonction p(x) doit être bornée par
les valeurs 0 et 1. Elle ne peut donc pas être linéaire. L’Exemple 1 suggère que p(x) a une
forme sigmoı̈dale qui peut être approchée par une fonction de distribution cumulative, par
exemple, la fonction de distribution normale F = Φ. Plus précisément, on peut utiliser le
modèle
p(x) = Φ(β0 + β1 x).
Ici, β0 et β1 sont les paramètres du modèle ou coefficients. Si Φ−1 est la fonction inverse
de Φ (transformation probit), on obtient
Φ−1 (p(x)) = β0 + β1 x,
c’est-à-dire, une relation linéaire. Ce modèle, connu comme le modèle probit, a joui d’une
certaine popularité dans l’essai biologique (Finney, 1978).
Toutefois, la forme la plus utilisée est celle de la fonction de distribution logistique FL ,
c’est-à-dire:
exp(β0 + β1 x)
FL (β0 + β1 x) = .
1 + exp(β0 + β1 x)
On pose donc le modèle
p(x) = FL (β0 + β1 x)
appelé modèle logit ou logistique. La transformation inverse
FL−1 (y) = ln(y/(1 − y)), 0 < y < 1,
est appelée la transformation logit et l’expression ln(p/(1 − p)) est appelé le logit de p, noté
logit(p). Donc,
−1 p(x)
FL (p(x)) = logit(p(x)) = ln = β0 + β1 x
1 − p(x)
est une fonction linéaire. La fonction K(x) = logit(p(x)) est aussi appelée une link function
dans la théorie des modèles linéaires généralisés (McCullagh et Nelder, 1989). On observe
qu’elle peut varier entre −∞ et +∞.
Le modèle peut être étendu à l’analyse d’une variable réponse binaire Y en fonction de
plusieurs variables explicatives X1 , . . . , Xk , qui peuvent être quantitatives, en catégories
ordonnées, ou qualitatives (exprimées de façon numérique). Dans ce cas, on cherche une
fonction p(x1 , . . . , xk ) à plusieurs variables comme modèle pour la probabilité condition-
nelle P (Y = 1|X1 = x1 , . . . , Xk = xk ). Le modèle logit utilise la fonction
exp(β0 + β1 x1 + . . . + βk xk )
p(x1 , . . . , xk ) = ,
1 + exp(β0 + β1 x1 + . . . + βk xk )
c’est-à-dire la relation linéaire
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
avec link function
K(x1 , . . . , xk ) = ln(p(x1 , . . . , xk )/(1 − p(x1 , . . . , xk )).
22.5
Les solutions β̂0 et β̂1 de ces équations sont les estimateurs du maximum de vraisemblance
de β0 et β1 . En général, elles sont calculées à l’aide de programmes de calcul numérique.
A.
c Marazzi
22.6
A l’aide des estimations β̂0 et β̂1 , on peut estimer les probabilités de succès pour différentes
valeurs x de la variable explicative:
exp(β̂0 + β̂1 x)
p̂(x) = .
1 + exp(β̂0 + β̂1 x)
Les valeurs de la fonction p̂(x) sont parfois appelées les probabilités ajustées.
Exemple 2. Avec les données de la Table 1, on obtient les coefficients estimés indiqués
dans la Table 2, c’est-à-dire, β̂0 = −5.310 et β̂1 = 0.111 et donc
La Figure 3 donne le graphique de cette fonction qui s’adapte assez bien aux fréquences
relatives de CHD selon AGE (en groupes). La valeur du log likelihood (β̂0 , β̂1 ) est −53.677.
Estimation Erreur
Variable Coefficient Standard Coeff./σ̂
AGE 0.111 0.024 4.61
Constante -5.310 1.134 -4.68
Log-likelihood=-53.677
Les programmes usuels fournissent aussi les écarts types σ̂(β̂0 ) et σ̂(β̂1 ) de β̂0 et β̂1 . Grâce
au fait que la distribution des estimateurs est approximativement normale on peut con-
struire des intervalles de confiance avec coefficient de couverture 1 − 2α:
où z1−α est le quantile 1 − α de la distribution normale standard (par exemple, α = 0.025
et z0.975 = 1.96).
H0 : βj = 0
T = β̂j /σ̂(β̂j ).
Exemple 3. Les écarts types et les valeurs de la statistique T pour les coefficients β0 et
β1 de l’Exemple 1 sont donnés dans la Table 2. Pour l’hypothèse H0 : β1 = 0 (β1 est le
coefficient de la variable AGE) on obtient t0 = 0.111/0.024 = 4.610. A l’aide d’une table
de la distribution normale on trouve que P (T > 4.610) < 0.0001 et on conclut que la
variable AGE est importante pour expliquer la probabilité de CHD=1.
Un des buts principaux de la régression logistique est celui d’examiner les effets conjoints
de plusieurs variables explicatives et de leurs interactions.
Exemple 4. Comme un petit poids à la naissance (LBW = Low Birth Weight) a une
influence négative sur le développement de l’enfant, les facteurs de risque de LBW sont
de grand intérêt en médecine préventive. Dans une étude de 189 cas, 8 facteurs de risque
potentiels (âge maternel, fumée, hypertension, etc.) ont été enregistrés. Les données
figurent dans Hosmer et Lemeshow (1989). n1 = 59 bébés avaient un poids au-dessous
de la normale et n0 = 130 un poids normal. Quatre variables ont été choisies comme
prédicteurs: l’âge de la mère (AGE), son poids aux dernières règles (PDS), le nombre
de visites médicales qu’elle a eues durant le premier trimestre (VST) et sa race, en 3
catégories, codées à l’aide de deux variables indicatrices RACE1 et RACE2.
Souvent, comme dans l’Exemple 4, des informations concernant un grand nombre de vari-
ables explicatives X1 , . . . , Xk sont disponibles. Comme dans le cas de la régression mul-
tiple ordinaire, elles forment une matrice du modèle X dont les lignes sont les vecteurs
(1, xi1 , . . . , xik ) et xik indique la i-ème observation (observation du cas i) de la variable k.
Le modèle
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
est alors ajusté par la méthode du maximum de vraisemblance. Dans ce but, on résout
un système de (k + 1) équations pour les coefficients β0 et β1 , . . . , βk , que l’on obtient en
annulant les dérivées partielles de la fonction log likelihood (β0 , β1 , . . . , βp ):
n
∂(β0 , β1 , . . . , βk )
= (yi − p(xi1 , . . . , xip )) = 0,
∂β0 i=1
n
∂(β0 , β1 , . . . , βk )
= xij (yi − p(xi1 , . . . , xip )) = 0, j = 1, . . . , k.
∂βj i=1
A.
c Marazzi
22.8
L’interprétation des données fournie par la régression multiple est supérieure à celle fournie
par la régression simple. La régression multiple tient compte des éventuelles associations
entre les variables explicatives. Les coefficients de chaque variable sont épurés des contri-
butions fournies par les autres variables et représentent, donc, des effets propres.
Exemple 4 (continuation). La Table 3 donne les coeffiecients estimés d’une régression
logistique de LBW en fonction de AGE, PDS, RACE (RACE1 et RACE2) et VST. La
dernière colonne donne les valeurs de la statistique β̂j /σ̂(β̂j ) pour le test de Wald de chaque
coefficient. On voit immédiatement que les effets de PDS et RACE1 sont significatifs
(P < 0.05). Au contraire, les effets de AGE et de VST sont nettement non-significatifs et
ces variables peuvent être écartées du modèle. Toutefois, RACE2 ne peut pas être éliminée
puisqu’elle est utilisée en combinaison avec RACE1.
Estimation Erreur
Variable Coefficient Standard σ̂ Coeff./σ̂
AGE -0.024 0.034 -0.71
PDS -0.014 0.00652 -2.14
RACE1 1.004 0.497 2.02
RACE2 0.433 0.362 1.20
VST -0.049 0.167 -0.30
Constante 1.295 1.069 1.21
Log-Likelihood=-111.286
Pour tester une hypothèse linéaire qui concerne plusieurs coefficients on utilise le test du
rapport de vraisemblance. Supposons que le modèle courant (ou complet) soit
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk
H0 : βh = βh+1 = . . . = βk = 0
avec 1 ≤ h ≤ k (c’est le type d’hypothèse linéaire le plus fréquent). Le modèle réduit est
donc
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βh−1 xh−1 .
On définit d’abord la déviance du modèle courant par rapport au modèle saturé (voir note
ci-dessous):
Le signe ∗ indique que des “cas similaires” (avec la même valeur de la variable explicative)
ont été regroupés (comme dans la Figure 2). En d’autres termes, yi∗ est la fréquence relative
de succès pour X = xi ; c’est aussi l’estimation de p(x∗i ) sous le modèle saturé. Avec les
données de la Table 1 et H0 : β1 = 0 on trouve g0 = 29.31. Comme G a approximativement
une distribution χ2 à 1 degré de liberté, P (G > 29.31) est inférieur à 0.001.
Note. Un modèle saturé est un modèle qui a autant de paramètres que de points qu’il
doit ajuster; par exemple, une droite de régression lorsque les données représentées dans
le diagramme de dispersion sont regroupées dans deux seuls points.
A.
c Marazzi
22.10
p(x)
ln = β0 + β1 x.
1 − p(x)
Donc, un incrément unitaire en x produit une variation de “β1 logits”. Nous allons préciser
ce que cette expression signifie pour différents types de variables explicatives X.
Variable explicative binaire. Nous considérons la régression logistique simple, mais la
généralisation au cas multiple est possible. Une variable explicative binaire est utilsée
pour indiquer la présence (X = 1) ou l’absence (X = 0) d’une certaine condition X. Pour
mesurer l’association entre X et Y , où Y = 1 indique la présence d’une maladie, on utilise
en épidémiologie le odds ratio ou rapport des cotes (Fleiss (1981)). La cote (odds) de Y = 1
pour les individus avec X = 0 est définie comme
P (Y = 1|X = 0) p(0)
Ω(0) = = .
1 − P (Y = 1|X = 0) 1 − p(0)
Par analogie, on définit la cote de Y = 1 en présence de X = 1:
P (Y = 1|X = 1) p(1)
Ω(1) = = .
1 − P (Y = 1|X = 1) 1 − p(1)
La cote est donc le rapport entre la probabilité d’être malade et la probabilité d’être sain
et son logarithme est le logit. Enfin, l’odds ratio pour comparer la présence et l’absence de
X est le rapport
o(1, 0) = Ω(1)/Ω(0).
Si l’association entre X et Y est faible, P (Y = y|X = 0) ≈ P (Y = y|X = 1) et o(1, 0) est
proche de 1. Inversement, un odds ratio supérieur ou inférieur à 1 indique une association
entre X et Y . Avec p(x) = exp(β0 + β1 x)/(1 + exp(β0 + β1 x) on obtient
o(1, 0) = exp(β1 )
et donc
β1 = ln(o(1, 0)) = logit(p(1)) − logit(p(0)).
Le coefficient β1 indique donc de combien le logit de devenir malade est augmenté par
l’exposition à la condition X.
Remarques
1. On peut estimer o(1, 0) par ô(1, 0) = exp(β̂1 ) et obtenir un intervalle de confiance pour
o(1, 0) en prenant l’exponentielle (exp(·)) des limites d’un intervalle de confiance pour β1 .
2. Si les valeurs de P (Y = 1|X = 0) et de P (Y = 1|X = 1) sont très petites, les odds Ω(1)
et Ω(0) sont proches de leur numérateur et la valeur numérique de l’odds ratio est proche
de celle du risque relatif r(1, 0) = P (Y = 1|X = 1)/P (Y = 1|X = 0). L’approximation
suivante du risque relatif est toutefois meilleure: r ≈ o + o[1 − o]p(0).
22.11
Table 4. Classification de données hypothétiques selon CHD et Race, pour 100 sujets.
CHD Blanche Noire Hispanique Autre Total
Présent 5 20 15 10 50
Absent 20 10 10 10 50
Total 25 30 25 20 100
Odds ratio (ô) 1.0 8.0 6.0 4.0
ln(ô) 0.0 2.08 1.79 1.39
Int. conf. à 95% (2.3,27.6) (1.7,21.3) (1.1,14.9)
Sans utiliser de modèles, les odds ratios pour comparer chaque niveau de Race à Race
Blanche peuvent être estimés à l’aide des tableaux 2×2 correspondants.
Pour utiliser le modèle de régression, il faut coder numériquement la variable Race à 4
niveaux. Le codage usuel utilise 3 variables indicatrices D1 , D2 et D3 , par exemple celles
définies dans la Table 5, où Blanche est le niveau de référence. (Comme pour la régression
multiple, pour coder un facteur à k niveaux, il faut utiliser k − 1 variables indicatrices.)
Table 5. Codage du facteur Race avec niveau de référence Blanche.
Variables
Race D1 D2 D3
Blanche 0 0 0
Noire 1 0 0
Hispanique 0 1 0
Autre 0 0 1
Les coefficients estimés β̂1 , β̂2 et β̂3 de D1 , D2 et D3 sont respectivement les logarithmes
des odds ratios qui figurent dans la Table 4. Par exemple:
ln(ô(Noire,Blanche)) = logit(p̂(Noire)) − logit(p̂(Blanche))
= [β̂0 + β̂1 (1) + β̂2 (0) + β̂3 (0)] − [β̂0 + β̂1 (0) + β̂2 (0) + β̂3 (0)] = β̂1
A.
c Marazzi
22.12
Variable explicative continue. Soit X une variable explicative continue et soit p(x) =
P (Y = 1|X = x). Considérons l’odds ratio correspondant à deux valeurs x1 et x0 de X:
p(x1 )/(1 − p(x1 ))
o(x1 , x0 ) = .
p(x0 )/(1 − p(x0 ))
Si
K(x) = β0 + β1 x,
alors β1 est le log de l’odds ratio correspondant à un incrément unitaire:
β1 = ln(o(x + 1, x)).
Si on s’intéresse à un incrément de c unités, on obtient évidemment,
K(x + c) − K(x) = cβ1 , c’est-à-dire, o(x + c, x) = exp(cβ1 ).
Exemple 7. Avec les données de la Table 1 on avait obtenu K̂(AGE) = −5.310 + 0.111 ×
AGE. L’odds ratio pour un incrément de AGE de 10 ans est alors o(AGE+10, AGE) = 3.03
et un intervalle de confiance de couverture 95% est
[exp(10 × 0.111 − 1.96 × 10 × 0.024), exp(10 × 0.111 + 1.96 × 10 × 0.024)] = [1.90, 4.86].
l3
5
l2
4
l1
Log(Odds+4)
3
2
1
0
30 40 50 60 70
AGE
A.
c Marazzi
Chapitre 23
Introduction à l’analyse de survie
23.1 Introduction
L’analyse de survie est un domaine de la statistique qui a pour objet l’étude de la durée qui
s’écoule entre un temps d’origine et un certain événement d’intérêt. L’événement typique - qui
donne son nom à la discipline - est le décès. Toutefois, les méthodes qui se regroupent sous le
terme de "analyse de survie" peuvent être (et ont été) appliquées à l’étude de toute une variété
d’événements, comme par exemple l’occurrence d’une maladie et sa récurrence, le décès après
une intervention chirurgicale (biostatistique), le récidivisme criminel, le divorce, la naissance
d’un enfant (science sociales), la panne d’une machine (ingénierie).
La variable d’intérêt en analyse de survie est donc le temps. Il s’agit d’une variable toujours
positive et d’habitude continue. Elle est souvent caractérisée par une information incomplète,
dû au fait que quelques uns des sujets engagés peuvent ne pas avoir connu l’événement d’intérêt
avant la …n de l’étude. Pour ces individus le chercheur ne connaît pas le temps exact de
l’événement, mais il sait seulement que l’événement a eu lieu à une durée au moins égale à un
certain temps t. Dans ce cas on dit que la durée est censurée.
En absence de censure, l’analyse de la variable "durée" pourrait être conduite à l’aide de
procédures standard de régression, même si ces méthodes pourraient se révéler inadéquates
à cause du fait que la variable de réponse est toujours positive et donc souvent asymétrique
sur la droite. La présence de données censurées rend les techniques standard biaisées, et donc
indispensable l’adoption de méthodes ad hoc.
23.2 La censure
Une donnée censurée est une donnée dont on dispose d’une information incomplète. Il y a
essentiellement deux raisons pour lesquelles une censure peut se véri…er:
1
Le sujet ne connaît pas l’événement avant la …n de l’étude. On parle dans ce cas de
censure …xe, parce que si l’étude se termine après une période T (mesurée en jours,
semaines, années,...), tous les sujets qui ne connaissent pas l’événement avant la …n de
l’étude ont un temps de censure …xe égal a T:
Le sujet sort de l’étude, sans connaître l’événement, avant qu’elle ne soit …nie (lost to
follow-up). Dans ce cas on aura une censure de type random, parce les sujets censurés de
telle façon ont chacun un temps de censure di¤érent, qui n’est pas déterminé par la durée
de l’étude elle même.
Considérons par exemple une étude de la survie de patients qui ont été soumis à une trans-
plantation du coeur et qui sont suivis après l’opération pendant une période de 52 semaines.
Dans ce cas le temps origine est représenté par le moment de la transplantation et l’événement
d’intérêt est le décès. Dans la Figure 1 sont représentées les histoires de survie de cinq patients.
Avec le rond plein sont indiqués les événements observés; les ronds vides représentent les événe-
ments non observés; les carrés représentent les censures. Les lignes continues représentent des
périodes pendant lesquelles les sujets sont observés comme étant soumis au risque de connaître
l’événement; les lignes pointillées des périodes pendant lesquelles le sujet est soumis au risque,
mais il n’est pas observé.
La première observation est non-censurée; le deuxième sujet est censuré car il est encore
vivant à la …n des 52 semaines de l’étude (censure …xe); le troisième patient sort de l’étude,
et donc la durée correspondante est censurée, 20 semaines après la transplantation (censure
random). Les deux censures considérées représentent des cas de censure à droite (la seule qui
sera prise en compte dans la suite). Il est toutefois intéressant de remarquer la possibilité d’une
censure à gauche (truncation) qui se véri…e quand un sujet entre dans l’étude un certain temps
après le début de l’étude même (late entry). C’est le cas des patients 4 et 5, dont le premier
connaît l’événement avant la …n de l’étude, alors que le deuxième est sujet aussi à une censure
a droite.
Dans les méthodes d’analyse de survie sont considérés comme "soumis au risque" à un
certain temps t tous les sujets qui sont encore observés en t, et donc qui n’ont pas été censurés
avant t. Or, pour que les estimateurs des temps ou des probabilités de survie soient non biaisées,
2
il faut assumer que les sujets observés en t soient représentatifs de tous les sujets, même de
ceux qui sont sortis de l’étude avant t. Ceci équivaut à assumer que le mécanisme de censure
est indépendant du temps. On parle dans ce cas de censure non-informative.
Si T est la variable aléatoire qui représente la durée jusqu’à l’événement et C la variable
aléatoire qui représente la durée jusqu’à la censure, l’hypothèse d’indépendance entre T et C
assure que:
P (t < T < t + t j C > t) = P (t < T < t + t j C < t) :
La probabilité de "survivre" de t à (t + t) est la même pour ceux qui sont encore dans l’étude
à l’instant t et pour ceux qui sont censurés avant.
Début de l’étude Fin de l’étude
Sujets 3
0 20 40 60 80 100
3
cumulative:
Z t
F (t) = P (T t) = f (s) ds: (23.1)
0
Z 1
S(t) = 1 F (t) = P (T > t) = f (s) ds: (23.2)
t
Une des notions les plus importantes en analyse de survie est celle de fonction de risque h. Celle-
ci est dé…nie comme la limite quand t ! 0 de la probabilité que la durée T soit comprise
dans l’intervalle [t; t + t), sachant qu’elle est au moins égal à t, divisée par la longueur de
l’intervalle:
Pr (t T <t+ t j T > t)
h (t) = lim : (23.3)
t!0 t
On montre facilement que la fonction de risque peut être écrite comme le rapport entre la
fonction de densité et la fonction de survie:
P (t T < t + t)
h (t) = lim = (23.4)
t!0 tP (T > t)
1 P (t T < t + t) f (x)
= lim =
P (T > t) t!0 t S (x)
Z t
H(t) = h(s) ds: (23.5)
0
4
la variable aléatoire T . On peut facilement dériver des relations entre les quantités en question:
Z t Z t
f (s)
H(t) = h(s) ds = ds = ln S (t) (23.6)
0 0 S (s)
et donc:
H(t)
S(t) = e (23.7)
H(t)
F (t) = 1 e (23.8)
H(t)
f (t) = h(t) e (23.9)
Quand on travaille avec des données censurées, on doit faire face à deux processus non entière-
ment observés. D’un côté les durées, représentées par la variable aléatoire T , de l’autre les
censures, que l’on peut indiquer avec une autre variable aléatoire C. Les deux variables sont
non observées; ce que l’on observe c’est le minimum entre les deux: Y = min(T; C) et une
variable indicatrice D qui donne valeur 1 aux durées observées qui aboutissent à un événement
et 0 aux durées censurées: D = I (T < C).
Les données se présentent donc dans la forme: (yi ; di ), i = 1; :::; n, où y1 ; :::; yn sont les
durées observées sur les n individus de l’échantillon et d1 ; ::::dn représentent les indicateurs de
censure, prenant la valeur 1 si la durée correspondante représente un événement et la valeur 0
si elle correspond à une censure.
Soient y(1) ; :::y(k) (k n) les temps, distincts et ordonnés, auxquels un ou plusieurs événe-
ments sont observés. Nous souhaitons estimer, pour chaque y(i) (i = 1; :::; k), la probabilité de
survivre au moins jusque y(i) (S y(i) = P T > y(i) ). La méthode d’estimation de Kaplan
Meier correspond au calcul d’une probabilité conditionnelle de survie, notamment la probabilité
de survivre au moins jusque y(i) sachant que le sujet est encore "vivant" (soumis au risque de
connaître l’événement) à l’instant précédent y(i 1) : P T > y(i) jT > y(i 1) . Cette probabilité
est beaucoup plus facile à estimer à partir des données d’un échantillon, puisqu’il su¢ t de
rapporter le nombre d’événements qui ont lieu en y(i) au nombre de sujets qui sont observés
5
comme étant soumis au risque juste avant l’instant y(i) (probabilité conditionnelle de connaître
l’événement) et de calculer le complément a 1 de ce rapport (probabilité conditionnelle de ne
pas connaître l’événement).
L’estimateur se base donc sur les relations:
= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(i 2)
= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(0)
i
Y
S y(i) = P T > y(j) jT > y(j 1) (23.11)
j=1
i
Y e(j)
Sb y(i) = 1 (23.12)
n(j)
j=1
ou e(j) représente le nombre d’événements qui ont lieu à l’instant y(j) et n(j) le nombre d’individus
qui sont soumis au risque de connaître l’événement juste avant l’instant y(j) . La quantité n(j)
est déterminée en soustrayant à n (le nombre total de sujets engagés dans l’étude) le nombre de
sujets qui ont connu l’événement ou qui sont censurés avant l’instant y(j) . Dans les intervalles
où il ne se véri…e pas un événement la fonction de survie estimée reste constante:
6
L’estimateur peut donc être réécrit de la façon suivante:
Y e(j)
Sb (t) = 1 : (23.13)
n(j)
j:y(j) t
Considérons à titre d’exemple les données "addicts", issues d’une étude australienne (Cale-
horn et al. 1991) qui avait l’objectif de suivre un échantillon de n = 238 sujets dépendants de
l’héroine. L’étude voulait comparer l’e¤et de deux di¤érents traitements à la méthadone (clinic)
sur le temps - en jours - pendant lequel les patient restaient sous traitement, l’événement étudié
étant la rechute (survt). Pour chaque patient on connaît aussi si il a été en prison avant le
traitement (prison) et la quantité de méthadone administrée, en mg/jour (dose). La censure
(status) correspond aux patients qui sont encore dans la clinique à la …n de l’étude (Tableau
1).
Pour l’instant nous sommes intéressés seulement par les durées observées y1 ; :::; yn et les in-
dicateurs de censure d1 ; :::dn . Dans le Tableau 2 est détaillé le calcul des valeurs de l’estimateur
de Kaplan Meier pour les durées jusque 29 jours. Dans la première colonne sont indiquées les
durées pour lesquelles on observe au moins un événement ou une censure. On remarque que
seulement les durées qui correspondent à un événement (en gras) donnent lieu à des variations
de l’estimateur de Kaplan Meier Sb y(i) . Les lignes correspondant à des censures (que l’on à
7
introduites à …n de pouvoir e¤ectuer les calculs) peuvent en fait être ignorées quand on regarde
les résultats.
8
Figure 2: Estimation de Kaplan Meier de la fonction de survie relative aux données
"addict"
Figure 3: Estimation de Kaplan Meier de la fonction de survie pour chacun des deux
traitements à la méthadone (clinic)
9
Note: les erreurs standard de l’estimateur de Kaplan Meier sont calculés en R à partir de
la formule de Greenwood :
v
u i
uX e(j)
b Sb y(i) = Sb y(i) t i = 1; :::; k
j=1
n(j) n(j) e(j)
L’estimateur de Kaplan Meier est un instrument très utile lorsqu’on s’intéresse à l’estimation
d’une fonction de survie. Parfois il peut cependant être utile de spéci…er une forme paramétrique
de la distribution des durées non observées, de façon à pouvoir résumer toute l’information
relative à cette variable à l’aide d’un petit nombre de paramètres. En principe toute distribution
de variable aléatoire positive peut être utilisée pour représenter les durées; les plus utilisées en
analyse de survie sont la distribution Exponentielle, la distribution de Gompertz, la Gamma,
la Weibull et la Log-normale. Dans la suite on va considérer et comparer seulement trois de
ces distributions, Exponentielle, Weibull et Log-normale. Pour une explication plus complète
du sujet, voir le texte "Analyse démographique des biographies" (Courgeau, Lelièvre, 1989).
1) Distribution exponentielle
C’est la distribution la plus simple, que l’on obtient quand la fonction de risque h (t) est
une constante, c’est à dire elle ne dépend pas du temps:
h (t) = ( > 0)
10
T:
H (t) = t
S (t) = exp ( t)
f (t) = exp ( t)
2) Distribution de Weibull
Il s’agit d’une généralisation de la distribution exponentielle. Elle comporte une fonction
de risque h (t) qui peut être croissante ou décroissante, selon les valeur des paramètres. La
fonction de risque de Weibull est dé…nie de la façon suivante:
1
h (t) = t ( > 0; > 0)
H (t) = t
S (t) = exp ( t )
1
f (t) = t exp ( t )
3) Distribution Log-normale
La distribution log-normale représente un cas de fonction de risque non monotone. Dans le
cas de la loi log-normale, on donne d’abord la fonction de densité:
!
2
1 1 log t
f (t) = p exp ( > 0; > 0)
t 2 2
11
selon une loi normale. Les autres fonctions s’obtiennent à partir de f (t):
log t
S (t) = 1
log t
H (t) = log 1
!
2
1 1 log t
h (t) = p exp
t 2 (1 ((log t ) = )) 2
12
23.5.2 Véri…cation empirique des modèles
Voyons maintenant comment on peut véri…er de façon empirique si une des distributions
précédemment présentées peut être utilisée pour décrire les données dont on dispose. Com-
mençons par le modèle le plus simple, le modèle exponentiel. Si on regarde l’expression de
la fonction de survie, on remarque que le logarithme de cette fonction peut être écrit comme
fonction linéaire du temps:
log S (t) = t
Il s’agit de voir si une telle relation linéaire est présente dans les données. Pour cela on utilise
l’estimateur non-paramétrique Sb (t) de la fonction de survie présenté dans la Section 4 (estima-
teur de Kaplan Meier) et on représente dans un graphique le logarithme de cet estimateur en
fonction du temps. Si on obtient un droite (de pente négative) le modèle exponentiel est véri…é.
Puisque les points ne semblent pas dessiner une droite, le modèle exponentiel ne peut pas
être utilisé pour représenter les données du dataset "addicts". Le contrôle empirique de la
validité des distributions de Weibull et log-normale se base sur le même principe. Il s’agit de
trouver des transformations de S (t) qui présentent, selon le modèle, une relation linéaire avec
13
le temps (ou une fonction du temps) et de véri…er cette relation sur les données à l’aide d’un
estimateur non-paramétrique. On peut véri…er facilement que, dans le cas de la distribution de
Weibull:
log ( log S (t)) = log + log t
1 1
(1 S (t)) = + log t
1
ou (p) est le quantile p de la loi normale standard. Il y a donc dans le modèle de Weibull
une relation linéaire entre log ( log S (t)) et log t; et dans le modèle log-normal une relation
1
linéaire entre (1 S (t)) et log t. Les deux peuvent être véri…ées en remplaçant S (t) par
l’estimateur de Kaplan meier Sb (t) et en représentant sur un graphique respectivement les points
log t; log log Sb (t) et log t; 1
1 Sb (t) , qui devraient se disposer sur une droite
si l’une ou l’autre des distributions est véri…ée (Figure 6). Dans notre exemple les données
semblent pouvoir être mieux représentées par le modèle de Weibull.
Les modèles paramétriques décrits précédemment peuvent être estimés à l’aide de la méthode
de maximum de vraisemblance. On rappelle que dans le contexte de l’analyse de survie les
données observées sont issues des variables aléatoires Y = min (T; C), ou T et C représentent
14
les durées non-observées et les censures respectivement, et D = I (T < C), une variable qui
prend valeur 1 si Y = T et zéro si Y = C. L’échantillon se compose donc des quantités (yi ; di ),
i = 1; :::; n, réalisations des variables (Y; D). La fonction de vraisemblance est la distribution
de l’échantillon, considérée en fonction des paramètres inconnus. Donc:
n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di ) (23.14)
i=1
où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de
la façon suivante:
n
Y n
Y n
Y
L( ) = f (yi ; di ) = f (yi )di (1 F (yi ))1 di
= f (yi )di S (yi )1 di
(23.17)
i=1 i=1 i=1
L’expression (23.17) peut avoir une interprétation intuitive, dans le sens que les observations
non-censurées yi :di = 1 contribuent à la vraisemblance avec la densité f (yi ), alors que les
observations censurées yi : di = 0, pour lesquelles on sait seulement que T > yi , contribuent
avec la fonction de survie S (yi ).
15
Call:
survreg(formula = S1 ~ 1, dist = "exponential")
Value Std. Error z p
(Intercept) 6.46 0.0816 79.1 0
Scale fixed at 1
Exponential distribution
Loglik(model)= - 1118.9 Loglik(intercept only)= - 1118.9
Number of Newton- Raphson Iterations: 4
n= 238
Call:
survreg(formula = S1 ~ 1, dist = "weibull")
Value Std. Error z p
(Intercept) 6.425 0.0671 95.77 0.00000
Log(scale) - 0.204 0.0691 - 2.95 0.00314
Scale= 0.815
Weibull distribution
Loglik(model)= - 1114.9 Loglik(intercept only)= - 1114.9
Number of Newton- Raphson Iterations: 6
n= 238
Call:
survreg(formula = S1 ~ 1, dist = "lognorm")
Value Std. Error z p
(Intercept) 6.060 0.0881 68.75 0.00000
Log(scale) 0.191 0.0600 3.18 0.00147
Scale= 1.21
16
Figure 7: Fit des modèles exponentiel, de Weibull et Log-normal. Dataset "addict"
Jusqu’ici on a travaillé dans l’hypothèse que tous les individus ont la même fonction de survie
et donc le même risque de connaître l’événement. Souvent toutefois on dispose d’une série
d’informations sur les sujets, qui pourraient nous aider à di¤érentier les risques individuels.
Dans le dataset "addicts" par exemple on sait que les sujets ont été soumis à deux di¤érents
traitements en méthadone, et il peut être intéressant de voir si à ces deux traitements correspon-
dent des risques di¤érent de connaître l’événement (rechute). D’autres variables explicatives ou
covariates qui pourraient produire un e¤et sur le risque d’abandonner le traitement sont la dose
de méthadone administrée et le fait que le sujet ait ou non connu la prison.
Le modèle le plus utilisé en analyse de survie quand on veut examiner la relation entre la
variable de durée et une ou plusieurs variables explicative est le modèle de Cox (Cox, 1972),
17
autrement dit modèle semiparamétrique ou modèle à risques proportionnels. La structure du
modèle est la suivante:
T
hi (t) = h0 (t) exp xi i = 1; :::; n (23.18)
où h0 (t) représente le risque de base (baseline hazard ); xi = (xi1 ; ::::xik ) est le vecteur qui con-
tient les valeurs de k variable explicatives pour l’i-ème individu et =( 1 ; :::; k) le vecteur des
coe¢ cients inconnus. Comme la fonction de risque hi (t) doit être une quantité positive, la fonc-
T
tion linéaire des covariates xi doit être exponentiée. Soulignons par ailleurs que la fonction
de risque de base h0 (t) est laissée non-spéci…ée, et représente donc la partie non-paramétrique
du modèle semiparamétrique de Cox, alors que la partie paramétrique est représentée par le
T
facteur exp xi . La fonction h0 (t) peut être interprétée comme étant la fonction de risque
d’un individu pour lequel toutes les covariates prennent la valeur zéro: xi = 0.
Le modèle semiparamétrique de Cox est un modèle à risques proportionnels, dans le sens
que, selon le modèle, le rapport entre les risques de deux individus i et j est une quantité …xe,
indépendante du temps:
hi (t) T T T
= exp xi xj = exp (xi xj ) :
hj (t)
Dans le cas du modèle de Cox, la fonction de vraisemblance complète peut être écrite de la
façon suivante:
n
Y n
Y
L( ) = f (yi ; di ) = f (yi )di S (yi )1 di
= (23.19)
i=1 i=1
Yn
= h(yi )di S (yi ) :
i=1
ou les coe¢ cients =( 1 ; :::; k) sont les paramètres inconnus du modèle. En remplaçant
(23.18) en (23.19), on obtient:
n
Y
T di T
L( ) = h0 (yi ) exp xi exp H0 (yi ) exp xi (23.20)
i=1
18
Rt
ou H0 (t) = 0 h0 (s) ds représente le risque cumulé de base. Le problème avec cette vraisem-
blance est qu’elle contient, non seulement les paramètres mais aussi les fonctions h0 (t) et
H0 (t) auxquelles n’est pas assignée une forme paramétrique.
Dans son article de 1972, Cox a proposé une méthode alternative pour l’estimation du
modèle, qui est la méthode de la vraisemblance partielle (partial likelihood ). On considère
seulement les durées non censurées: y1 ; ::::; ym (m n). Chaque individu dont la durée yi est
non censurée contribue à la vraisemblance partielle avec sa probabilité de connaître l’événement
en yi étant donné que au moins un événement se véri…e en yi . On dé…nit les événements:
Ai = l’individu i (i = 1; :::; m) connaît l’événement à l’instant yi
Bi = au moins un événement a lieu à l’instant yi
On remarque que Ai Bi et donc Ai \ Bi = Ai . La vraisemblance partielle peut donc être
écrite de la façon suivante:
m
Y m
Y m
P (Ai \ Bi ) Y P (Ai )
PL( ) = P (Ai jBi ) = =
P (Bi ) P (Bi )
i=1 i=1 i=1
m
Y m
Y T
hi (yi ) h0 (yi ) exp xi
= P = P T
i=1 j2R(yi ) hj (yi ) i=1 j2R(yi ) h0 (yi ) exp xj
m
Y T
exp xi
PL( ) = P T
: (23.21)
i=1 j2R(yi ) exp xj
ou R (yi ) représente l’ensemble des individus soumis au risque juste avant l’instant yi .
Les paramètres estimés ^ sont obtenus en maximisant (23.21). Dans le cas de covariates
discrètes on peut obtenir des estimations des fonctions de risque de base h0 (t) pour les dif-
férentes combinaisons des valeurs des covariates en remplaçant dans (23.18) les valeurs estimées
des paramètres ^ .
L’expression (23.21) n’est plus valable quand plusieurs événements ont lieu au même instant
(tied data). Dans ce cas on a recours à des approximations de la vraisemblance partielle dues
à Breslow (1974) et Efron (1977).
19
Call:
coxph(formula = Surv(survt, status == 1) ~ clinic1)
n= 238
coef exp(coef) se(coef) z p
clinic1 - 1.08 0.341 0.213 - 5.06 4.3e- 07
20
Call:
coxph(formula = Surv(survt, status) ~ clinic1 + prison + dose)
n= 238
coef exp(coef) se(coef) z p
clinic1 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison 0.3266 1.386 0.16722 1.95 5.1e- 02
dose - 0.0354 0.965 0.00638 - 5.54 2.9e- 08
Tableau 8: Modèle de Cox avec les covariates ’clinic’, ’prison’et ’dose’. Output en R
Figure 9: Estimation de la fonction de survie pour chacune des quatre combinaisons des
valeurs des covariates dichotomiques (clinic et prison). La variable continue (dose) est …xée à
sa moyenne
21
23.6.3 Test de l’hypothèse de proportionnalité
Comme on l’a vu dans la Section 6.1, le modèle de Cox est un modèle à risques proportionnels,
dans le sens que, selon le modèle, le rapport entre les risques de deux individus i et j est
une quantité …xe, indépendante du temps. Cette hypothèse est violée quand l’e¤et d’une des
covariates du modèle sur le risque de connaître l’événement n’est pas constant au …l du temps.
Une façon très simple donc pour véri…er l’hypothèse de proportionnalité consiste en intro-
duire explicitement dans le modèle cette dépendance entre les e¤ets et le temps.
T T T T
hi (t) = h0 (t) exp xi + txi = h0 (t) exp + t xi i = 1; :::; n (23.22)
Si les coe¢ cients =( 1 :::: k ) ne sont pas signi…cativement di¤érents de zéro pour toutes les
variables explicatives, on a pas l’évidence d’une violation de l’hypothèse de proportionnalité.
Si par contre un des j (j = 1; :::; k) est signi…cativement di¤érent de zéro - l’e¤et de la
covariate correspondante augmente ou diminue linéairement avec le temps - l’hypothèse de
proportionnalité est violée pour la covariate en question. On remarque que l’expression (23.22)
non seulement fournit un test de proportionnalité, mais représente aussi une façon d’incorporer
la non-proportionnalité éventuelle dans le modèle.
Dans l’Annexe B est présentée une façon pour estimer en R un modèle, tel que le modèle
(23.22), qui introduit explicitement la non-proportionnalité. Ici de suite on montre deux méth-
odes alternatives pour véri…er en R l’hypothèse de proportionnalité; la première basée sur le
test de Grambsch et Therneau (1994) et la deuxième sur une comparaison graphique.
rho chisq p
clinic1 - 0.2578 11.185 0.000824
prison - 0.0382 0.220 0.639369
dose 0.0724 0.700 0.402749
GLOBAL NA 12.616 0.005546
22
Figure 10: Test de proportionnalité basé sur la comparaison entre les functions de survie
estimées avec Cox et Kaplan Meier
Supposons maintenant que l’e¤et des covariates joue directement, non pas sur la fonction de
risque, comme dans un modèle à risques proportionnels, mais sur la fonction de survie:
T
S (t) = S0 t exp x (23.23)
ou S ( ) = S ( jx) est la fonction de survie d’un individu ayant les caractéristiques génériques x
et S0 ( ) = S ( jx = 0) celle d’un individu ayant toutes les caractéristique nulles. Si par exemple
on a une seule covariate binaire, prenant les valeurs zéro et un, la relation (23.23) équivaut
à assumer que la probabilité pour un individu ayant la caractéristique égale à un de survivre
jusqu’au temps t est égale à probabilité de survivre jusqu’au temps t exp ( ) pour un individu
ayant la caractéristique égale à zéro. Un ^ > 0 correspond donc à une sortie anticipée ou
accélérée pour l’individu ayant la covariate égale à un par rapport aux sujets pour lesquels
23
x = 0 (t < t exp ^ ). L’hypothèse (23.23) dé…nit une classe de modèles paramétriques dits
"Modèles à temps de sorties accélérées" (Accelerated Failure Time - AFT). La relation (23.23)
peut être réécrite de la façon suivante:
!
T T0
Pr (T > t) = Pr T0 > t exp x = Pr T
>t
exp x
où T0 représente la durée de séjour d’un individu ayant toutes ses caractéristiques nulles.
En termes de variables aléatoires ceci signi…e que:
T0 T
T = T
= T0 exp x (23.24)
exp x
Dans les modèles AFT donc les caractéristiques ont un e¤et multiplicatif directement sur la
durée de séjour. En reprenant l’exemple d’une seule variable explicative dichotomique, on
observe que, quand b > 0, la durée de séjour diminue (la sortie est accélérée) pour les sujets qui
ont la caractéristique égale à un. Le modèle est le plus souvent écrit en termes logarithmiques:
T
log (T ) = log T0 x (23.25)
T
log (T ) = + x+ " E (") = 0 ; V ar (") = 1 ( = )
Les modèles AFT correspondent donc à des modèles de régression dont la variable dépen-
dante est le logarithme des durées.
Di¤érentes hypothèses sur la distribution de l’erreur donnent lieu à di¤érentes formes de la
distribution des durées T : Quelques exemples:
1) Modèle exponentiel
On peut facilement démontrer que, si:
(i) "i g ("i ) = exp ("i ) exp ( exp ("i )) (distribution extreme value)
24
(ii) =1
f (t) = exp ( t)
avec:
T
= exp + xi
2) Modèle de Weibull
Si on garde seulement l’hypothèse (i), on obtient pour T une loi de Weibull:
1
f (t) = t exp ( t )
avec:
+ Tx
i
= exp
1
=
3) Modèle Log-normal
Avec des erreurs qui se distribuent selon une loi normale standard,
ou = + Tx .
i
L’estimation des modèles AFT se base sur la méthode de maximum de vraisemblance (voir
Section 5.3).
25
23.7.2 Véri…cation des modèles AFT
La véri…cation empirique des modèles AFT suit la même logique que dans le cas des modèles
paramétriques sans covariates (Section 5.2). On se base cette fois-ci sur les résidus standardisés
(et exponentiés) du modèle
0 1
log t a + bT xi
b
resi = exp @ A
b
et on considère des transformations de S (resi ) qui devraient, selon chacun des modèles consid-
érés, présenter une relation linéaire avec resi (ou log (resi )).
On peut démontrer que, dans le cas du modèle de Weibull (et donc modèle exponentiel, qui
est un cas particulier du modèle de Weibull):
1
(1 S (resi )) = log (resi ) : (23.27)
Les deux relations (23.26) et (23.27) sont en…n véri…ées en remplaçant S (resi ) avec l’estimateur
de Kaplan Meier calculé sur les résidus Sb (resi ).
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "exponential")
Value Std. Error z p
(Intercept) 4.5649 0.36789 12.41 2.36e- 35
clinic1 0.8806 0.21063 4.18 2.91e- 05
prison - 0.2526 0.16489 - 1.53 1.25e- 01
dose 0.0289 0.00614 4.71 2.52e- 06
Scale fixed at 1
Exponential distribution
Loglik(model)= - 1094 Loglik(intercept only)= - 1118.9
Chisq= 49.91 on 3 degrees of freedom, p= 8.3e- 11
Number of Newton- Raphson Iterations: 5
n= 238
26
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "weibull")
Value Std. Error z p
(Intercept) 4.8139 0.27499 17.51 1.29e- 68
clinic1 0.7090 0.15722 4.51 6.49e- 06
prison - 0.2295 0.12079 - 1.90 5.75e- 02
dose 0.0244 0.00459 5.32 1.03e- 07
Log(scale) - 0.3150 0.06756 - 4.66 3.13e- 06
Scale= 0.73
Weibull distribution
Loglik(model)= - 1084.5 Loglik(intercept only)= - 1114.9
Chisq= 60.89 on 3 degrees of freedom, p= 3.8e- 13
Number of Newton- Raphson Iterations: 7
n= 238
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "lognorm")
Value Std. Error z p
(Intercept) 3.9833 0.34663 11.49 1.46e- 30
clinic1 0.5765 0.17648 3.27 1.09e- 03
prison - 0.3090 0.15431 - 2.00 4.52e- 02
dose 0.0337 0.00568 5.93 2.96e- 09
Log(scale) 0.0748 0.05930 1.26 2.07e- 01
Scale= 1.08
27
Figure 11: véri…cation empirique de trois modèles AFT.
28
Annexe A: construction de la fonction de vraisemblance avec
données censurées.
Soient:
T = Durée non observée
C = Censure non-observée
Y = min (T; C) = Durée observée
D = I (T < C) = Indicateur de censure
les données observées sont représentées par les couples: (yi ; di ), i = 1; :::; n,
réalisations des variables (Y; D).
La fonction de vraisemblance est donnée par:
n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di )
i=1
où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de
la façon suivante:
29
aléatoire C.
Et donc:
D‘où:
f (yi ; di ) = (f (yi ) (1 G (yi ))) i (g (yi ) (1 F (yi )))1 di
:
n
Y n
Y
L( ) = f (yi ; di ) = (f (yi ) (1 G (yi )))di (g (yi ) (1 F (yi )))1 di
=
i=1 i=1
n
Y n
Y
= f (yi )di (1 F (yi ))1 di
= f (yi )di S (yi )1 di
:
i=1 i=1
n
Y
L( ) = h (yi )di S (yi ) :
i=1
30
Annexe B: test de l’hypothèse de proportionnalité dans le modèle de Cox, via
l’introduction de variables dépendantes du temps dans le modèle
T T
hi (t) = h0 (t) exp xi + txi i = 1; :::; n
On construit un …cher personne-période dans lequel les épisodes sont “splittés” en sous-
épisodes qui durent chacun une unité de temps (le jour dans notre cas). Par exemple un sujet
qui reste dans l’étude 5 jours avant de connaître l’événement est fait correspondre à 5 sujets
…ctifs, dont le premier entre au temps zéro et est censuré au jour 1, le deuxième entre au jour
2 et est censure au jour 3, . . . ,le cinquième entre au jour 4 et connaît l’événement au jour 5.
Seul le dernier sujet …ctif connaît donc l’événement, si le sujet de départ a connu l’événement,
sinon il est lui aussi censuré.
# On crée une variable start qui donne les jours d’entrée dans l’étude de tous les sous-
individus
# La variable stop donne les jours de sortie de l’étude de tous les sous-individus
31
# On construit les covariates clinic2, prison2 et dose2 pour le nouveau …cher
# On applique le modèle de Cox aux nouvelles données. D’abord sans introduire les variables
dépendantes du temps. Le résultat est le même que celui obtenu avec le …cher de départ
Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2)
n= 95812
coef exp(coef) se(coef) z p
clinic2 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison2 0.3266 1.386 0.16722 1.95 5.1e- 02
dose2 - 0.0354 0.965 0.00638 - 5.54 2.9e- 08
32
summary(cox22)
Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2 + clinic2.time + prison2.time + dose2.time)
n= 95812
coef exp(coef) se(coef) z p
clinic2 2.38e- 02 1.024 3.48e- 01 0.0685 9.5e- 01
prison2 4.40e- 01 1.553 2.97e- 01 1.4853 1.4e- 01
dose2 - 4.40e- 02 0.957 1.13e- 02 - 3.9059 9.4e- 05
clinic2.time - 3.05e- 03 0.997 9.62e- 04 - 3.1689 1.5e- 03
prison2.time - 1.44e- 04 1.000 7.50e- 04 - 0.1925 8.5e- 01
dose2.time 2.70e- 05 1.000 2.82e- 05 0.9596 3.4e- 01
33
Figure 12: e¤et du traitement (clinic) dans le temps.
34