Professional Documents
Culture Documents
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Chapitre 6
Estimation
Sommaire
3. Estimateur....8
3.1. Dfinition........8 3.2. Proprits.......9
3.2.1. Convergence.....9 3.2.2. Biais dun estimateur.....9 3.2.3. Variance dun estimateur....10
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
4.1.3. Frquence...14
4.2. Estimation par intervalle ......15
4.2.1. Dfinition....15 4.2.2. Intervalle de confiance dune moyenne.....16 4.2.3. Intervalle de confiance dune proportion.20
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
1 Introduction
Un phnomne biologique sera entirement dtermin si lon connat la loi de probabilit suivie par la variable alatoire donne dans la population. On a alors deux cas de figure : soit la loi de probabilit suivie par X est connue a priori et on vrifie a posteriori que les observations faites partir dun chantillon sont en accord avec elle. Cest le cas par exemple de la rpartition des gnotypes attendus dans une population sous le modle de Hardy-Weinberg. On effectue alors un test dajustement entre la distribution thorique et la distribution observe (chapitre 7). soit la loi de probabilit suivie par X est inconnue mais suggre par la description de lchantillon (nature de la variable, forme de la distribution des frquences, valeurs des paramtres descriptifs) (chapitre 5). Dans ce cas, il est ncessaire destimer les paramtres de la loi de probabilit partir des paramtres tablis sur lchantillon.
Linfrence statistique traite principalement de ces deux types de problmes : lestimation de paramtres (esprance, variance, probabilit de succs) et les tests dhypothses. Linfrence statistique ne conduit jamais une conclusion stricte, elle attache toujours une probabilit cette conclusion. Cela provient du fait que lon tente de tirer des conclusions sur une population (grand nombre dindividus) sur la base des observations ralises sur un chantillon, reprsentant une portion restreinte de la population. Lestimation a pour objectif de dterminer les valeurs inconnues des paramtres de la population (p, , 2) ou (proportion, moyenne, variance) partir des donnes de lchantillon (f, x , s2). Il est alors ncessaire de dterminer la prcision de ces estimations en tablissant un intervalle de confiance autour des valeurs prdites.
POPULATION
p, , 2
ECHANTILLON
CARACTERISTIQUE
DE LECHANTILLON
x , s2
Infrence statistique
3
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
2 Distribution dchantillonnage
Pour rsoudre les problmes destimation de paramtres inconnus, il faut tout dabord tudier les distributions dchantillonnage, cest dire la loi de probabilit suivie par lestimateur. Remarque : En thorie de lestimation, il sagit de distinguer soigneusement trois concepts diffrents : les paramtres de la population comme la moyenne dont la valeur est certaine mais inconnue symboliss par des lettres grecques. les rsultats de lchantillonnage comme la moyenne x dont la valeur est certaine mais connue symboliss par des minuscules. les variables alatoires des paramtres, comme la moyenne alatoire X dont la valeur est incertaine puisque alatoire mais dont la loi de probabilit est souvent connue et symbolises par des majuscules. 2.1 Dfinition
2.1.1
Approche empirique
Il est possible dextraire dune population de paramtres p, ou 2 pour une variable alatoire X, k chantillons alatoires simples de mme effectif, n. Sur chaque chantillon de taille n, on calcule les paramtres descriptifs (f, x , s2).
On obtient ainsi pour chaque paramtre estim, une srie statistique compose de k lments savoir les k estimations du paramtre tudi. Par exemple, on aura k valeurs de moyennes observes (graphe ci-dessus).
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
La distribution associe ces k estimations constitue la distribution dchantillonnage du paramtre. On peut alors associer une variable alatoire chacun des paramtres. La loi de probabilit suivie par cette variable alatoire admet comme distribution, la distribution dchantillonnage du paramtre auquel on pourra associer une esprance et une variance.
2.1.2
Approche thorique
En pratique, les donnes tudies sont relatives un seul chantillon. Cest pourquoi, il faut rechercher les proprits des chantillons susceptibles dtre prlevs de la population ou plus prcisment les lois de probabilit de variables alatoires associes un chantillon alatoire.
Ainsi les n observations x1 , x2 ,, xi , , xn, faites sur un chantillon peuvent tre considres comme n variables alatoires X1 , X2 ,, Xi , , Xn. En effet, la valeur prise par le premier lment extrait de la population X1, dpend de lchantillon obtenu lors du tirage alatoire. Cette valeur sera diffrente si lon considre un autre chantillon. Il en est de mme pour les n valeurs extraites de la population. A partir de ces n variables alatoires, on peut dfinir alors une nouvelle variable qui sera fonction de ces dernires telle que : Y = f(X1, X2,, Xi , , Xn ) par exemple : Y = X1 + X2++ Xi +. Xn
Ainsi la loi de probabilit de la variable alatoire Y dpendra la fois de la loi de probabilit de la variable alatoire X et de la nature de la fonction f.
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
2.2.1
Dfinition
Soit X une variable alatoire suivant une loi normale desprance et de variance 2 et n copies indpendantes X1,X2,,Xi,,Xn telle que Xi associe le ime lment de chacun des n chantillons avec E(Xi) = et V(Xi) = 2. On construit alors la variable alatoire
X , telle que
Proprits de lesprance
do
E(X ) =
Proprits de la variance
do V(X ) =
2
n
La loi de probabilit de la variable alatoire X , moyenne de n v.a. X de loi de probabilit N( , ), est une loi normale N( ,
).
Remarque : il est ais de voir sur le graphe ci-dessous que la variance associe une moyenne (
2
n
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Variabilit de X
Soit ltendue des valeurs observes dune variable alatoire X pour 4 chantillons de mme taille dune mme population. Les valeurs des moyennes arithmtiques sont indiques ainsi que les limites relatives ltendue des valeurs de la variable observe et celle des moyennes observes.
x1 x2 x3 x4
Variabilit de X
Exemple : Des tudes statistiques montrent que le taux de glucose dans le sang est une variable normale X desprance = 1 g/l et dcart-type = 0,1 g/l. En prenant un chantillon de 9 individus dans la population, lesprance et lcart-type thorique attendu de la variable alatoire X sont alors :
X = = 1 g/l et X =
2.2.2
Convergence
En fonction de la nature de la variable alatoire continue X, de la taille de lchantillon n et de la connaissance que nous avons sur le paramtre 2, la variable centre rduite construite avec X converge vers diffrentes lois de probabilit (Table de convergence).
Lorsque la variance 2 est connue et n grand (n 30), on se trouve dans les conditions du thorme central limite et la loi suivie par :
Lorsque la variance 2 est inconnue et X suit une loi normale, la loi suivie par la variable centre rduite est alors :
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Lorsque n 30, la loi de student tend vers une loi normale rduite (voir convergence).
Lorsque la variance 2 est inconnue et X ne suit pas une loi normale, la loi suivie par
X n
2.3 Loi de probabilit dune frquence Soit une population dans laquelle une proportion p des individus prsente une certaine proprit. Si k est le nombre dindividu prsentant la proprit dans un chantillon de taille n, alors la variable alatoire K rsultant de diffrents chantillonnages suit une loi binomiale B(n,p) avec E(K) = np et V(K) = npq.
3 Estimateur
3.1 Dfinition
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X (discrte ou continue) et un paramtre associ la loi de probabilit suivi par X, un estimateur du paramtre est une variable alatoire fonction des Xi : = f (X1 , X2 ,, Xi , , Xn)
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Si on considre n observations x1 , x2 ,, xi , , xn, lestimateur fournira une estimation de note galement : = f (x1 , x2 ,, xi , , xn) Lestimation dun paramtre inconnu, not est fonction des observations rsultant dun chantillonnage alatoire simple de la population. Lestimateur est donc une nouvelle variable alatoire construite partir des donnes exprimentales et dont la valeur se rapproche du paramtre que lon cherche connatre. Lestimation de est une variable alatoire dont la distribution de probabilit sappelle la distribution dchantillonnage du paramtre . Lestimateur admet donc une esprance E() et une variance V().
3.2 Proprits
3.2.1
Convergence
Lestimateur doit tendre vers la valeur relle du paramtre lorsque le nombre dindividus tudi augmente. On dit que lestimateur est convergent. Si > 0 P( - ) > ) 0 lorsque n Ceci quivaut dire quen limite lorsque n .
3.2.2
Le biais dun estimateur not B() est la diffrence moyenne entre sa valeur et celle du paramtre quil estime. Le biais doit tre gal 0 pour avoir un bon estimateur. B() = E(-) = E()-E() = E()- = 0 (voir proprits de lesprance) do E() = Ainsi lestimateur sera sans biais si son esprance est gale la valeur du paramtre de la population. E() = Exemple : Soit les densits de probabilit de 3 estimateurs dune esprance , 9
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
1 et 2 sont des estimateurs sans biais de car E(1) = E(2) = 3 est un estimateur biais de car E(3) - = - 0
Dans lexemple ci-dessus, 1 et 2 sont des estimateurs sans biais de car B(1) = E(1- ) = E(1) - = 0 car E(1) = , de mme pour B(2) alors que 3 est un estimateur biais de car B(3) = E(3 - ) = E(3) - = - 0 car E(3) = Remarque : Un estimateur est asymptotiquement sans biais si E() lorsque n
3.2.3
Si deux estimateurs sont convergents et sans biais, le plus efficace est celui qui a la variance la plus faible car ses valeurs sont en moyenne plus proches de la quantit estime. V() = E( - E())2 minimale
Exemple Dans lexemple prcdent, on voit que V(1) < V(2). On peut donc conclure que 1 est un meilleur estimateur de que 2. Remarque : Quand les estimateurs sont biaiss, en revanche, leur comparaison nest pas simple. Ainsi un estimateur peu biais mais de variance trs faible, pourrait mme tre prfr un estimateur sans biais mais de grande variance.
10
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Thorme : Si un estimateur est asymptotiquement sans biais et si sa variance tend vers 0 lorsque n , il est convergent. P( ) (Ingalit de Bienaym-Tchbycheff) Cette ingalit exprime que si tend vers 0 quand n augmente, V() doit aussi tendre vers 0.
V()
avec > 0
4.1.
Estimation ponctuelle
Si la distribution de la variable alatoire X est connue, on utilise la mthode du maximum de vraisemblance pour estimer les paramtres de la loi de probabilit. En revanche si la distribution nest pas connue, on utilise la mthode des moindres carrs.
4.1.1.
Esprance
Soit X une variable alatoire continue suivant une loi normale N(,) dont la valeur des paramtres nest pas connue et pour laquelle on souhaite estimer lesprance . Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur du paramtre est une suite de variable alatoire fonctions des Xi : = f (X1 , X2 ,, Xi , , Xn) La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire = a1X1 + a2X2 ++ aiXi + + anXn telle que E () = et V() soit minimale (voir dmonstration)
11
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
La moyenne arithmtique constitue le meilleur estimateur de , esprance de la loi de probabilit de la variable alatoire X :
1 n = X = Xi n i =1
Voici pourquoi : Estimateur sans biais : E( X ) =
V(X )
V(X )
2 2 0 et ceci > 0 n
avec > 0
4.1.2.
Variance
Soit X une variable alatoire continue suivant une loi normale N (,) pour laquelle on souhaite estimer la variance 2. Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur du paramtre 2 est une suite de variable alatoire fonctions des Xi : = f (X1 , X2 ,, Xi , , Xn)
12
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
La variance observe constitue le meilleur estimateur de 2, variance de la loi de probabilit de la variable alatoire X lorsque lesprance est connue :
1 = (X i ) 2 n i=1
2
Remarque : Cette estimation de la variance de la population est rarement utilise dans la mesure o si la variance 2 nest pas connue, lesprance ne lest pas non plus.
(X
i=1
i ) (X i X ) . 2 2 i=1
Nous allons tudier la relation entre ces deux termes partir de la variance observe : n n 1 1 2 2 2 s = (X i X ) = [(X i ) (X )] n i=1 n i=1 n 1 2 2 2 s = [(X i ) + (X ) 2(X i )(X )] n i=1
n n n 1 n (X i ) 2 + 1 (X ) 2 2(X )(X i ) avec (X i ) = n(X ) n i=1 n i=1 i=1 i=1 n 1 2 2 2 2 s = (X i ) + (X ) 2(X ) n i=1 n n 2 2 1 1 2 2 2 2 2 2 2 s = (X i ) (X ) = en effet X = (X ) = (X ) = n n n i=1 n i=1 n 1 2 s2 = ainsi n
s =
Le meilleur estimateur de 2, variance de la loi de probabilit de la variable alatoire X lorsque lesprance est inconnue est :
2 =
n 2 1 n s = (X i X )2 n 1 n 1 i=1
Remarque : Lorsque n augmente, la variance observe s2 tend vers la variance de la ( n 1) 2 = 2 population 2. lim s 2 = lim n + n + n
13
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
4.1.3.
Frquence
Soit le schma de Bernoulli dans lequel le caractre A correspond au succs. On note p la frquence des individus de la population possdant le caractre A. La valeur de ce paramtre tant inconnu, on cherche estimer la frquence p partir des donnes observables sur un chantillon. A chaque chantillon non exhaustif de taille n, on associe lentier k, nombre dindividus possdant le caractre A. Soit K une variable alatoire discrte suivant une loi binomiale B(n,p) et pour laquelle on souhaite estimer la frquence p.
La frquence observe du nombre de succs observ dans un chantillon de taille n constitue le meilleur estimateur de p :
= p
Voici pourquoi :
K n
P(
K p) n
K V( ) n
avec > 0
K V( ) pq n = 0 et ceci > 0 2 2 n
Remarque : Nous avions dj avanc cette proprit lors de ltablissement de la loi des grands nombres. Exemple : On a prlev au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins, 20 sont atteints par la myxomatose. Le pourcentage de lapins atteints par la myxomatose dans la population est donc :
= p
14
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Ce rsultat naura de signification que sil est associ un intervalle de confiance. 4.2 Estimation par intervalle
4.2.1 Dfinition
Lestimation par intervalle associe un chantillon alatoire, un intervalle [ 1 ,2 ] qui recouvre avec une certaine probabilit.
Cet intervalle est appel lintervalle de confiance du paramtre car la probabilit que dont la valeur est inconnue se trouve compris entre 1 et 2 est gale 1-, le coefficient de confiance P( < < ) = 1
1 2
Un intervalle de confiance indique la prcision dune estimation car pour un risque donn, lintervalle est dautant plus grand que la prcision est faible comme lindiquent les graphes ci-dessous. Pour chaque graphe, laire hachure en vert correspond au coefficient de risque . Ainsi de part et dautre de la distribution, la valeur de laire hachure vaut .
2
15
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
= 0,01
99 chances sur 100 que la valeur du paramtre recherch se trouve dans lintervalle de confiance mais la prcision autour de la valeur prdite est faible
= 0,05
95 chances sur 100 que la valeur du paramtre recherch se trouve dans lintervalle de confiance et la prcision autour de la valeur prdite est correcte.
= 0,10
90 chances sur 100 que la valeur du paramtre recherch se trouve dans lintervalle de confiance mais la prcision autour de la valeur prdite est leve.
4.2.2
En fonction de la nature de la variable alatoire continue X, de la taille de lchantillon n et de la connaissance que nous avons sur le paramtre 2, ltablissement de lintervalle de confiance autour de sera diffrent.
16
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Connaissant la loi suivie par la v. a. X et daprs le thorme central limite, nous pouvons tablir que (conditions) par consquent
P(
i X +i < < ) = 1 / n / n / n
sachant que
X N(0,1) / n
/ n
ou cart rduit
/ n
= implique i =
< < X +
Exemple : Pour des masses comprises entre 50g et 200g, une balance donne une pese avec une variance de 0,0015. Les rsultats des trois peses dun mme corps sont : 64,32 ; 64,27 ; 64 ,39. On veut connatre le poids moyen de ce corps dans la population avec un coefficient de confiance de 99%. avec X = 64,33g et et donc
= 2,576 alors
= X
n
n
= 2,576
= 64,33g 0,058
do le poids moyen de ce corps est compris dans lintervalle [64,27 ; 64,39] avec une probabilit de 0,99. Remarque : La valeur de est donne par la table de lcart-rduit pour une valeur donne.
17
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Ecart-rduit
Connaissant la loi suivie par la v. a. X et celle suivie par la variable centre rduite, on peut tablir que (conditions) par consquent
P(
sachant que
X T(n-1 d.d.l.) / n
i / n
X t
< < X + t
Remarque : Lorsque n > 30, la loi de student converge vers une loi normale rduite. Ainsi la valeur de t (n-1) est gale . Ci-dessous, un exemple pour un risque = 0,05.
18
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Taille de lchantillon
Ecart-rduit
Variable de student
n = 10 n = 20 n = 30 n = 40
Exemples :
(1) Dans un chantillon de 20 tudiants de mme classe dge et de mme sexe, la taille moyenne observe est de 1,73m et lcart-type de 10 cm. La taille moyenne de lensemble des tudiants de luniversit est donc :
n 2 20 s= 0,01 = 0,011 et t = 2,086 n 1 19 0,011 do t = 2,086 = 0,049 ainsi = X t = 1,73m 0,049 n n 20 2 avec x = 1,73m ; =
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,68 ; 1,78] avec une probabilit de 0,95. (2) Dans un chantillon de 100 tudiants, la taille moyenne de la population est :
n 2 100 s= 0,01 = 0,01 et = 1,960 n 1 99 0,010 = 1,960 = 0,02 ainsi = X = 1,73m 0,02 do 100 n n 2 x = 1,73m ; =
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,71 ; 1,75] avec une probabilit de 0,95. Ainsi lorsque la taille de lchantillon augmente pour un mme coefficient de confiance (1) , lestimation autour de est plus prcise.
2 =
Comme pour le cas 1, la loi suivie par la variable centre rduite (conditions).
X N(0,1) / n
19
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
< < X +
P(
tablir que
par consquence
ainsi
i i = pq = implique n
pq n
20
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Par dfinition, V(
q=
n K n
K n
q K p pq < p < + n n n
Exemple : Un laboratoire dagronomie a effectu une tude sur le maintien du pouvoir germinatif des graines de Papivorus subquaticus aprs une conservation de 3 ans. Sur un lot de 80 graines, 47 ont germ. Ainsi la probabilit de germination des graines de Papivorus subquaticus aprs trois ans de conservation avec un coefficient de confiance de 95% est donc :
p avec =
alors
ainsi la probabilit de germination est comprise dans lintervalle [0,480 et 0,696] avec une probabilit de 0,95.
21