Chap It Re 6

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL
D. Mouchiroud (11/10/2002)
......................................................................................................................................................................................................
Chapitre 6
Estimation
Sommaire
1. Introduction.3 2. Distribution dchantillonnage.....4

2.1. Dfinition......4
2.1.1. Approche empirique...4 2.1.2. Approche thorique .5

2.2. Loi de probabilit de la moyenne....6
2.2.1. Dfinition....6 2.2.2. Convergence .....7

2.3. Loi de probabilit dune frquence......8
3. Estimateur....8
3.1. Dfinition........8 3.2. Proprits.......9
3.2.1. Convergence.....9 3.2.2. Biais dun estimateur.....9 3.2.3. Variance dun estimateur....10
4. Estimation ponctuelle et par intervalle....11

4.1. Estimation ponctuelle.. .11
4.1.1. Esprance...11 4.1.2. Variance........12

1
......................................................................................................................................................................................................
4.1.3. Frquence...14
4.2. Estimation par intervalle ......15
4.2.1. Dfinition....15 4.2.2. Intervalle de confiance dune moyenne.....16 4.2.3. Intervalle de confiance dune proportion.20
......................................................................................................................................................................................................
1 Introduction
Un phnomne biologique sera entirement dtermin si lon connat la loi de probabilit suivie par la variable alatoire donne dans la population. On a alors deux cas de figure : soit la loi de probabilit suivie par X est connue a priori et on vrifie a posteriori que les observations faites partir dun chantillon sont en accord avec elle. Cest le cas par exemple de la rpartition des gnotypes attendus dans une population sous le modle de Hardy-Weinberg. On effectue alors un test dajustement entre la distribution thorique et la distribution observe (chapitre 7). soit la loi de probabilit suivie par X est inconnue mais suggre par la description de lchantillon (nature de la variable, forme de la distribution des frquences, valeurs des paramtres descriptifs) (chapitre 5). Dans ce cas, il est ncessaire destimer les paramtres de la loi de probabilit partir des paramtres tablis sur lchantillon.
Linfrence statistique traite principalement de ces deux types de problmes : lestimation de paramtres (esprance, variance, probabilit de succs) et les tests dhypothses. Linfrence statistique ne conduit jamais une conclusion stricte, elle attache toujours une probabilit cette conclusion. Cela provient du fait que lon tente de tirer des conclusions sur une population (grand nombre dindividus) sur la base des observations ralises sur un chantillon, reprsentant une portion restreinte de la population. Lestimation a pour objectif de dterminer les valeurs inconnues des paramtres de la population (p, , 2) ou (proportion, moyenne, variance) partir des donnes de lchantillon (f, x , s2). Il est alors ncessaire de dterminer la prcision de ces estimations en tablissant un intervalle de confiance autour des valeurs prdites.
Les statistiques infrentielles ou inductives peuvent se rsumer par le schma suivant :
POPULATION
p, , 2
ECHANTILLON
CARACTERISTIQUE
taille n Echantillonnage alatoire
DE LECHANTILLON
f, Dduction Statistique descriptive
x , s2
Infrence statistique
3
......................................................................................................................................................................................................
2 Distribution dchantillonnage
Pour rsoudre les problmes destimation de paramtres inconnus, il faut tout dabord tudier les distributions dchantillonnage, cest dire la loi de probabilit suivie par lestimateur. Remarque : En thorie de lestimation, il sagit de distinguer soigneusement trois concepts diffrents : les paramtres de la population comme la moyenne dont la valeur est certaine mais inconnue symboliss par des lettres grecques. les rsultats de lchantillonnage comme la moyenne x dont la valeur est certaine mais connue symboliss par des minuscules. les variables alatoires des paramtres, comme la moyenne alatoire X dont la valeur est incertaine puisque alatoire mais dont la loi de probabilit est souvent connue et symbolises par des majuscules. 2.1 Dfinition
2.1.1
Approche empirique
Il est possible dextraire dune population de paramtres p, ou 2 pour une variable alatoire X, k chantillons alatoires simples de mme effectif, n. Sur chaque chantillon de taille n, on calcule les paramtres descriptifs (f, x , s2).
On obtient ainsi pour chaque paramtre estim, une srie statistique compose de k lments savoir les k estimations du paramtre tudi. Par exemple, on aura k valeurs de moyennes observes (graphe ci-dessus).
......................................................................................................................................................................................................
La distribution associe ces k estimations constitue la distribution dchantillonnage du paramtre. On peut alors associer une variable alatoire chacun des paramtres. La loi de probabilit suivie par cette variable alatoire admet comme distribution, la distribution dchantillonnage du paramtre auquel on pourra associer une esprance et une variance.
2.1.2
Approche thorique
En pratique, les donnes tudies sont relatives un seul chantillon. Cest pourquoi, il faut rechercher les proprits des chantillons susceptibles dtre prlevs de la population ou plus prcisment les lois de probabilit de variables alatoires associes un chantillon alatoire.
Ainsi les n observations x1 , x2 ,, xi , , xn, faites sur un chantillon peuvent tre considres comme n variables alatoires X1 , X2 ,, Xi , , Xn. En effet, la valeur prise par le premier lment extrait de la population X1, dpend de lchantillon obtenu lors du tirage alatoire. Cette valeur sera diffrente si lon considre un autre chantillon. Il en est de mme pour les n valeurs extraites de la population. A partir de ces n variables alatoires, on peut dfinir alors une nouvelle variable qui sera fonction de ces dernires telle que : Y = f(X1, X2,, Xi , , Xn ) par exemple : Y = X1 + X2++ Xi +. Xn
Ainsi la loi de probabilit de la variable alatoire Y dpendra la fois de la loi de probabilit de la variable alatoire X et de la nature de la fonction f.
......................................................................................................................................................................................................
2.2 Loi de probabilit de la moyenne
2.2.1
Dfinition
Soit X une variable alatoire suivant une loi normale desprance et de variance 2 et n copies indpendantes X1,X2,,Xi,,Xn telle que Xi associe le ime lment de chacun des n chantillons avec E(Xi) = et V(Xi) = 2. On construit alors la variable alatoire
X , telle que
X1 + X 2 + ..X i + ...+ X n 1 n X= = Xi n n i=1

avec pour esprance :
n 1 n 1 1 n 1 E(X ) = E( X i ) = E( X i ) = E(X i ) = n n i=1 n i=1 n i=1 n
Proprits de lesprance
do
E(X ) =
E ( X ) est note galement X
et pour variance si V(Xi) = 2 :

n 1 n 1 1 n 1 V(X ) = V ( X i ) = 2 V( X i ) = 2 V (X i ) = 2 n 2 n i=1 n n i=1 n i=1
Proprits de la variance
do V(X ) =
2
n
2 V(X ) est note galement X
La loi de probabilit de la variable alatoire X , moyenne de n v.a. X de loi de probabilit N( , ), est une loi normale N( ,
).
Remarque : il est ais de voir sur le graphe ci-dessous que la variance associe une moyenne (
2
n
) est plus faible que la variance de la variable elle-mme (2).
......................................................................................................................................................................................................
Variabilit de X
Soit ltendue des valeurs observes dune variable alatoire X pour 4 chantillons de mme taille dune mme population. Les valeurs des moyennes arithmtiques sont indiques ainsi que les limites relatives ltendue des valeurs de la variable observe et celle des moyennes observes.
x1 x2 x3 x4
Variabilit de X
Exemple : Des tudes statistiques montrent que le taux de glucose dans le sang est une variable normale X desprance = 1 g/l et dcart-type = 0,1 g/l. En prenant un chantillon de 9 individus dans la population, lesprance et lcart-type thorique attendu de la variable alatoire X sont alors :
X = = 1 g/l et X =
0,1 = 0,03 g/l 9
2.2.2
Convergence
En fonction de la nature de la variable alatoire continue X, de la taille de lchantillon n et de la connaissance que nous avons sur le paramtre 2, la variable centre rduite construite avec X converge vers diffrentes lois de probabilit (Table de convergence).
Lorsque la variance 2 est connue et n grand (n 30), on se trouve dans les conditions du thorme central limite et la loi suivie par :
X N(0,1) loi normale rduite n

Ceci reste vrai lorsque n 30 seulement si la loi suivie par X suit une loi normale.
Lorsque la variance 2 est inconnue et X suit une loi normale, la loi suivie par la variable centre rduite est alors :
X T n-1 loi de student n-1 degrs de libert n

7
......................................................................................................................................................................................................
Lorsque n 30, la loi de student tend vers une loi normale rduite (voir convergence).
Lorsque la variance 2 est inconnue et X ne suit pas une loi normale, la loi suivie par
X n
nest pas connue.
2.3 Loi de probabilit dune frquence Soit une population dans laquelle une proportion p des individus prsente une certaine proprit. Si k est le nombre dindividu prsentant la proprit dans un chantillon de taille n, alors la variable alatoire K rsultant de diffrents chantillonnages suit une loi binomiale B(n,p) avec E(K) = np et V(K) = npq.
On construit la variable alatoire pour esprance : et pour variance :
K avec n K 1 1 E ( F ) = E ( ) = E ( K ) = np = p Opration sur les variables n n n K 1 1 pq V(F) = V ( ) = 2 V (K) = 2 npq = n n n n F=

K pq , suit une loi normale N(p, ) n n vrai si np > 5 et nq > 5.
La loi de probabilit dune frquence
3 Estimateur
3.1 Dfinition
Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X (discrte ou continue) et un paramtre associ la loi de probabilit suivi par X, un estimateur du paramtre est une variable alatoire fonction des Xi : = f (X1 , X2 ,, Xi , , Xn)
......................................................................................................................................................................................................
Si on considre n observations x1 , x2 ,, xi , , xn, lestimateur fournira une estimation de note galement : = f (x1 , x2 ,, xi , , xn) Lestimation dun paramtre inconnu, not est fonction des observations rsultant dun chantillonnage alatoire simple de la population. Lestimateur est donc une nouvelle variable alatoire construite partir des donnes exprimentales et dont la valeur se rapproche du paramtre que lon cherche connatre. Lestimation de est une variable alatoire dont la distribution de probabilit sappelle la distribution dchantillonnage du paramtre . Lestimateur admet donc une esprance E() et une variance V().
3.2 Proprits
3.2.1
Convergence
Lestimateur doit tendre vers la valeur relle du paramtre lorsque le nombre dindividus tudi augmente. On dit que lestimateur est convergent. Si > 0 P( - ) > ) 0 lorsque n Ceci quivaut dire quen limite lorsque n .
3.2.2
Biais dun estimateur
Le biais dun estimateur not B() est la diffrence moyenne entre sa valeur et celle du paramtre quil estime. Le biais doit tre gal 0 pour avoir un bon estimateur. B() = E(-) = E()-E() = E()- = 0 (voir proprits de lesprance) do E() = Ainsi lestimateur sera sans biais si son esprance est gale la valeur du paramtre de la population. E() = Exemple : Soit les densits de probabilit de 3 estimateurs dune esprance , 9
......................................................................................................................................................................................................
1 et 2 sont des estimateurs sans biais de car E(1) = E(2) = 3 est un estimateur biais de car E(3) - = - 0
Dans lexemple ci-dessus, 1 et 2 sont des estimateurs sans biais de car B(1) = E(1- ) = E(1) - = 0 car E(1) = , de mme pour B(2) alors que 3 est un estimateur biais de car B(3) = E(3 - ) = E(3) - = - 0 car E(3) = Remarque : Un estimateur est asymptotiquement sans biais si E() lorsque n
3.2.3
Variance dun estimateur
Si deux estimateurs sont convergents et sans biais, le plus efficace est celui qui a la variance la plus faible car ses valeurs sont en moyenne plus proches de la quantit estime. V() = E( - E())2 minimale
Exemple Dans lexemple prcdent, on voit que V(1) < V(2). On peut donc conclure que 1 est un meilleur estimateur de que 2. Remarque : Quand les estimateurs sont biaiss, en revanche, leur comparaison nest pas simple. Ainsi un estimateur peu biais mais de variance trs faible, pourrait mme tre prfr un estimateur sans biais mais de grande variance.
10
......................................................................................................................................................................................................
Thorme : Si un estimateur est asymptotiquement sans biais et si sa variance tend vers 0 lorsque n , il est convergent. P( ) (Ingalit de Bienaym-Tchbycheff) Cette ingalit exprime que si tend vers 0 quand n augmente, V() doit aussi tendre vers 0.
V()
avec > 0
4 Estimation ponctuelle et par intervalle

Lestimation dun paramtre quelconque est ponctuelle si lon associe une seule valeur lestimateur partir des donnes observables sur un chantillon alatoire. Lestimation par intervalle associe un chantillon alatoire, un intervalle [ 1 ,2 ] qui recouvre avec une certaine probabilit.
4.1.
Estimation ponctuelle
Si la distribution de la variable alatoire X est connue, on utilise la mthode du maximum de vraisemblance pour estimer les paramtres de la loi de probabilit. En revanche si la distribution nest pas connue, on utilise la mthode des moindres carrs.
4.1.1.
Esprance
Soit X une variable alatoire continue suivant une loi normale N(,) dont la valeur des paramtres nest pas connue et pour laquelle on souhaite estimer lesprance . Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur du paramtre est une suite de variable alatoire fonctions des Xi : = f (X1 , X2 ,, Xi , , Xn) La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire = a1X1 + a2X2 ++ aiXi + + anXn telle que E () = et V() soit minimale (voir dmonstration)
11
......................................................................................................................................................................................................
La moyenne arithmtique constitue le meilleur estimateur de , esprance de la loi de probabilit de la variable alatoire X :
1 n = X = Xi n i =1
Voici pourquoi : Estimateur sans biais : E( X ) =
(voir loi de la moyenne)
Estimateur convergent : si lon pose lingalit de Binaym-Tchbycheff : P( X ) lorsque n
V(X )
V(X )
ainsi en limite, P( X ) = 0, ce qui indique que X en probabilit.
2 2 0 et ceci > 0 n
avec > 0
4.1.2.
Variance
Soit X une variable alatoire continue suivant une loi normale N (,) pour laquelle on souhaite estimer la variance 2. Soient X1 , X2 ,, Xi , , Xn , n ralisations indpendantes de la variable alatoire X, un estimateur du paramtre 2 est une suite de variable alatoire fonctions des Xi : = f (X1 , X2 ,, Xi , , Xn)
Cas o lesprance est connue

La mthode des moindres carrs consiste rechercher les coefficients de la combinaison linaire = a1(X1 - )2 + a2(X2 - )2 ++ ai(Xi- )2 ++ an ( Xn- )2 telle que E () = 2 et V() soit minimale (voir dmonstration)
12
......................................................................................................................................................................................................
La variance observe constitue le meilleur estimateur de 2, variance de la loi de probabilit de la variable alatoire X lorsque lesprance est connue :
1 = (X i ) 2 n i=1
2
Remarque : Cette estimation de la variance de la population est rarement utilise dans la mesure o si la variance 2 nest pas connue, lesprance ne lest pas non plus.
Cas o lesprance est inconnue

Dans ce cas, nous allons estimer avec = X et dans ce cas
(X
i=1
i ) (X i X ) . 2 2 i=1
Nous allons tudier la relation entre ces deux termes partir de la variance observe : n n 1 1 2 2 2 s = (X i X ) = [(X i ) (X )] n i=1 n i=1 n 1 2 2 2 s = [(X i ) + (X ) 2(X i )(X )] n i=1
n n n 1 n (X i ) 2 + 1 (X ) 2 2(X )(X i ) avec (X i ) = n(X ) n i=1 n i=1 i=1 i=1 n 1 2 2 2 2 s = (X i ) + (X ) 2(X ) n i=1 n n 2 2 1 1 2 2 2 2 2 2 2 s = (X i ) (X ) = en effet X = (X ) = (X ) = n n n i=1 n i=1 n 1 2 s2 = ainsi n
s =
Le meilleur estimateur de 2, variance de la loi de probabilit de la variable alatoire X lorsque lesprance est inconnue est :
2 =
n 2 1 n s = (X i X )2 n 1 n 1 i=1
Remarque : Lorsque n augmente, la variance observe s2 tend vers la variance de la ( n 1) 2 = 2 population 2. lim s 2 = lim n + n + n
13
......................................................................................................................................................................................................
4.1.3.
Frquence
Soit le schma de Bernoulli dans lequel le caractre A correspond au succs. On note p la frquence des individus de la population possdant le caractre A. La valeur de ce paramtre tant inconnu, on cherche estimer la frquence p partir des donnes observables sur un chantillon. A chaque chantillon non exhaustif de taille n, on associe lentier k, nombre dindividus possdant le caractre A. Soit K une variable alatoire discrte suivant une loi binomiale B(n,p) et pour laquelle on souhaite estimer la frquence p.
La frquence observe du nombre de succs observ dans un chantillon de taille n constitue le meilleur estimateur de p :
= p
Voici pourquoi :
K n
k ) = p (voir loi de frquence) n Estimateur convergent : si lon pose lingalit de Binaym-Tchbycheff

Estimateur sans biais : E(
P(
K p) n
K V( ) n
avec > 0
alors lorsque n ainsi en limite P(
K k p ) = 0 ce qui indique que p en probabilit. n n
K V( ) pq n = 0 et ceci > 0 2 2 n
Remarque : Nous avions dj avanc cette proprit lors de ltablissement de la loi des grands nombres. Exemple : On a prlev au hasard, dans une population de lapin, 100 individus. Sur ces 100 lapins, 20 sont atteints par la myxomatose. Le pourcentage de lapins atteints par la myxomatose dans la population est donc :
= p
K 20 = = 0,2 soit 20% de lapins atteins dans la population n 100
14
......................................................................................................................................................................................................
Ce rsultat naura de signification que sil est associ un intervalle de confiance. 4.2 Estimation par intervalle
4.2.1 Dfinition
Lestimation par intervalle associe un chantillon alatoire, un intervalle [ 1 ,2 ] qui recouvre avec une certaine probabilit.
Cet intervalle est appel lintervalle de confiance du paramtre car la probabilit que dont la valeur est inconnue se trouve compris entre 1 et 2 est gale 1-, le coefficient de confiance P( < < ) = 1
1 2
Son complment correspond au coefficient de risque. P( [ 1 , 2 ]) =
Un intervalle de confiance indique la prcision dune estimation car pour un risque donn, lintervalle est dautant plus grand que la prcision est faible comme lindiquent les graphes ci-dessous. Pour chaque graphe, laire hachure en vert correspond au coefficient de risque . Ainsi de part et dautre de la distribution, la valeur de laire hachure vaut .
2
15
......................................................................................................................................................................................................
= 0,01
99 chances sur 100 que la valeur du paramtre recherch se trouve dans lintervalle de confiance mais la prcision autour de la valeur prdite est faible
= 0,05
95 chances sur 100 que la valeur du paramtre recherch se trouve dans lintervalle de confiance et la prcision autour de la valeur prdite est correcte.
= 0,10
90 chances sur 100 que la valeur du paramtre recherch se trouve dans lintervalle de confiance mais la prcision autour de la valeur prdite est leve.
4.2.2
Intervalle de confiance dune moyenne
En fonction de la nature de la variable alatoire continue X, de la taille de lchantillon n et de la connaissance que nous avons sur le paramtre 2, ltablissement de lintervalle de confiance autour de sera diffrent.
Quelque soit la valeur de n, si X N( , ) et 2 est connue,Etablir lintervalle de

confiance autour de la moyenne revient tablir la valeur de i pour
16
......................................................................................................................................................................................................
une valeur du coefficient de confiance 1 - donne par lexprimentateur.
Voici pourquoi : Si P( X - i < < X + i ) = 1 - alors P( - i < X < + i ) = 1 -
Connaissant la loi suivie par la v. a. X et daprs le thorme central limite, nous pouvons tablir que (conditions) par consquent
P(
i X +i < < ) = 1 / n / n / n
sachant que
X N(0,1) / n
/ n
correspond la valeur de la variable normale rduite pour la
probabilit donne note ainsi
ou cart rduit
/ n
= implique i =
Lintervalle de confiance de la moyenne pour un coefficient de risque est donc
< < X +
quelque soit la valeur de n si X N( , ) et la variance 2 est connue
Exemple : Pour des masses comprises entre 50g et 200g, une balance donne une pese avec une variance de 0,0015. Les rsultats des trois peses dun mme corps sont : 64,32 ; 64,27 ; 64 ,39. On veut connatre le poids moyen de ce corps dans la population avec un coefficient de confiance de 99%. avec X = 64,33g et et donc
= 2,576 alors
= X
n
n
= 2,576
0,039 = 0,058 1,732
= 64,33g 0,058
do le poids moyen de ce corps est compris dans lintervalle [64,27 ; 64,39] avec une probabilit de 0,99. Remarque : La valeur de est donne par la table de lcart-rduit pour une valeur donne.
17
......................................................................................................................................................................................................
Coefficient de risque = 0,01 = 0,05 = 0,10
Ecart-rduit
= 2,576 = 1,960 = 1,645
Quelque soit la valeur de n, si X N( , ) et 2 est inconnue,

Le raisonnement reste le mme mais la variance de la population 2 doit tre estime par
n 2 s (voir estimation ponctuelle) n 1 Si P( X - i < < X + i ) = 1 - alors P( - i < X < + i ) = 1 - 2 =

i X +i < < ) = 1 / n / n / n
Connaissant la loi suivie par la v. a. X et celle suivie par la variable centre rduite, on peut tablir que (conditions) par consquent
P(
sachant que
X T(n-1 d.d.l.) / n
i / n
correspond la valeur de la variable de student pour une valeur de
probabilit donne note t pour n -1 degrs de libert. i Ainsi = t implique i = t x / n n
Lintervalle de confiance de lesprance pour un coefficient de risque est donc
X t
< < X + t
quelque soit la valeur de n si X N( , ) et 2 est inconnue
Remarque : Lorsque n > 30, la loi de student converge vers une loi normale rduite. Ainsi la valeur de t (n-1) est gale . Ci-dessous, un exemple pour un risque = 0,05.
18
......................................................................................................................................................................................................
Taille de lchantillon
Ecart-rduit
Variable de student
n = 10 n = 20 n = 30 n = 40
Exemples :
= 1,960 = 1,960 = 1,960 = 1,960
t = 2,228 t = 2,086 t = 2,042 t = 1,960
(1) Dans un chantillon de 20 tudiants de mme classe dge et de mme sexe, la taille moyenne observe est de 1,73m et lcart-type de 10 cm. La taille moyenne de lensemble des tudiants de luniversit est donc :
n 2 20 s= 0,01 = 0,011 et t = 2,086 n 1 19 0,011 do t = 2,086 = 0,049 ainsi = X t = 1,73m 0,049 n n 20 2 avec x = 1,73m ; =
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,68 ; 1,78] avec une probabilit de 0,95. (2) Dans un chantillon de 100 tudiants, la taille moyenne de la population est :
n 2 100 s= 0,01 = 0,01 et = 1,960 n 1 99 0,010 = 1,960 = 0,02 ainsi = X = 1,73m 0,02 do 100 n n 2 x = 1,73m ; =
La taille moyenne des tudiants dans la population est comprise dans lintervalle [1,71 ; 1,75] avec une probabilit de 0,95. Ainsi lorsque la taille de lchantillon augmente pour un mme coefficient de confiance (1) , lestimation autour de est plus prcise.
Si n > 30 et X suit une loi inconnue,

La dmarche est la mme que pour le cas prcdent puisque par dfinition la variance de la population est inconnue et doit tre estime avec la variance observe :
2 =
n 2 s (voir estimation ponctuelle) n 1
Comme pour le cas 1, la loi suivie par la variable centre rduite (conditions).
X N(0,1) / n
19
......................................................................................................................................................................................................
Lintervalle de confiance de lesprance pour un coefficient de risque est donc
< < X +
vraie seulement si n est grand.
Si n < 30 et X suit une loi inconnue,

La loi de probabilit suivie par non paramtriques.
X nest pas connue et lon a recours aux statistiques n
4 .2.3 Intervalle de confiance dune proportion

Etablir lintervalle de confiance autour de la frquence p de la population partir de son K estimateur revient tablir la valeur de i pour une valeur du coefficient de confiance n (1 - ) donne par lexprimentateur telle que :
P(
K K K - i < p < + i ) = 1 - ou P( p - i < < p +i)=1- n n n
Connaissant la loi suivie par la v. a.
K et daprs le thorme central limite, on peut n
tablir que
K K p p i +i n n P( < < ) = 1 sachant que N(0,1) pq pq pq pq n n n n

i pq n
par consquence
correspond la valeur de la variable normale rduite pour
probabilit donne note ou cart rduit.
ainsi
i i = pq = implique n
pq n
20
......................................................................................................................................................................................................
Par dfinition, V(
q=
n K n
K pq pq K p ) = nest pas connue et on lestime par avec = et n n n n
Lintervalle de confiance de la frquence p pour un coefficient de risque est donc
K n
q K p pq < p < + n n n
vraie seulement si n est grand et np, nq > 5
Remarque : Si la taille de lchantillon est faible, on a recours aux lois exactes.
Exemple : Un laboratoire dagronomie a effectu une tude sur le maintien du pouvoir germinatif des graines de Papivorus subquaticus aprs une conservation de 3 ans. Sur un lot de 80 graines, 47 ont germ. Ainsi la probabilit de germination des graines de Papivorus subquaticus aprs trois ans de conservation avec un coefficient de confiance de 95% est donc :
p avec =
alors
K 47 n K 33 = = 0,588 , q = = = 0,412 et = 1,96 80 n 80 n pq 0,588 0,412 = 1,96 = 0,108 do p = 0,588 0,108 n 80
ainsi la probabilit de germination est comprise dans lintervalle [0,480 et 0,696] avec une probabilit de 0,95.
21

Chap It Re 6

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chap It Re 6

Uploaded by

Copyright:

Available Formats

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

1. Introduction.3 2. Distribution dchantillonnage.....4

2.1.1. Approche empirique...4 2.1.2. Approche thorique .5

2.2.1. Dfinition....6 2.2.2. Convergence .....7

4. Estimation ponctuelle et par intervalle....11

4.1.1. Esprance...11 4.1.2. Variance........12

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Les statistiques infrentielles ou inductives peuvent se rsumer par le schma suivant :

taille n Echantillonnage alatoire

f, Dduction Statistique descriptive

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

2.2 Loi de probabilit de la moyenne

X1 + X 2 + ..X i + ...+ X n 1 n X= = Xi n n i=1

E ( X ) est note galement X

et pour variance si V(Xi) = 2 :

2 V(X ) est note galement X

) est plus faible que la variance de la variable elle-mme (2).

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

0,1 = 0,03 g/l 9

X N(0,1) loi normale rduite n

X T n-1 loi de student n-1 degrs de libert n

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

nest pas connue.

On construit la variable alatoire pour esprance : et pour variance :

K avec n K 1 1 E ( F ) = E ( ) = E ( K ) = np = p Opration sur les variables n n n K 1 1 pq V(F) = V ( ) = 2 V (K) = 2 npq = n n n n F=

La loi de probabilit dune frquence

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Biais dun estimateur

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Variance dun estimateur

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

4 Estimation ponctuelle et par intervalle

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

(voir loi de la moyenne)

Estimateur convergent : si lon pose lingalit de Binaym-Tchbycheff : P( X ) lorsque n

ainsi en limite, P( X ) = 0, ce qui indique que X en probabilit.

Cas o lesprance est connue

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Cas o lesprance est inconnue

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

k ) = p (voir loi de frquence) n Estimateur convergent : si lon pose lingalit de Binaym-Tchbycheff

alors lorsque n ainsi en limite P(

K k p ) = 0 ce qui indique que p en probabilit. n n

K 20 = = 0,2 soit 20% de lapins atteins dans la population n 100

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Son complment correspond au coefficient de risque. P( [ 1 , 2 ]) =

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Intervalle de confiance dune moyenne

Quelque soit la valeur de n, si X N( , ) et 2 est connue,Etablir lintervalle de

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

une valeur du coefficient de confiance 1 - donne par lexprimentateur.

Voici pourquoi : Si P( X - i < < X + i ) = 1 - alors P( - i < X < + i ) = 1 -

correspond la valeur de la variable normale rduite pour la

probabilit donne note ainsi

Lintervalle de confiance de la moyenne pour un coefficient de risque est donc

quelque soit la valeur de n si X N( , ) et la variance 2 est connue

0,039 = 0,058 1,732

Mathmatiques : Outils pour la Biologie Deug SV1 UCBL

Coefficient de risque = 0,01 = 0,05 = 0,10

= 2,576 = 1,960 = 1,645

Quelque soit la valeur de n, si X N( , ) et 2 est inconnue,