Professional Documents
Culture Documents
STATISTIQUE DESCRIPTIVE
À DEUX VARIABLES
Cours de statistique 1
Cours de statistique 2
INTRODUCTION
La notion de statistique descriptive bivariée est abordée, lorsqu'une population statistique est décrite
simultanément selon deux caractères X et Y, et s'il existe un lien ou une liaison entre les deux caractères
de cette population, on parle alors d'une série statistique à deux variables X et Y ou bien d'une distribution
à deux caractères X et Y. Dans ce cas, les tableaux statistiques seront à deux dimensions, où il s'agit de
bien faire correspondre les effectifs des lignes et des colonnes.
Exemple: Etude statistique sur une population d'ouvrier selon deux caractères:
1er caractère X: âge; 2ème caractère Y: salaire
1er caractère X: salaire 2ème caractère Y: nombre d'enfant
1er caractère X: âge 2ème caractère qualification
3.1.1.1 – Définition
On appelle tableau de contingence, ou tableau à double entrée, les tableaux statistiques qui décrivent
l'effectif nij de la population des individus qui ont simultanément la modalité xi du caractère X et la
modalité yj du caractère Y.
Les deux caractères X et Y, contenus dans le tableau de contingence peuvent être respectivement:
Cours de statistique 2
3.1.1.2 – Elément du tableau de contingence
Pour pouvoir lire les éléments contenus dans le tableau de contingence, des conventions de notations
ont été établies.
les modalités xi de la variable X apparaissent en colonne. Mais les effectifs nij apparaissent en
.ligne i.
les modalités yj de la variable Y apparaissent en ligne. Mais les effectifs nij apparaissent en
.colonne j.
nij: effectif partiel, il possède en même temps la modalité xi du caractère X et la modalité yj du
caractère Y.
Ni: effectif marginal de la modalité xi. Il correspond à la somme des effectifs partiels de la
modalité xi.
p
N i ni1 ni 2 .......... . nij .......... ... nip nij
j 1
Nj: effectif marginal de la modalité yj. 9Il correspond à la somme des effectifs partiels de la
modalité yj
k
N j n1 j n2 j .......... .. nij .......... .. nkj nij
i 1
N: effectif total
p k k p
N N i N j nij
j 1 i 1 i 1 j 1
Ni
fréquence relative marginale de la modalité xi : fi
N
Nj
fréquence relative marginale de la modalité yj : fj
N
Avec:
k p
fi f j 1
i 1 j 1
Cours de statistique 3
3.2.1.3 – Fréquences conditionnelles
nij
fréquence conditionnelle selon la variable X:
fi j (lire fréquence de i SI j)
Nj
nij
fréquence conditionnelle selon la variable Y:
f
j
i
(lire fréquence de j SI i)
Ni
3.2.1.4 – Relation entre fréquences relatives marginales et conditionnelles
N i nij
fi . f
j
i
f ij
N Ni
N j nij
f j . fi j f ij
N Nj
f ij f i . f ji f j . f i j
La représentation graphique d'une série statistique à deux variables se fait dans un plan muni d'un
repère orthogonal dans lequel on peut associer au couple (xi,yj) de la série statistique double , un point Mi
de coordonnées xi et yj. L'ensemble des points Mi obtenus constitue le nuage de points (ou scatter plot)
représentant la série statistique
X
.
3.1.3.2 – Le point moyen
On appelle point moyen d'un nuage de n point Mi possédant les coordonnées (xi,yj), le point G de
coordonnées: G(xG,yG)
k p
1 1
xG x
Ni
x
i 1
i et yG y
Nj
y
j 1
j
Cours de statistique 4
3.2 – APPROCHE NUMERIQUE
2° – Variance marginale
N
N ( x x)
i 1
i i
2
f i ( xi x) 2
i 1
ou bien en formule développée:
1 k 2 k 2
V ( X ) ( N i xi ) ( x ) f i xi2 ( x )
2
N i 1 i 1
2° – Variance marginale
N j 1 j 1
ou bien en formule développée:
1 p 2 p 2
V (Y ) ( N j y j ) ( y ) f j y j ( y )
2 2
N j 1 j 1
Cours de statistique 5
1° - Moyenne arithmétique conditionnelle de X selon Y
k k
1
xj
Nj
n .x f
i 1
ij i
i 1
i
j
.xi
La notation " x j " signifie: "moyenne conditionnelle de x", sachant Y=yj est fixe.
Les paramètres conditionnels de X selon Y sont notés Vj(X). Ils sont définit comme suit:
k k
1
Vj (X )
Nj
n (x x )
i 1
ij i j
2
f i j ( xi x j ) 2
i 1
j 1
ou bien en formule développée:
1 p p
Vi (Y ) ( nij y j ) ( yi ) fi j y 2j ( yi2 )
2 2
N i j 1 j 1
k k
1 1
V (Y )
N
i 1
N i ( yi y ) 2
N
V (Y ) N
i 1
i i
3.2.3 – La covariance
La covariance du couple de variable (X,Y) est la moyenne du produit des écarts aux moyennes
( xi x)( y j y ) .
1 k p
COV ( X , Y ) nij ( xi x)( y j y)
N i1 j 1
ou bien avec les fréquences relatives
k p
COV ( X , Y ) f ij ( xi x)( y j y )
i 1 j 1
La formule développée:
k p
COV ( X , Y ) fij xi y j x. y
i 1 j 1
Cours de statistique 7
Pour affirmer l'existence de la dépendance ou de l'indépendance entre les deux caractères X et Y, on
doit calculer les fréquences relatives marginales et conditionnelles.
On constate que :
chacune des fréquences relatives conditionnelles f i
j
de X est égale à la fréquence relative
marginale fj de X.
chacune des fréquences relatives conditionnelles f j
i
de Y est égale à la fréquence relative
marginale fj de Y.
Conclusion: les deux caractères sont indépendants
On dit que deux caractères X et Y sont totalement dépendant ou bien possèdent une liaison
fonctionnelle si à chaque modalité yi de Y correspond une seule modalité xi de X.
Conclusion:
Dans le cas de la dépendance totale, il n'y a qu'une seule valeur par ligne et par colonne
les valeurs des variables sont égales aux moyennes conditionnelles
Cours de statistique 8
3.2.5 – Exercice d'application
3.2.4.1- Enoncé
Au cours d'une expérience agricole, on a cherché à connaître l'influence du facteur quantité d'eau
(variable X) sur les rendements de betterave à sucre (variable Y). On désigne par x i les quantités d'eau
utilisées et yj les rendements de betterave sucrière correspondant. L'expérience a donné les résultats
suivants :
Les quantités d'eau xi [m3/ha] 3 5 6 8 9 11 13 15
Les rendements yj [Qx/ha] 5 7 8 10 12 14 17 20
X \ Y 5 7 8 10 12 14 17 20 Ni
3 1 0 0 0 0 0 0 0 1
5 0 1 0 0 0 0 0 0 1
6 0 0 1 0 0 0 0 0 1
8 0 0 0 1 0 0 0 0 1
9 0 0 0 0 1 0 0 0 1
11 0 0 0 0 0 1 0 0 1
13 0 0 0 0 0 0 1 0 1
15 0 0 0 0 0 0 0 1 1
Nj 1 1 1 1 1 1 1 1 N=8
Cours de statistique 9
1 8 1
x
N i 1
xi 70 8.75
8
1 8 1
y
N j 1
y j 93 11.625
8
1 8 2 1
2
V (X ) [ xi x ] [730 (8.75) 2 ] 14.6875
N i 1 8
1 8 2 1
2
V (Y ) [ y j y ] [1267 (11.625) 2 ] 23.234
N j 1 8
4° - Calcul de la covariance
1 8 1
cov( X , Y ) ( nij xi y j ) ( x. y ) (961) [(8.75)(11.625)] 18.406
N i 1 8
3.4 – L'AJUSTEMENT
Les techniques générales de l'ajustement (théorie de la régression) sont très importantes. Les
éléments présentés ci-après sont de simples initiations è cette théorie. L'ajustement linéaire et non linéaire
par la méthode des moindres carrés possède un grand intérêt dans l'analyse des phénomènes.
Le principe de l'ajustement consiste à faire la représentation graphique de couple (xi, yj) dans le plan
pour pouvoir établir une relation entre les coordonnées des points. La relation entre les coordonnées de
points s'appelle: l'équation de la courbe.
Lorsqu'on porte sur un graphique les points représentatifs (pi avec i=j) des couples des valeurs (xi,yj),
ces points forment un nuage de points. En fonction de la configuration de ce nuage de points on peut
ajuster par une courbe dont on connaît en général l'équation mathématique usuelle.
y y
x x
Nuage suggérant un ajustement Nuage suggérant un ajustement
2
par une droite: y=ax+b ; a>0 par une parabole: y=ax +bx+c
y y
x x
Nuage suggérant un ajustement Nuage suggérant indépendance:
par une hyperbole: y=1/(ax +b) points répartis au hasard dans le plan
Cours de statistique 10
3.4.3 – Les équations des courbes d'ajustement
Parmi les équations de courbe d'ajustement les plus connues, on peut citer:
1 – équation de la droite: y ax b
2 – équation de la parabole: y ax 2 bx c
1
3 – équation de l'hyperbole: y
ax b
4 – équation de l'exponentielle: y ab x ou bien log( y ) log(a) x log(b)
5 – la fonction puissance: y ax b ou bien log( y ) log(a) b log(x)
k
6 – la fonction puissance logistique: y
1 e F (t )
Parmi toutes les méthodes citées ci-dessus, il faut définir la méthode qu'il y a lieu de retenir pour
minimiser chaque somme d'écarts. On distingue:
Les écarts en valeurs relatives, les écarts en valeurs absolues et le carré des écarts.
Les écarts en valeurs relatives ne peuvent pas être retenus en raison de la compensation qui en
résulte.
les écarts en valeurs absolues ne peuvent pas être retenus en raison des difficultés de leurs
maniements.
En conséquence, la somme des carrés des écarts fera l'objet de minimisation, cette méthode est
appelée: méthode des moindres carrés.
Le principe des moindres carrés a été développé au début du 19ème siècle, et a connu depuis, des
applications importantes dans de nombreux domaines. Il s'est révélé un instrument statistique d'une
grande utilité en donnant plus de rigueur et de rationalité à l'analyse des problèmes observés.
Le principe des moindres carrés a pour but de trouver l'équation d'ajustement qui rend minimum
l'écart ou la différence entre les valeurs observées dans la réalité et les valeurs théoriques données par la
courbe.
Pour une valeur donnée de xi il y aura un écart ei entre la valeur observée yj et la valeur y'j déterminé à
partir de la courbe. Cet écart ei peut être positif ou négatif ou nul. Ainsi pour chaque valeur de xi on peut
déterminer un écart vertical: e1,e2,…………ek.
Cours de statistique xi x 11
3.4.4.2 – Ajustement graphique
1° - Ajustement à la règle
On trace au jugé une droite D passant le plus près possible des points du nuage de points, en
s'efforçant d'équilibrer le nombre de points situés de part et d'autre de la droite D.
L'équation de D est alors de la forme y ax b . Pour trouver cette équation, il suffit de connaître deux
points de D
1° - La droite de régression
La méthode analytique consiste à ajuster le nuage de point (x i,yi) de la série d'observation par une
droite de la forme y ax b , tout en cherchant à minimiser les écarts entres les points.
Deux types d'écarts peuvent être définis: un écart vertical et un écart horizontal, et à chaque type
d'écart correspond un type de droites.
L'écart vertical mesure le différence entre deux valeur de Y, c'est-à-dire yj (valeur observée) et yj'
(valeur théorique), sachant que la valeur xi de X est fixée. C'est l'étude du caractère Y en fonction
du caractère X.
A partir de la valeur xi, la valeur yj correspondante est ajustée par la valeur yj' déterminée
par une droite D ayant pour équation y 'j axi b où a et b sont deux paramètres à déterminer.
On appelle droite de régression de Y en X, la droite D telle que:
p p y
e
j 1
2
j min ( y y j ) min
j 1
'
j
2
D
Le point M constitue le centre de gravité du nuage yj
de points par lequel passe la droite D.
ej
xi x
L'écart horizontal mesure le différence entre deux valeur de X, c'est-à-dire xi (valeur observée) et
xi' (valeur théorique), sachant que la valeur yj de Y est fixée. C'est l'étude du caractère X en
fonction du caractère Y.
A partir de la valeur yj , la valeur xi correspondante est ajustée par la valeur xi' déterminée
par une droite D' ayant pour équation xi' a ' y j b ' où a' et b' sont deux paramètres à déterminer.
On appelle droite de régression de X en Y, la droite D', telle que: y
k k
e
i 1
2
i min ( xi' xi ) 2 min
i 1
D'
yj
le point N constitue le centre de gravité du nuage N
de points par lequel passe la droite D'.
Ce centre de gravité a pour coordonnées ( x, y ) ou bien ( x , y ) ei
Cours de statistique 12
2° - Détermination des coefficients des droites D et D'
Pour déterminer les coefficients a et b, a' et b' des deux droites y ax b et xi' a' y j b' , il faut que la
somme des carrés des écarts soit minimum.
cov( X , Y ) cov( X , Y )
a – Détermination de a et a': a et a'
V (X ) V (Y )
b – Détermination de b et b': b y ax et b' x a ' y
3.2.4.1- Enoncé
Au cours d'une expérience agricole, on a cherché à connaître l'influence du facteur quantité d'eau
(variable X) sur les rendements de betterave à sucre (variable Y). On désigne par x i les quantités d'eau
utilisées et yj les rendements de betterave sucrière correspondant. L'expérience a donné les résultats
suivants :
Les quantités d'eau xi [m3/ha] 3 5 6 8 9 11 13 15
Les rendements yj [Qx/ha] 5 7 8 10 12 14 17 20
Cours de statistique 13
1 0,457
d'où: y x y 1,262x 0577
0,792 0,792
x 8,75
5 10 15 20 X
Si on trace les deux droites de régression D et D', sur le plan cartésien, on obtient le graphe suivant:
Les deux droites ramenées aux mêmes axes forment entre elles un angle appelé angle de
régression.
Comme ces deux droites D et D', ont un point commun ( x, y ) elles seront confondues si leur
1
pentes sont égales, c'est-à-dire a , dans ce cas ont qu'il existe une liaison fonctionnelle entre la
a'
variable X et la variable Y.
3.5 – LA CORRELATION
Pour savoir dans quelle mesure la droite D (ou D') trouvée approche bien le nuage de points, on
introduit la notion de " coefficient de corrélation"
La corrélation c'est l'étude des liaisons entre les variables d'une série d'observations. Cette étude est
importante, car elle permet de mesurer le degré de dépendance ou non entre les variables.
Cours de statistique 14
3.5.3 – La corrélation linéaire
L'angle de régression formé par les deux droites D et D', est un indicateur du degré de dépendance
entre les deux variables X et Y.
C'est à partir de la dépendance totale (a.a'=1), que le coefficient de corrélation linéaire r a été défini,
c'est un coefficient sans dimension.
Pour faire apparaître les valeurs positives et négatives, la valeur de r sera égale au produit des deux
pentes a et a', est élevé au carré: r 2 a.a ' 1 .On définit le coefficient de corrélation :
r a.a'
En remplaçant a et a' par leurs expressions, on obtient:
[cov( X , Y )]2 cov( X , Y )
r d'où: r
V ( X ).V (Y ) ( X ). (Y )
3.5.3.2 – Propriétés du coefficient de corrélation
Cours de statistique 15
EXERCICE 01
Soit donnée, la distribution d'un échantillon de 200 personnes selon les deux caractères suivants:
Y
Fumeurs Non-fumeurs
X
Cancéreux 50 30
Non cancéreux 30 90
1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est décrite.
2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
EXERCICE 02
Soit donnée, la distribution des étudiants d'une classe selon l'âge et le sexe.
Sexe
Age Masculin Féminin
[18 - 20[ 10 15
[20 - 22[ 30 20
[22 - 24[ 20 5
1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est décrite.
2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
5°- Calculer les paramètres des lois marginales.
6°- Calculer les paramètres des lois conditionnelles.
7°- Calculer la covariance
EXERCICE 03
Soit donnée, la distribution des cadres d'une entreprise selon le salaire mensuel et le nombre
d'enfants.
Nb d'enfants
Salaire 1 2 3 4
[20 000 - 40 000[ 3 4 2 8
[40 000 - 60 000[ 6 5 3 5
[60 000 - 80 000[ 8 1 2 3
1°- Définir l'unité statistique et donner le nombre de caractères selon lesquels est décrite.
2°- Tracer le nuage des points.
3°- Déterminer le point moyen.
4°- Etablir le tableau de contingence.
5°- Calculer les paramètres des lois marginales.
6°- Calculer les paramètres des lois conditionnelles.
7°- Calculer la covariance
EXERCICE 04
On considère un échantillon de 800 ménages classés selon deux caractères: le nombre de pièces par
logement (variable X) et le nombre d'enfants (variable Y).
Y
X 1 2 3 4 5 6 7 8
1 10 15 5 2 1 0 0 0
2 20 20 25 30 10 5 3 2
3 15 50 60 50 70 80 40 20
4 5 20 40 18 35 25 20 25
5 3 4 5 8 10 15 5 15
6 1 1 2 3 5 2 3 2
EXERCICE 05
Soit donnée une série statistique bivariée concernant un échantillon de 100 personnes classées selon
les dépenses de consommation mensuelles (caractères X) et les revenus mensuels (caractère Y) en
milliers de dinars.
Revenus
Dépenses [15 – 16[ [16 - 17[ [17 – 18[ [18 - 19[
[3 – 4[ 20 9 1 0
[4 – 5[ 2 18 4 1
[5 - 6[ 0 6 19 20
1°. Représenter dans un plans muni d'un repère orthonormé le nuage de points Mi(xi,yj) associé à la
statistique.On prendra :
pour origine: le point de coordonnées (0,8),
pour unité: 1[cm] → 10 [pièces] en abscisse et 1[cm] → 0,01 [mm] en ordonnées.
2°. Calculer les coordonnées du point moyen G du nuage et représentez le dans le graphique. du
nuage de points.
3°. Détermination de la droite de régression
a. Calculer les coordonnées du point G1 associé aux points du nuage ayant les cinq plus petites
abscisses et les coordonnées du point G2 associé aux cinq autres points du nuage.
b. Tracer la droite d'ajustement de MAYER qui passe par (G1,G2).
c. Formuler l'équation de la droite de MAYER.
4°. Sachant que les pièces produites doivent avoir un diamètre de 8 [mm], avec une tolérance de 0,1
[mm]. On demande de:
a. Déterminer graphiquement le nombre de pièces que l'on pourra produire avant que le diamètre
n'atteigne la valeur de 8,1 [mm].
b. Calculer ce même nombre à l'aide de l'équation de la droite de MAYER.
Age (xi) 36 42 48 54 60 66
Tension (yi) 12 13.5 13.6 14.3 15.4 15
1°. Représenter graphiquement le nuage de points M(x,y) dans un repère orthogonal. On prendra:
pour origine: le point de coordonnées (30,10).
pour unité: 0,5[cm] → 1 [an] en abscisse et 1[cm] → 1 [unité de tension] en ordonnées.
2°. Détermination de la droite de régression.
a. Si on admet qu'un ajustement par la méthode des moindres carrés est justifié. Calculer, à 0.01
près, le coefficient de corrélation entre x et y.
b. Formuler l'équation de la droite de régression de y en x (précision des coefficients 0.001)
c. Représenter graphiquement la droite de régression.
d. Si une personne de 70 ans a une tension de 16.1.- Quelle serait sa tension théorique en
Utilisant la droite de régression? –Comparez cette tension théorique avec la tension réelle