Professional Documents
Culture Documents
n
i j
ij =N O equivalente:
f ij =1
i j
donde nij es la frecuencia absoluta conjunta o total de elementos en
la poblacin que presenta el valor bidimensional (xi, yj).
La frecuencia relativa conjunta fij es la proporcin de elementos en la
poblacin que presenta el valor (xi, yj).
nij
f ij =
N
Tema 2: Distribuciones bidimensionales
La distribucin de frecuencias bidimensional de (X,Y) se puede expresar en
una tabla bidimensional:
y1 y2 yj yq
Columna de
x1 n11 n12 n1j n1q n1* frecuencias
marginales
x2 n21 n22 n2j n2q n2*
Frecuencia absoluta
xi ni1 ni2 nij niq ni*
nij
fila columna
xp np1 np2 npj npq np*
n*1 n*2 n*j n*q N
Total de
elementos en
Fila de la poblacin
frecuencias
marginales
Tema 2: Distribuciones bidimensionales
La distribucin de frecuencias bidimensional de (X,Y) se puede expresar en
una tabla bidimensional (frecuencias absolutas):
y1 y2 yj yq
q
x1 n11 n12 n1j n1q n1*
Total fila 1 n1* = nij
j =1
Total de elementos
que presentan el
ni* = nij
valor xi j =1
Total de
elementos que p
n* j = nij
presentan el
valor yj
Total
columna j i =1
Tema 2: Distribuciones bidimensionales
La distribucin de frecuencias bidimensional de (X,Y) se puede expresar en
una tabla bidimensional (frecuencias relativas):
y1 y2 yj yq Proporcin de
elementos
x1 f11 f12 f1j f1q f1* Total fila 1
que presenta
el valor xi
x2 f21 f22 f2j f2q f2* Total fila 2
q
f i* = f ij
j =1
Proporcin de
elementos
que presenta
xp fp1 fp2 fpj fpq fp* xi e yj
q p
f*1 f*2 f*j f*q 1 1 = f ij
j =1 i =1
i =1
Tema 2: Distribuciones bidimensionales
Uno de los objetivos del anlisis de distribuciones
bidimensionales es estudiar si existe asociacin o relacin entre
las variables X e Y.
Condicionadas:
q distribuciones condicionadas de los valores de X a los q valores de Y
p distribuciones condicionadas de los valores de Y a los p valores de X
Tema 2: Distribuciones bidimensionales
A partir de una distribucin bidimensional se pueden obtener 2 distribuciones
unidimensionales MARGINALES: Marginal de X y Marginal de Y.
MARGINAL DE Y
ni*
xi ni* fi* f i* = Y y1 y2 yj yq
N
n*j n*1 n*2 n*j n*q N
f*j f*1 f*2 f*j f*q 1
xp np* fp*
n* j
N 1 f* j =
N
Tema 2: Distribuciones bidimensionales
A partir de una distribucin bidimensional se pueden obtener distribuciones
unidimensionales CONDICIONADAS: de X y de Y.
Total de
elementos en
xi nij nij /n*j=fi/j la subpoblacin
CONDICIONAL DE Y / X=xi
Y y1 y2 yj yq
xp npj npj /n*j=fp/j nij ni1 ni2 nij niq ni*
n*j 1
fj/i ni1/ni* ni2/ni* nij/ni* niq/ni* 1
Total de elementos en
=f1/i =f2/i =fj/i =fq/i
la subpoblacin
Tema 2: Distribuciones bidimensionales
Ejemplo distribucin bidimensional (en frecuencias absolutas y en relativas):
Un grupo de 91 nios se clasifica segn su edad (X) y puntuacin en un test (Y)
20 30 41 91
20 0,220 0,330 0,451 1,000
0,220 =
91
TEST TEST
Marginal Marginal
Marginal Marginal
20 30 41 91
0,220 0,330 0,451 1,000
Hay 10 nios que tienen 7 aos y puntuacin 125 en el test. Hay 20 nios con puntuacin igual a 120.
Hay una proporcin de 0,11 nios que tiene 7 aos y puntuacin 125 en el test. El 22% de los nios
tiene puntuacin igual a 120.
Tema 2: Distribuciones bidimensionales
Ejemplo (continuacin)
Distribuciones marginales de la Edad y Test
nmero de proporcin de
Nmero Proporcin TEST alumnos alumnos
Edad alumnos de alumnos
120 20 0,220
5 20 0,220
125 30 0,330
6 21 0,231
130 41 0,451
7 25 0,275
8 25 0,275
91 1
91 1
6 7 8 6 21
6 0,350 0,267 0,146 0,231
7 2 10 13 25
7 0,100 0,333 0,317 0,275
Cmo se hace?
Se divide cada casilla de la bidimensional (tabla izquierda) entre el total de columna.
Las flechas de la tabla indican la direccin en que se han de hacer los clculos
Por ejemplo, para obtener la distribucin condicionada de la Edad / test =120 se divide
cada casilla de la columna encabezada por 120 por el total de columna (20). Observa
que la poblacin que cumple esa condicin es de 20 nios.
Observa que la ltima fila est formada por unos. Hay 3 distribuciones condicionadas.
Una marginal.
Tema 2: Distribuciones bidimensionales
Ejemplo (continuacin)
Distribuciones condicionadas de la Edad a los valores del test
Distribucin bidimensional
Distribuciones condicionadas de la Edad
TEST TEST
Edad 120 125 130
Observa que la ltima fila est formada por unos. Hay 3 distribuciones condicionadas
de la Edad. Una marginal de la Edad.
Tema 2
Ejemplo (continuacin)
Distribuciones condicionadas del Test a los valores de la edad
Distribucin bidimensional
Distribuciones condicionadas del Test
TEST TEST
Edad 120 125 130
Edad 120 125 130 5 0,500 0,400 0,100 1
0,110 0,088 0,022 0,220 6 0,333 0,381 0,286 1
5 7 0,080 0,400 0,520 1
0,077 0,088 0,066 0,231 8 0,040 0,160 0,800 1
6 0,220 0,330 0,451 1
0,022 0,110 0,143 0,275
7
Cmo se hace?
0,011 0,044 0,220 0,275
8
Las flechas de la tabla indican la direccin en que se han de
hacer los clculos
0,220 0,330 0,451 1,000
Por ejemplo, para obtener la distribucin condicionada del test /Edad=6 aos se divide cada casilla de la
fila encabezada por 6 entre el total de fila (0,231). Observa que la poblacin que cumple esa condicin
es de una proporcin igual a 0,231 nios.
Observa que la ltima columna est formada por unos. Hay 4 distribuciones condicionadas
del test. Y la marginal del test.
Tema 2
Uno de los objetivos del anlisis de distribuciones
bidimensionales es estudiar si son independientes o por el
contrario, existe asociacin o relacin entre las variables X e Y.
Clculo
x1 23 69 92
x2 12 36 48
Basta ver que las distribuciones
x3 15 45 60
condicionadas son iguales. Por ejemplo,
x4 7 21 28 las condicionadas de X/Y
57 171 228
La lectura de la tabla de condicionadas se hace en sentido contrario al que se hayan realizado los clculos; es decir, en el
ejemplo la lectura es horizontal: Fila 1: 0,404 = 0,404; Fila 2: 0,211=0,211; Fila 3: 0,263=0,263; Fila 4: 0,123=0,123.
Todas las condicionadas son iguales. Por tanto las variables X e Y son INDEPENDIENTES
Tema 2
Ejemplo (Continuacin):
Comprueba si son o no independientes las variables X e Y de la distribucin bidimensional (X, Y)
siguiente:
Clculo
y1 y2
x1 23 69 92
x2 12 36 48 Otro modo de ver que son independientes es
x3 15 45 60 comprobando que las distribuciones condicionadas
x4 7 21 28 de Y/X son todas iguales.
57 171 228
La lectura de la tabla de condicionadas se hace en sentido contrario al que se hayan realizado los clculos; es decir, en el
ejemplo la lectura es vertical: Columna 1: 0,250 = 0,250 =0,250 = 0,250 ;Columna 2: 0,750=0,750=0,750=0,750.
Todas las condicionadas son iguales. Por tanto las variables X e Y son INDEPENDIENTES
Tema 2
Ejemplo (Continuacin):
Comprueba si son o no independientes las variables X e Y de la distribucin bidimensional (X, Y)
siguiente: (Puedes hacerlo con frecuencias absolutas o con relativas)
Otro modo de ver que son independientes es
y1 y2
comprobando que las frecuencias relativas conjuntas
x1 23 69 92
verifican la ecuacin:
x2 12 36 48
ni* n* j
x3 15 45 60
f ij = f i* f* j O la equivalente nij =
x4 7 21 28 N
57 171 228 Cmo?
60 57
Comprueba que cada frecuencia absoluta verifica la ecuacin. Por ejemplo, 15 =
228
y1 y2
Cmo?
x1 0,101 0,303 0,404
x2 0,053 0,158 0,211
si prefieres usar la primera ecuacin:
x3 0,066 0,197 0,263 Se obtiene la distribucin bidimensional en
x4 0,031 0,092 0,123
frecuencias relativas. Para ello divide cada casilla
correspondiente a una frecuencia absoluta entre 228
0,250 0,750 1,000
Por ejemplo, 0,101=23/228.
Comprueba luego que se verifica 0,101=0,0404 por 0,.250; 0,303= 0,404 por 0,750; ..,
0,092 = 0,123 por 0,750.
Tema 2: Distribuciones bidimensionales
Resumiendo, habrs observado que una tabla bivariante para una
bidimensional (X, Y) puede expresarse en frecuencias absolutas y relativas.
Cuando las variables X o Y son cualitativas se denomina tabla de
contingencia
Una tabla en proporciones puede indicar que hay una sola distribucin
bidimensional o que hay varias distribuciones unidimensionales condicionadas.
Cmo puedo saber si hay una sola distribucin de carcter bidimensional o
varias condicionadas (unidimensionales)?
La respuesta es fcil. Si la suma de todas las frecuencias de la tabla es 1, hay
una sola distribucin bidimensional. Estas proporciones se obtienen dividiendo
cada frecuencia absoluta nij entre el total de elementos N.
Si la suma de cada columna es 1, hay tantas distribuciones como columnas. Las
proporciones se han obtenido dividiendo cada casilla por el total columna.
Si la suma de cada fila es 1, hay tantas distribuciones como filas. Las
porporciones se han obtenido dividiendo cada casilla por el total de fila.
Vamos a repasar un ejemplo que ya vimos.
Tema 2
Ejemplo (repaso)
TEST
Edad 120 125 130 Observa que la suma de las frecuencias de cada fila es 1
Observa que:
92 57 92 171 28 171
t 11= = 23; t 12 = = 69;...;t 42 = = 21
228 228 228
Observa que todo tij coincide con lo observado realmente (nij) y los numeradores
de la expresin de Chi-cuadrado son todos nulos, y por tanto la suma y
Chi-cuadrado es cero.
Tema 2
Ejemplo:Veamos el valor de chi-cuadrado en la
tabla siguiente:
p q
(t ij nij ) 2
2 =
TEST
i =1 j =1 tij
Edad 120 125 130
n i* n* j
5 10 8 2 20
6 7 8 6 21
Con t ij =
7 2 10 13 25 N
8 1 4 20 25
20 30 41 91
20 20 20 30 25 41
t 11= = 4,396; t 12 = = 6,593;...;t 43 = = 11,264
91 91 91
Para realizar los clculos es cmodo colocar columnas que indiquen los pasos
sucesivos a realizar para obtener el estadstico:
Tema 2
Ejemplo:Veamos el valor de chi-cuadrado en la tabla siguiente:
TEST TEST
Edad 120 125 130
5 4,396 6,593 9,011 20
Edad 120 125 130
6 4,615 6,923 9,462 21
5 10 8 2 20
7 5,495 8,242 11,264 25
6 7 8 6 21
8 5,495 8,242 11,264 25
7 2 10 13 25
20 30 41 91
8 1 4 20 25
20 30 41 91
20 20 20 30 25 41
t 11= = 4,396; t 12 = = 6,593;...;t 43 = = 11,264
91 91 91
Para realizar los clculos es cmodo colocar columnas que indiquen los pasos
sucesivos a realizar para obtener el estadstico:
Tema 2
Ejemplo:Clculo chi-cuadrado (continuacin):
La tabla siguiente indica los clculos necesarios
p q
(t ij nij ) 2 8 6,5934 1,4066 1,9785 0,3001
100 7 7,00
110 5
6,00
130 4
140 3
mortalidad 5,00
140 2
150 2
4,00
casi lineal
2,00
Y = a + bX
Variable dependiente
Ordenada
en el origen Pendiente Variable independiente
= ( yi a bxi ) 2 ni Y
i 7,00
Y=a+bX
Para obtener el mnimo de S se
deriva la ecuacin anterior respecto 6,00
mortalidad
5,00
generado viene dado por:
di=yi-yi
yi ni = a ni + b x i ni
4,00
yi
i i i
x yn
i
i i i = a xi ni + b x 2i n i
i i
3,00
2,00
X = a '+b' Y
Variable dependiente
Ordenada
en el origen Pendiente Variable independiente
= ( xi a 'b' yi ) 2 ni Y
i 7,00
X=a+bY
Para obtener el mnimo de S se di=xi-xi
deriva la ecuacin anterior respecto 6,00
mortalidad
5,00
generado viene dado por:
xi ni = a' ni + b' y i ni
4,00
i i i
x y n
i
i i i = a ' yi ni + b' y 2i n i
i i
3,00
2,00
7,00
X = a '+b' Y
Y = a + bX 6,00
mortalidad
5,00
o ( X ,Y )
4,00
3,00
2,00
100 7 x y n i i i
i
N
XY
Cov( X , Y ) a = Y bX
110 5 b= =
130 4
xi2 ni Var ( X )
i
X2
140 3 N
140 2 Para determinar a y b necesitamos los clculos que expresamos por comodidad
en las columnas de la tabla siguiente:
150 2
x n i i
770 y n
X= = = 128,333
i i
i 23
N 6 Y = i
= = 3,833
Mortalidad N 6
Renta(X) (Y) XY X^2
x n 2
i i
100700
100 7 700 10000 V (X ) = i
X2 = 128,3332 = 313,889
N 6
x y n
110 5 550 12100
i i i
130 4 520 16900 2770
Cov( X , Y ) = i
XY = 128,333 3.833 = 30,278
140 3 420 19600 N 6
140 2 280 19600 Cov( X , Y ) 30,278
b= = = 0,096
150 2 300 22500 Var ( X ) 313,889
770 23 2770 100700
Y = 16,212 0,096 X
Obtenga la recta de regresin de X sobre Y: X = a '+b' Y
Renta(X)
Mortalida
d(Y) XY Y^2
x y n i i i
i
XY
100 7 700 49
b' = N =
Cov( X , Y )
a ' = X b' Y
110 5 550 25 yi2 ni Var (Y )
130 4 520 16
i
Y 2
N
140 3 420 9
140 2 280 4
150 2 300 4 y n 2
i i
107
V (Y ) = i
Y 2 = 3,8332 = 3,139
770 23 2770 107 N 6
Cov ( X , Y ) 30,278
b' =
Var (Y )
=
3,139
= 9,646 a ' = X b' Y = 128,333 (9,646 3,8333) = 165,310
X = 165,310 9,646Y
Tema 2
Coeficiente de correlacin lineal de Pearson.
Un coeficiente muy usado para medir el grado de relacin lineal entre las
variables X e Y es el debido a Pearson, que notamos con r
Se define como el cociente entre la covarianza y el producto de las
desviaciones tpicas de las variables
Al coeficiente r al cuadrado se denomina coeficiente de determinacin y
expresa la proporcin de variacin de la variable dependiente que es
explicada por la independiente.
Tambin se usa como medida de bondad de ajuste. Una propiedad
interesante del coeficiente de correlacin lineal de Pearson es que est
comprendido entre los valores -1 y 1. El valor 0 indica ausencia de
correlacin lineal. Los valores -1 y 1 indican correlacin lineal perfecta
(todos los puntos estn sobre las rectas de regresin), el negativo indican
que cuando una variable crece (disminuye) la otra decrece (aumenta) y el
positivo indica que cuando una aumenta (disminuye) la otra tambin aumenta
(disminuye).
Se dice que la correlacin es ms dbil cuanto ms se aproxima a cero. Y
ms fuerte cuanto ms se aproxima a los extremos -1 1.
Cov 2 ( X , Y ) (30,278) 2
r2 = = = 0,930
V ( X ) V (Y ) 313,889 3,139
r = 0,930 = 0,965
Cov 2 ( X , Y ) (30,278) 2
r2 = = = 0,930
V ( X ) V (Y ) 313,889 3,139
r = 0,930 = 0,965
7 2 10 13 25
V ( X ) V (Y )
8 1 4 20 25
Test = a + b 10
20 30 41 91
frecuencias
Edad=X Test=Y =n Xn Yn XYn X^2n Y^2n
5 120 10 50 1200 6000 250 144000
6 120 7 42 840 5040 252 100800
7 120 2 14 240 1680 98 28800
8 120 1 8 120 960 64 14400
5 125 8 40 1000 5000 200 125000
6 125 8 48 1000 6000 288 125000
7 125 10 70 1250 8750 490 156250
8 125 4 32 500 4000 256 62500
5 130 2 10 260 1300 50 33800
6 130 6 36 780 4680 216 101400
7 130 13 91 1690 11830 637 219700
8 130 20 160 2600 20800 1280 338000
Test = a + bEdad Y = a + bX
Tema 2
Ejemplo (continuacin):
601 11480
X= = 6,6044; Y = = 126,1538
91 91
76040
Cov( X , Y ) = 6,6044 126,1538 = 2,4345
91
4081 1449650
V (X ) = 6,6044 2 = 1,2281 V (Y ) = 126,15382 = 15,4269
91 91
b=
2,4345
= 1,9823 Test = a + bEdad Y = a + bX
1,2281
Test = 113,06 + 1,98Edad
a = 126,1538 1,9823 6,6044 = 113,0619
Cov 2 ( X , Y ) 2,43452
Test = 113,06 + 1,98Edad r =
2
= = 0,3128
V ( x) V (Y ) 1,2281 15,4269
132,86 = 113,06 + 1,98 10 r = 0,5593