Professional Documents
Culture Documents
Villa Cox/Sabando
Apuntes de Clase # 5
Fecha: II Termino-2012
1.
f (x, y)
fx (x)
f (x|y) =
f (x, y)
fy (y)
Se deduce que:
Si x
y son independientes,
f (y|x) = fy (y)
y f (x|y) = fx (x)
La interpretaci
on es que si las variables son independientes, las probabilidades de los sucesos relacionados con una variable no est
an relacionadas con la otra. La definicion de densidades condicionales
tiene como implicaci
on el siguiente resultado importante.
f (x, y)
= f (y|x)fx (x)
= f (x|y)fy (y).
1.1.
Regresi
on. La media condicional
yf (y|x)dy si y es continua,
y
E[y|x] =
X
yf (y|x)
si y es discreta.
A la funci
on de media condicional E[y|x] se le denomina regresi
on de y sobre x.
Ejemplo 1.1.1 Regresi
on en una distribuci
on exponencial.
Considera la distribuci
on condicional.
f (y|x) =
1
ey/(+x) ,
+ x
y > 0, 0 6 x 6 1.
N
otese que la densidad condicional de y es una funcion de x. La media condicional se puede
obtener integrando por partes (o de manera mas simple, utilizando los resultados de la funcion
gamma) o fij
andose en que esta es una distribucion exponencial con = 1/( + x). La media de
una distribuci
on exponencial con par
ametro es 1/. Por tanto,
E[y|x] = + x.
A5-1
= E[y|x] + (y E[y|x])
= E[y|x] + .
1.2.
Varianza condicional
si
es continua
o
V ar[y|x] =
(y E[y|x])2 f (y|x),
si
es discreta
El c
alculo puede simplificarse utilizando
V ar[y|x] = E[y 2 |x] (E[y|x])2 .
Ejemplo 1.2.1 Varianza condicional en un modelo Poisson La distribucion de Poisson ilustra
una trampa que a veces se da en la especificacion de un modelo econometrico. En una distribucion
Poisson, la media es igual a la varianza. No hemos descartado la posibilidad de que + R puede ser
negativo para algunos valores de y . No solo es este un parametro en cualquier caso invalido para
la distribuci
on Poisson, sino que adem
as, permite una varianza negativa. Esto es un error com
un de
especificaci
on. A la varianza condicional se la denomina funci
on ced
astica y, como la regresion,
es generalmente una funci
on de x. Sin embargo, a diferencia de la funcion de la media condicional,
lo habitual es que la varianza condicional no vare con x. Examinaremos un caso particular. Esto
no implica, sin embargo, que V ar[y|x] sea igual a V ar[y], que, en general, no sera el caso. Implica,
solamente, que la varianza condicional es una constante. El caso en que la varianza condicional no
vara con x se denomina homocedasticidad (varianza igual. o constante).
A5-2
1.3.
y
E[y] =
0
1
ey/(+x) dxdy
+ x
E[y]
Ex [E[y|x]]
E[ + x]
+ E[x].
Cov[x, y]
= Cov[x, E[y|x]]
Z
=
(x E[x])E[y|x]fx (x)dx.
x
Cov[x, y] =
0
Cov[x, y]
= Cov[x, E[y|x]]
= Cov[x, + x]
= V ar[x] = [1/12].
Los ejemplos anteriores proporcionan un resultado adicional para el caso especial en que la
funci
on de la media condicional es lineal en x.
Teorema 1.3.2 Los momentos en una regresi
on lineal. Si E[y|x] = + x entonces
= E[y] E[x]
y
=
Cov[x, y]
V ar[x]
A5-3
V arx [E[y|x]]
= V ar[ + x] = 2 V ar[x]
2
,
=
12
Ex [V ar[y|x]]
= E[( + x)2 ]
= 2 + 2 E[x2 ] + 2E[x]
= 2 + 2 (1/3) + 2(1/2).
5 2
.
12
e = 1,65 y
V ar[R] = 4,65
1 + 2R
E[P ]
1 + 2E[R] = 4,30
4V ar[R] + 18,6
V ar[P |R]
1 + 2R
ER [var[P |R]]
4,30
V ar[P ]
N
otese que V ar[P ] es apreciablemente mayor que E[Var[PR]].
A5-4
1.4.
El an
alisis de la varianza
El resultado de descomposici
on de la varianza implica que en una distribucion bivariante, la
variaci
on de y surge por dos motivos:
1. Variaci
on porque E[y|x] vara con x:
varianza de regresi
on=V arx [E[y|x]].
2. Variaci
on proque, en cada distribucion condicional, y vara alrededor de la media condicional:
varianza residual=Ex [V ar[y|x]].
Por tanto,
Var[y]=varianza de regresion + varianza residual
Cuando analicemos una regresi
on, habitualmente estaremos interesados en cual de las dos partes
de la varianza total, V ar[y], es la mayor. Por ejemplo, en la relacion patentes-(I+D), cual explica
m
as la varianza del n
umero de patentes recibidas? variaciones en la cantidad de I+D (varianza
de regresi
on) o la variaci
on aleatoria en las patentes recibidas dentro de la distribucion Poisson
(varianza residual)? Una medida natural es el cociente
de regresi
on
.
coeficiente de determinaci
on= varianza
varianza total
Ejemplo 1.4.1 An
alsis de la varianza en un modelo Poisson Para la descomposicion del
ejemplo 1.3.4
coeficiente de determinacion= 18,6
22,9 = 0,812.
Si E[y|x] = + x, entonces el coeficiente de determinacion COD=2 , donde 2 es la correlacion
al cuadrada entre x e y. Podemos concluir que el coeficiente de correlacion (al cuadrado), es una
mediada de la proporci
on de la varianza de y que se explica por la variacion de la media de y, dado
x. En este sentido la correlaci
on puede ser interpretada como una medida de asociaci
on lineal
entre dos variables.
2.
La distribuci
on normal bivariante
Una distribuci
on bivariante que cumple muchas de las caractersticas descritas anteriormente es
la normal bivariante. Esta distribuci
on es la conjunta de dos variables normalmente distribuidas. La
funci
on de densidad es
f (x, y)
x
y
2
2
2
1
p
e1/2[(x +y 2x y )/(1 )]
2
2x y 1
x x
x
y y
y
Los par
ametros x , x , y y y son las medias y desviaciones tpicas de las distribuciones marginales
de x e y, respectivamente. El par
ametro adicional es la correlacion entre x e y. La covarianza es
xy = x y .
La densidad est
a definida s
olo si no es 1 o -1. Esto, a su vez, requiere que las dos variables no esten
relacionadas linealmente. Si x e y tienen una distribucion normal bivariante, que representamos por
(x, y) N2 [x , y , x , y , ],
A5-5
f (y|x)
N [ + x, y2 (1 2 )]
y x
xy
x2
2.1.
2.2.
Modelo cl
asico de regresi
on lineal
3.
El m
etodo de los mnimos cuadrados
En la pr
actica real, hay muchos problemas donde un conjunto de datos asociados en parejas
dan una indicaci
on de que la regresi
on es lineal, donde no conocemos la distribucion conjunta de
las variables aleatorias en consideracion pero, sin embargo, queremos estimar los coeficientes de
regresi
on y . Los problemas de esta clase usualmente se manejan por el m
etodo de los mnimos
cuadrados, un metodo de ajuste de curvas que a principios del siglo XIX sugirio el matematico
frances Adrien Legendre.
Para ilustrar esta tecnica, consideremos los datos siguientes sobre el n
umero de horas que 10
personas estudiaron para una prueba de frances y sus puntuaciones en la prueba:
Horas estudiadas
Puntuaci
on en la prueba
31
58
10
65
14
73
37
44
12
60
22
91
21
17
84
Al hacer la gr
afica de estos datos como se muestra en la figura, nos da la impresion de que una
lnea recta proporciona un ajuste razonable bueno. Aunque los puntos no caen todos en la lnea recta,
el patr
on general sugiere que la puntuacion promedio de la prueba para un n
umero dado de horas
de estudio bien puede estar relacionado con el n
umero de horas estudiadas mediante la ecuacion de
la forma uY |x = + x.
Una vez que hemos decidido en un problema dado que la regresion es aproximadamente lineal,
nos enfrentamos al problema de estimar los coeficiente y de los datos muestrales. En otras
palabras, nos enfrentamos al problema de obtener estimaciones de
y tales que la lnea de
regresi
on estimada y =
+ x provea, en alg
un sentido, el mejor ajuste posible a los datos. Al
denotar la desviaci
on vertical de un punto de la lnea por ei , como se indica en la figura, el criterio
de los mnimos cuadrados sobre el cual basaremos esta bondad de ajuste requiere que minimicemos
la suma de los cuadrados de estas desviaciones. As, se nos da un conjunto de datos asociados en
A5-7
parejas {(xi , yi ); i = 1, 2, ..., n}, las estimaciones de mnimos cuadrados de los coeficientes de
regresi
on son los valores
y para los cuales la cantidad
q=
n
X
n
X
i )]2
[yi (
+ x
e2i =
i=1
i=1
i=1
y
2
X
q
i )] = 0
=
(2)xi [yi (
+ x
i=1
=
n +
yi
i=1
n
X
2
X
xi
i=1
xi yi
i=1
2
X
xi +
i=1
2
X
x2i
i=1
Al resolver este sistema de ecuaciones mediante el uso de determinantes o del metodo de eliminaci
on, encontramos que la estimaci
on de mnimos cuadrados de es es
n
=
X
n
xi yi
X
n
i=1
xi
X
n
yi
i=1
X
n
x2i
i=1
i=1
X
n
2
xi
i=1
i=1
i=1
= y x
Para simplificar la f
ormula para as como algunas de las formulas que encontraremos, introducimos
la notaci
on siguiente:
n 2
n
n
X
X
1 X
2
2
Sxx =
(xi x
) =
xi
xi
n i=1
i=1
i=1
Syy =
n
X
i=1
(yi y)2 =
n 2
n
X
1 X
yi2
yi
n i=1
i=1
y
Sxy =
n X
n
n
n
X
X
1 X
(xi x
)(yi y) =
xi yi
xi
yi
n i=1
i=1
i=1
i=1
As podemos escribir
A5-8
Teorema 3.0.1 Dados los datos muestrales {(xi , yi ); i = 1, 2 , n}, los coeficientes de la lnea de
son
mnimos cuadrados y =
+ x
Sxy
=
Sxx
y
= y x
1. P
Al omitir losPlmites de laPsuma en aras
P de la simplicidad, de los datos obtenemos n = 10,
x = 100,
x2 = 1376
y = 564 y
xy = 6945. As
Sxx = 1376
1
(100)2 = 376
10
y
Sxy = 6945
1
(100)(564) = 1305
10
1305
564
100
As, =
= 3,471 y
=
3,471
= 21,69, y la ecuacion de la lnea de mnimos
376
10
10
cuadrados es
y = 21,69 + 3,471x
2. Al sustituir x = 14 en la ecuaci
on obtenida en el inciso 1, obtenemos
y = 21,69 + 3,471(14) = 70,284
o y = 70, redondeado a la unidad mas cercana.
3.1.
Regresi
on lineal m
ultiple
A5-9
En este caso y denota el consumo de carne de res y ternera inspeccionadas federalmente en millones
de libras, x1 denota un precio compuesto de venta al menudeo de carne de res en centavos por libra,
x2 denota un precio compuesto de venta al menudeo de carne de puerco en centavos por libra, y
x3 denota el ingreso medido de acuerdo a ciertos ndices de nomina. Como en la anterior seccion
donde s
olo haba una variable independiente x, suelen estimarse los coeficientes de regresion m
ultiple
mediante el metodo de los mnimos cuadrados. Para n puntos de datos
{(xi1 , xi2 , ..., xik , yi ); i = 1, 2, ...n}
las estimaciones de mnimos cuadrados de las son los valores 0 , 1 , 2 , .., k para los cuales la
cantidad
q=
n
X
i=1
n
X
(2)[yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0
i=1
n
X
=
(2)xi1 [yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0
i=1
n
X
=
(2)xi2 [yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0
q
2
i=1
...
n
X
q
=
(2)xik [yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0
k
i=1
x1 y
x2 y
X
X
X
0 n + 1
x1 + 2
x2 + + k
xk
X
X
X
X
= 0
x1 + 1
x21 + 2
x1 x2 + + k
x1 xk
X
X
X
X
= 0
x2 + +1
x2 x1 + 2
x22 + + k
x2 xk
=
...
X
xk y
= 0
xk + +1
xk x1 + 2
n
X
i=1
xk x2 + + k
xi1 como
x1 ,
n
X
x2k
x1 x2 ,
i=1
y as sucesivamente.
Ejemplo 3.1.1 Los datos siguientes muestran el n
umero de recamaras, el n
umero de ba
nos y los
precios a los que se vendi
o recientemente una muestra aleatoria de casas unifamiliares en cierto
desarrollo habitacional grande:
A5-10
N
umero de
rec
amaras
x1
3
2
4
2
3
2
5
4
N
umero de
ba
nos
x2
2
1
3
1
2
2
3
2
Precio
(d
olares)
y
78800
74300
83800
74200
79700
74900
88400
82900
Use el metodo de mnimos cuadrados para encontrar una ecuacion lineal que nos permita predecir
el precio promedio de venta de una casa unifamiliar en el desarrollo habitacional dado en terminos
del n
umero de rec
amaras y el n
umero de ba
nos.
Soluci
on
P
Las
sustituir
en las tres
normales son n = 8,P x1 =
P cantidades
P que necesitamos
P para
P
Pecuaciones
P
2
2
25,
x2 = 16,
y = 637000,
x1 = 87,
x1 x2 = 55,
x2 = 36,
x1 y = 2031100 y
x2 y =
1297700, y obtenemos
80 + 251 + 162
2031100 = 250 + 871 + 552
1297700 = 160 + 551 + 362
637000
Podramos resolver estas ecuaciones por el metodos de eliminacion o por el metodo de los determinantes, pero en vista de los c
alculos m
as bien tediosos, se suele dejar este trabajo a las computadoras.
As, refir
amonos a los resultados con valores de 0 = 65191,7, 1 = 4133,3 y 2 = 758,3. Despues de
redondear, la ecuaci
on de mnimos cuadrados se vuelve
y = 65192 + 4133x1 + 758x2
y esto nos dice que (en el desarrollo habitacional dado y en el momento en que se hizo el estudio)
cada rec
amara extra a
nade en promedio $4133 y cada ba
no $758 al precio de venta de una casa.
Ejemplo 3.1.2 Con base en el resultado obtenido en el ejemplo anterior, prediga el precio de venta
de una casa con tres rec
amaras con dos ba
nos en el desarrollo habitacional grande.
Soluci
on Al sustituir x1 = 3 y x2 = 2 en la ecuacion obtenido arriba, obtenemos
y = 65192 + 4133(3) + 758(2) = $79107
A5-11
3.2.
Regresi
on lineal m
ultiple (notaci
on matricial)
1
1
X =
y1
y2
.
Y =
.
.
yn
x11
x21
xn1
x1k
x2k
.
.
xn2 xnk
0
1
y B=
.
.
k
x12
x22
P
P
n
P
P x12
P x2
x
x
x
x
1
1
2
P
P 1
P 2
x
x
x
x
2
2
1
0
2
XX=
.
P
P
P
xk
xk x1
xk x2
P
P
0 n
+1 x1
+2 x2
P
P
P
0 x1 +1 x21
+2 x1 x2
P
P
x + x x + P x2
0
2
1
2 1
2
2
X0 XB =
P
P
P
0 xk +1 xk x1 +2 xk x2
P
Py
P x1 y
0
x2 y
XY=
P
xk y
P
P xk
P x1 xk
x2 xk
x2k
+
+
+
.
.
+
P
+k xk
P
+k x1 xk
P
+k x2 xk
+k
x2k
Al identificar los elementos de X0 XB como las expresiones en el lado derecho de las ecuaciones
normales y las de X0 Y como las expresiones en el lado izquierdo, podemos escribir
X0 XB = X0 Y
A5-12
8 25 16
X0 X = 25 87 55
16 55 36
Entonces, la inversa de esta matriz se puede obtener mediante cualquiera de diversas tecnicas: al
usar la que est
a basada en los cofactores, encontramos que
107 20 17
1
20 32 40
(X0 X)1 =
84
17 40 71
P
P
0
0
donde 84
y = 637000,
x1 y =
P es el valor de |X X|, el determinante 0de X X. Al sustituir
2031100 y
x2 y = 1297700 en la expresion para X Y, obtenemos entonces
637000
1
2031100
X0 Y =
84
1297700
y finalmente,
107 20 17
637000
1
20 32
40 2031100
(X0 X)1 X0 Y =
84
17 40 71
1297700
5476100
1
347200
=
84
63799
65191,7
= 4133,3
758,3
donde las est
an redondeadas a un decimal. Advierta que los resultados obtenidos aqu son
identicos a los mostrados en el ejercicio anterior.
Si se supone que para i = 1, 2, ..., n las Yi son variables aleatorias independientes que tienen
distribuciones normales con las medias 0 + 1 xi1 + 2 xi2 + ... + k xik y la desviacion estandar
com
un . Con base en n puntos de datos
(xi1 , xi2 , ..., xik , yi )
podemos entonces hacer toda clase de inferencias sobre los parametros de nuestro modelo, las y
, y juzgar los meritos de las estimaciones y las predicciones basadas en la ecuacion estimada de
A5-13
regresi
on simple. Las estimaciones de maxima verosimilitud de las son iguales a las estimaciones
correspondientes de mnimos cuadrados, as que estan dadas por los elementos de la matriz columna
(k + 1) 1.
B = (X0 X)1 X0 Y
La estimaci
on de m
axima verosimilitud de esta dada por
v
u
n
u1 X
=t
[yi (0 + 1 xi1 + 2 xi2 + ... + k xik )]2
n i=1
donde son las estimaciones de m
axima verosimilitud de las , las mismas que tambien se pueden
escribir como
r
Y0 Y B0 X0 Y
=
n
en notaci
on matricial.
Ejemplo 3.2.2 Use los resultados del ejemplo anterior para determinar
el valor de
Pn
Soluci
on Calculemos primero Y0 Y, lo cual es simplemente i=1 yi2 , as obtenemos
Y0 Y =
=
BX Y
1
5476100
84
50906394166
347200
63700
637000
2031100
1297700
y se sigue que
r
=
=
50907080000 50906394166
8
292,8
Por lo que se concluye que los resultados de las i son combinaciones lineales de las n variables
aleatorias independientes Yi de manera que las i tienen distribuciones normales. Ademas, son
estimadores insesgados, esto es,
E(i ) = i
para
i = 0, 1, ..., k
para i = 0, 1, ..., k
En este caso cij es el elemento en el iesimo renglon y la jesima columna de la matriz (X0 X)1 ,
con i y j que toman los valores de 0,1,...,k.
2
n
n
2
Asi mismo, la distribuci
on muestral de 2 , la variable aleatoria que corresponde a 2 , es la
2
n
distribuci
on ji.cuadrada con n k 1 grados de libertad y que 2 y i son independientes para
A5-14
nk1
son los valores de variables aleatorias que tienen distribucion t con n k 1 grados de libertad.
t=
Con base en este teorema, probemos ahora una hipotesis acerca de uno de los coeficientes de
regresi
on m
ultiple.
Ejemplo 3.2.3 Con respecto al anterior ejemplo, pruebe la hipotesis nula 1 = 3500 contra la
hip
otesis alternativa 1 > 3500 en el nivel 0,05 de significancia.
Soluci
on
1. H0 : 1 = 3500
H1 : 1 > 3500
2. Rechace la hip
otesis nula si t > 2, 015, donde t se determina de acuerdo al anterior teorema y
2, 015 es e valor de t0,05,5 de acuerdo a la tabla de la distribucion T-student.
3. Al sustituir n = 8, 1 = 4133,3 y c11 = 32/84 y
= 292,8 de los ejemplos anteriores, obtenemos
t=
4133,3 3500
4133, 3 3500
r
= 2,77
=
228,6
8|32/84|
292,8
5
4. Puesto que t = 2,77 excede a 2,015, se debe rechazar la hipotesis nula; concluimos que en
promedio cada rec
amara adicional a
nade mas de $3500 al precio de venta de una cada tal.
A5-15