You are on page 1of 15

Metodos Estadsticos III

Villa Cox/Sabando

Apuntes de Clase # 5
Fecha: II Termino-2012

1.

Distribuciones condicionadas (Caso Bivariante)

Condicionar y utilizar distribuciones condicionales juega un papel fundamental en la modelizacion


econometrica. Vamos a considerar algunos resultados generales para una distribucion bivariante.
(Todos estos resultados se pueden extender directamente el caso multivariante).
En una distribuci
on bivariante, hay una distribuci
on condicional sobre y para cada valor de x.
Las densidades condicionales son
f (y|x) =

f (x, y)
fx (x)

f (x|y) =

f (x, y)
fy (y)

Se deduce que:
Si x

y son independientes,

f (y|x) = fy (y)

y f (x|y) = fx (x)

La interpretaci
on es que si las variables son independientes, las probabilidades de los sucesos relacionados con una variable no est
an relacionadas con la otra. La definicion de densidades condicionales
tiene como implicaci
on el siguiente resultado importante.

f (x, y)

= f (y|x)fx (x)
= f (x|y)fy (y).

1.1.

Regresi
on. La media condicional

Una media condicional es la media de la distribucion condicional y se define por


Z

yf (y|x)dy si y es continua,

y
E[y|x] =
X

yf (y|x)
si y es discreta.

A la funci
on de media condicional E[y|x] se le denomina regresi
on de y sobre x.
Ejemplo 1.1.1 Regresi
on en una distribuci
on exponencial.
Considera la distribuci
on condicional.
f (y|x) =

1
ey/(+x) ,
+ x

y > 0, 0 6 x 6 1.

N
otese que la densidad condicional de y es una funcion de x. La media condicional se puede
obtener integrando por partes (o de manera mas simple, utilizando los resultados de la funcion
gamma) o fij
andose en que esta es una distribucion exponencial con = 1/( + x). La media de
una distribuci
on exponencial con par
ametro es 1/. Por tanto,
E[y|x] = + x.

A5-1

Una variable aleatoria siempre se puede escribir como

= E[y|x] + (y E[y|x])
= E[y|x] + .

Ejemplo 1.1.2 Regresi


on Poisson En su estudio de 1984, Hausman sugieren que la distribucion
Poisson es un modelo razonable para la distribucion del n
umero de patentes concedidas a las empresas
en un determinado a
no (P):
P e
, P = 0, 1, 2, ...
P!
Sin embargo, se sabe que cuanto mas se invierte en investigacion y desarrollo (R), mayor es, en
promedio, el n
umero de patentes recibidas. Esta interaccion debera afectar a la distribucion de P .
C
omo se distribuye R entre las empresas es una cuestion colateral, que puede ser o no de interes.
Pero en lo que estamos interesados es en como interactuan R y el n
umero medio de patentes. Como
el valor medio de las patentes recibidas es , supongamos que la distribucion previo P es condicional
en R y especificamos que
= + R = E[P |R].
f (P ) =

Esperaramos que fuese positiva. Por tanto,


( + R)P e(+R)
,
P!
que capta el efecto que busc
abamos, Observar un gran n
umero de patentes puede reflejar un
valor alto del proceso Possion, o bien puede que se derive de un valor inusualmente alto de R.
f (P |R) =

1.2.

Varianza condicional

La varianza condicional es la varianza de la distribucion condicional:


V ar[y|x]

= E[(y E[y|x])2 |x]


Z
=
(y E[y|x])2 f (y|x)dy,

si

es continua

o
V ar[y|x] =

(y E[y|x])2 f (y|x),

si

es discreta

El c
alculo puede simplificarse utilizando
V ar[y|x] = E[y 2 |x] (E[y|x])2 .
Ejemplo 1.2.1 Varianza condicional en un modelo Poisson La distribucion de Poisson ilustra
una trampa que a veces se da en la especificacion de un modelo econometrico. En una distribucion
Poisson, la media es igual a la varianza. No hemos descartado la posibilidad de que + R puede ser
negativo para algunos valores de y . No solo es este un parametro en cualquier caso invalido para
la distribuci
on Poisson, sino que adem
as, permite una varianza negativa. Esto es un error com
un de
especificaci
on. A la varianza condicional se la denomina funci
on ced
astica y, como la regresion,
es generalmente una funci
on de x. Sin embargo, a diferencia de la funcion de la media condicional,
lo habitual es que la varianza condicional no vare con x. Examinaremos un caso particular. Esto
no implica, sin embargo, que V ar[y|x] sea igual a V ar[y], que, en general, no sera el caso. Implica,
solamente, que la varianza condicional es una constante. El caso en que la varianza condicional no
vara con x se denomina homocedasticidad (varianza igual. o constante).

A5-2

1.3.

Relaciones entre momentos condicionales y marginales

En los siguientes teoremas se presentan algunos resultados u


tiles sobre los momentos de una
distribuci
on condicional:
Teorema 1.3.1 Ley de las esperanzas iteradas. E[y] = Ex [E[y|x]].
La notaci
on Ex [] indica la esperanza sobre valores de x.
Ejemplo 1.3.1 Distribuci
on mixta uniforme-exponencial.
Supongamos que x se distribuye uniformemente entre 0 y 1. Entonces la distribucion marginal de x
es f (x) = 1, y la distribuci
on conjunta es
f (x, y) = f (y|x)f (x)
As,


y

E[y] =
0


1
ey/(+x) dxdy
+ x

Pero E[y|x] = + x, de modo que

E[y]

Ex [E[y|x]]

E[ + x]

+ E[x].

Como x sigue una distribuci


on uniforme enrtre 0 y 1, E[x] = 1/2. Por tanto,
E[y] = + (1/2).
En cualquier distribuci
on bivariante

Cov[x, y]

= Cov[x, E[y|x]]
Z
=
(x E[x])E[y|x]fx (x)dx.
x

Ejemplo 1.3.2 Covarianza y distribuci


on mixta En continuacion del ejemplo anterior

Cov[x, y] =
0

(x 1/2)[y ( + /2)] y/(+x)


e
dxdy,
+ x

que, en principio, puede calcularse directamente. Sin embargo,

Cov[x, y]

= Cov[x, E[y|x]]
= Cov[x, + x]
= V ar[x] = [1/12].

Los ejemplos anteriores proporcionan un resultado adicional para el caso especial en que la
funci
on de la media condicional es lineal en x.
Teorema 1.3.2 Los momentos en una regresi
on lineal. Si E[y|x] = + x entonces
= E[y] E[x]
y
=

Cov[x, y]
V ar[x]

El siguiente teorema tambien aparece de diversas formas en el analisis de regresion

A5-3

Teorema 1.3.3 Descomposici


on de la varianza En una distribucion conjunta,
V ar[y] = V arx [E[y|x]] + Ex [V ar[y|x]].
La notaci
on V arx [] indica la varianza sobre la distribucion de x. Esto indica que en una distribuci
on bivariante, la varianza de y se descompone en la varianza de la funcion de media condicional
m
as la varianza esperada alrededor de la media condicional.
Ejemplo 1.3.3 Descomposici
on de la varianza
Como en el caso anterior, la integracion directa de la distribucion conjunta es difcil. Pero

V arx [E[y|x]]

= V ar[ + x] = 2 V ar[x]
2
,
=
12

y como la varianza de la variable exponencial es 1/2 ,

Ex [V ar[y|x]]

= E[( + x)2 ]
= 2 + 2 E[x2 ] + 2E[x]
= 2 + 2 (1/3) + 2(1/2).

La varianza marginal es la suma de las dos partes:


V ar[y] = ( + ) +

5 2
.
12

Teorema 1.3.4 Varianza residual de una regresi


on. En cualquier distribucion bivariante,
Ex [V ar[y|x]] = V ar[y] V arx [E[y|x]].
En promedio, condicional reduce la varianza de la variable sujeta al condicionamiento. Por ejemplo, si y es homoced
astica, se cumple siempre que la varianza de las(s) distribucies(es) condicional(es)
es mejor o igual a la varianza marginal de y.
Teorema 1.3.5 Regresi
on lineal y homocedasticidad En una distribucion bivariante, si E[y|x] =
+ x y si V ar[y|x] es una constante, entonces
V ar[y|x] = V ar[y](1 Corr2 [y, x]) = 2 (1 2xy )
Ejemplo 1.3.4 Varianza condicional en una regresi
on Poisson En la relacion patentesinvestigaci
on (I+D) del ejercicio 1.1.2, supongamos que R es una fraccion constante del tama
no
de la empresa, y que esta variable sigue una distribucion lognormal. As, R tambien seguira una
distribuci
on lognormal. Supongamos que = 0 y = 1. Entonces
E[R] =

e = 1,65 y

V ar[R] = 4,65

Supongamos tambien que = 1 y = 2. Entonces


E[P |R]

1 + 2R

E[P ]

1 + 2E[R] = 4,30

V arR [E[P |R]]

4V ar[R] + 18,6

V ar[P |R]

1 + 2R

ER [var[P |R]]

4,30

V ar[P ]

18,6 + 4,30 = 22,9

N
otese que V ar[P ] es apreciablemente mayor que E[Var[PR]].
A5-4

1.4.

El an
alisis de la varianza

El resultado de descomposici
on de la varianza implica que en una distribucion bivariante, la
variaci
on de y surge por dos motivos:
1. Variaci
on porque E[y|x] vara con x:
varianza de regresi
on=V arx [E[y|x]].
2. Variaci
on proque, en cada distribucion condicional, y vara alrededor de la media condicional:
varianza residual=Ex [V ar[y|x]].
Por tanto,
Var[y]=varianza de regresion + varianza residual
Cuando analicemos una regresi
on, habitualmente estaremos interesados en cual de las dos partes
de la varianza total, V ar[y], es la mayor. Por ejemplo, en la relacion patentes-(I+D), cual explica
m
as la varianza del n
umero de patentes recibidas? variaciones en la cantidad de I+D (varianza
de regresi
on) o la variaci
on aleatoria en las patentes recibidas dentro de la distribucion Poisson
(varianza residual)? Una medida natural es el cociente
de regresi
on
.
coeficiente de determinaci
on= varianza
varianza total

Ejemplo 1.4.1 An
alsis de la varianza en un modelo Poisson Para la descomposicion del
ejemplo 1.3.4
coeficiente de determinacion= 18,6
22,9 = 0,812.
Si E[y|x] = + x, entonces el coeficiente de determinacion COD=2 , donde 2 es la correlacion
al cuadrada entre x e y. Podemos concluir que el coeficiente de correlacion (al cuadrado), es una
mediada de la proporci
on de la varianza de y que se explica por la variacion de la media de y, dado
x. En este sentido la correlaci
on puede ser interpretada como una medida de asociaci
on lineal
entre dos variables.

2.

La distribuci
on normal bivariante

Una distribuci
on bivariante que cumple muchas de las caractersticas descritas anteriormente es
la normal bivariante. Esta distribuci
on es la conjunta de dos variables normalmente distribuidas. La
funci
on de densidad es

f (x, y)

x

y

2
2
2
1
p
e1/2[(x +y 2x y )/(1 )]
2
2x y 1
x x
x
y y
y

Los par
ametros x , x , y y y son las medias y desviaciones tpicas de las distribuciones marginales
de x e y, respectivamente. El par
ametro adicional es la correlacion entre x e y. La covarianza es
xy = x y .
La densidad est
a definida s
olo si no es 1 o -1. Esto, a su vez, requiere que las dos variables no esten
relacionadas linealmente. Si x e y tienen una distribucion normal bivariante, que representamos por
(x, y) N2 [x , y , x , y , ],
A5-5

1. Las distribuciones marginales son normales


fx (x) = N [x , x2 ],
fy (y) = N [y , y2 ].
2. Las distribuciones condicionales son normales:

f (y|x)

N [ + x, y2 (1 2 )]

y x
xy
x2

y lo mismo para f (x|y).


3. x e y son independientes si y s
olo si = 0. La densidad se descompone en el producto de las
dos distribuciones marginales normales si = 0.
Dos aspectos a tener en cuenta sobre las distribuciones condicionales, ademas de su normalidad, son sus funciones de regresi
on lineales y sus varianzas condicionales constantes. La varianza
condicional es menor que la varianza marginal.

2.1.

Distribuciones marginales y condicionales normales

Sea x1 cualquier subconjunto de las variables, inclusive el caso de una u


nica variable, y sea x2
las restantes variables. Particionemos y de la misma forma, de modo que




1
11 12
=
y =
2
21 22
Entonces, las distribuciones marginales son tambien normales, En particular, se cumple el siguiente
teorema.
Teorema 2.1.1 Distribuciones marginales y condicionales normales. Si [x1 , x2 ] siguen una
distribuci
on conjunta normal multivariante, entonces sus distribuciones marginales son
1 , 11 )
x1 N (
y
2 , 22 ).
x2 N (
La distribuci
on condicional de x1 dado x2 es normal, tambien:
1,2 , 11,2 )
x1 |x2 N (
donde
1,2 = 1 + 12 1
12 (x2 2 )
11,2 = 11 12 1
22 21 .

2.2.

Modelo cl
asico de regresi
on lineal

Un importante caso especial es que en la x1 es una sola variable y x2 es K variable, donde la


distribuci
on condicional en versi
on multivariada es = 1
xx xy donde xy es el vector de covarianzas
de y con x2 . Recordemos que cualquier variable aleatoria puede ser escrita como su media mas la
desviaci
on de su media. Si aplicamos esto a la normal multivariada podemos obtener,
y = E[y|x] + (y E[y|x]) = + 0 x +
donde esta dada en la parte de arriba, = y 0 x , tiene distribucion normal. Tenemos
as, en esta distribuci
on multivariante, el clasico modelo de regresion lineal.
A5-6

3.

El m
etodo de los mnimos cuadrados

En la pr
actica real, hay muchos problemas donde un conjunto de datos asociados en parejas
dan una indicaci
on de que la regresi
on es lineal, donde no conocemos la distribucion conjunta de
las variables aleatorias en consideracion pero, sin embargo, queremos estimar los coeficientes de
regresi
on y . Los problemas de esta clase usualmente se manejan por el m
etodo de los mnimos
cuadrados, un metodo de ajuste de curvas que a principios del siglo XIX sugirio el matematico
frances Adrien Legendre.
Para ilustrar esta tecnica, consideremos los datos siguientes sobre el n
umero de horas que 10
personas estudiaron para una prueba de frances y sus puntuaciones en la prueba:
Horas estudiadas

Puntuaci
on en la prueba

31

58

10

65

14

73

37

44

12

60

22

91

21

17

84

Al hacer la gr
afica de estos datos como se muestra en la figura, nos da la impresion de que una
lnea recta proporciona un ajuste razonable bueno. Aunque los puntos no caen todos en la lnea recta,
el patr
on general sugiere que la puntuacion promedio de la prueba para un n
umero dado de horas
de estudio bien puede estar relacionado con el n
umero de horas estudiadas mediante la ecuacion de
la forma uY |x = + x.

Una vez que hemos decidido en un problema dado que la regresion es aproximadamente lineal,
nos enfrentamos al problema de estimar los coeficiente y de los datos muestrales. En otras
palabras, nos enfrentamos al problema de obtener estimaciones de
y tales que la lnea de

regresi
on estimada y =
+ x provea, en alg
un sentido, el mejor ajuste posible a los datos. Al
denotar la desviaci
on vertical de un punto de la lnea por ei , como se indica en la figura, el criterio
de los mnimos cuadrados sobre el cual basaremos esta bondad de ajuste requiere que minimicemos
la suma de los cuadrados de estas desviaciones. As, se nos da un conjunto de datos asociados en
A5-7

parejas {(xi , yi ); i = 1, 2, ..., n}, las estimaciones de mnimos cuadrados de los coeficientes de
regresi
on son los valores
y para los cuales la cantidad
q=

n
X

n
X
i )]2
[yi (
+ x

e2i =

i=1

i=1

es un mnimo. Al diferenciar parcialmente con respecto


y y al igualar a cero estas derivadas
parciales, obtenemos:
2
X
q
i )] = 0
=
(2)[yi (
+ x

i=1
y
2

X
q
i )] = 0
=
(2)xi [yi (
+ x

i=1

lo cual produce el sistema de ecuaciones normales.


n
X

=
n +

yi

i=1
n
X

2
X

xi

i=1

xi yi

i=1

2
X

xi +

i=1

2
X

x2i

i=1

Al resolver este sistema de ecuaciones mediante el uso de determinantes o del metodo de eliminaci
on, encontramos que la estimaci
on de mnimos cuadrados de es es
n
=

X
n


xi yi

X
n

i=1

xi

 X

n
yi

i=1

X
n

x2i

i=1

i=1

X
n

2
xi

i=1

Entonces podemos escribir la estimaci


on de mnimos cuadrados de como
n
n
X
X
xi
yi

i=1

i=1

al resolver la primera de las dos ecuaciones normales para


. Esta formula para
tambien se puede
escribir como

= y x

Para simplificar la f
ormula para as como algunas de las formulas que encontraremos, introducimos
la notaci
on siguiente:
 n 2
n
n
X
X
1 X
2
2
Sxx =
(xi x
) =
xi
xi
n i=1
i=1
i=1
Syy =

n
X
i=1

(yi y)2 =

 n 2
n
X
1 X
yi2
yi
n i=1
i=1

y
Sxy =

 n X

n
n
n
X
X
1 X
(xi x
)(yi y) =
xi yi
xi
yi
n i=1
i=1
i=1
i=1

As podemos escribir

A5-8

Teorema 3.0.1 Dados los datos muestrales {(xi , yi ); i = 1, 2 , n}, los coeficientes de la lnea de
son
mnimos cuadrados y =
+ x
Sxy
=
Sxx
y

= y x

Ejemplo 3.0.1 Con respecto a los datos de la tabla anterior,


1. Encuentre la ecuaci
on de la lnea de mnimos cuadrados que aproxime la regresion de las
puntuaciones de la prueba sobre el n
umero de horas estudiadas;
2. Prediga la puntuaci
on promedio de la prueba de una persona que estudio 14 horas para la
prueba
Soluci
on

1. P
Al omitir losPlmites de laPsuma en aras
P de la simplicidad, de los datos obtenemos n = 10,
x = 100,
x2 = 1376
y = 564 y
xy = 6945. As
Sxx = 1376

1
(100)2 = 376
10

y
Sxy = 6945

1
(100)(564) = 1305
10

1305
564
100
As, =
= 3,471 y
=
3,471
= 21,69, y la ecuacion de la lnea de mnimos
376
10
10
cuadrados es
y = 21,69 + 3,471x
2. Al sustituir x = 14 en la ecuaci
on obtenida en el inciso 1, obtenemos
y = 21,69 + 3,471(14) = 70,284
o y = 70, redondeado a la unidad mas cercana.

3.1.

Regresi
on lineal m
ultiple

Se pueden usar muchas f


ormulas diferentes para expresar las relaciones entre mas de dos variables,
la m
as ampliamente usada con las ecuaciones lineales de la forma:
Y |x1 ,x2 ,xk = 0 + 1 x1 + 2 x2 + + k xk
Esto es parcialmente un asunto de conveniencia matematica y parcialmente causado por el hecho que
muchas relaciones son realmente de esta forma o se pueden aproximar estrechamente por ecuaciones
lineales.
En la ecuaci
on de arriba, Y es la variable aleatoria cuyos valores queremos predecir en terminos
de los valores de x1 , x2 , , xk y 0 , 1 , 2 , ..., k , los coeficientes de regresi
on m
ultiple, son
constantes numericas que se deben determinar a partir de los datos observados.
Para ilustrarlo, considere la ecuaci
on siguiente, que se obtuvo en un estudio de la demanda para
diferentes carnes.
y = 3,489 0,090x1 + 0,064x2 + 0,019x3

A5-9

En este caso y denota el consumo de carne de res y ternera inspeccionadas federalmente en millones
de libras, x1 denota un precio compuesto de venta al menudeo de carne de res en centavos por libra,
x2 denota un precio compuesto de venta al menudeo de carne de puerco en centavos por libra, y
x3 denota el ingreso medido de acuerdo a ciertos ndices de nomina. Como en la anterior seccion
donde s
olo haba una variable independiente x, suelen estimarse los coeficientes de regresion m
ultiple
mediante el metodo de los mnimos cuadrados. Para n puntos de datos
{(xi1 , xi2 , ..., xik , yi ); i = 1, 2, ...n}
las estimaciones de mnimos cuadrados de las son los valores 0 , 1 , 2 , .., k para los cuales la
cantidad
q=

n
X

[yi (0 + 1 xi1 + 2 xi2 + ... + k xik )]2

i=1

es un mnimo. En esta notaci


on, xi1 es el iesimo valor de la variable x1 , xi2 es el iesimo valor de la
y al igualar
variable x2 , y as respectivamente. As, diferenciamos parcialmente con respecto a las ,
estas derivadas parciales a cero, obtenemos
q
0
q
1

n
X
(2)[yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0
i=1

n
X
=
(2)xi1 [yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0
i=1
n
X
=
(2)xi2 [yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0

q
2
i=1
...
n
X
q
=
(2)xik [yi (0 + 1 xi1 + 2 xi2 + ... + k xik )] = 0
k
i=1

y finalmente las k + 1 ecuaciones normales:


X

x1 y

x2 y

X
X
X
0 n + 1
x1 + 2
x2 + + k
xk
X
X
X
X
= 0
x1 + 1
x21 + 2
x1 x2 + + k
x1 xk
X
X
X
X
= 0
x2 + +1
x2 x1 + 2
x22 + + k
x2 xk
=

...
X

xk y

= 0

xk + +1

xk x1 + 2

En este caso abreviamos nuestra notacion al escribir

n
X
i=1

xk x2 + + k

xi1 como

x1 ,

n
X

x2k

xi1 xi2 como

x1 x2 ,

i=1

y as sucesivamente.
Ejemplo 3.1.1 Los datos siguientes muestran el n
umero de recamaras, el n
umero de ba
nos y los
precios a los que se vendi
o recientemente una muestra aleatoria de casas unifamiliares en cierto
desarrollo habitacional grande:

A5-10

N
umero de
rec
amaras
x1
3
2
4
2
3
2
5
4

N
umero de
ba
nos
x2
2
1
3
1
2
2
3
2

Precio
(d
olares)
y
78800
74300
83800
74200
79700
74900
88400
82900

Use el metodo de mnimos cuadrados para encontrar una ecuacion lineal que nos permita predecir
el precio promedio de venta de una casa unifamiliar en el desarrollo habitacional dado en terminos
del n
umero de rec
amaras y el n
umero de ba
nos.
Soluci
on
P
Las
sustituir
en las tres
normales son n = 8,P x1 =
P cantidades
P que necesitamos
P para
P
Pecuaciones
P
2
2
25,
x2 = 16,
y = 637000,
x1 = 87,
x1 x2 = 55,
x2 = 36,
x1 y = 2031100 y
x2 y =
1297700, y obtenemos
80 + 251 + 162
2031100 = 250 + 871 + 552
1297700 = 160 + 551 + 362
637000

Podramos resolver estas ecuaciones por el metodos de eliminacion o por el metodo de los determinantes, pero en vista de los c
alculos m
as bien tediosos, se suele dejar este trabajo a las computadoras.
As, refir
amonos a los resultados con valores de 0 = 65191,7, 1 = 4133,3 y 2 = 758,3. Despues de
redondear, la ecuaci
on de mnimos cuadrados se vuelve
y = 65192 + 4133x1 + 758x2
y esto nos dice que (en el desarrollo habitacional dado y en el momento en que se hizo el estudio)
cada rec
amara extra a
nade en promedio $4133 y cada ba
no $758 al precio de venta de una casa.
Ejemplo 3.1.2 Con base en el resultado obtenido en el ejemplo anterior, prediga el precio de venta
de una casa con tres rec
amaras con dos ba
nos en el desarrollo habitacional grande.
Soluci
on Al sustituir x1 = 3 y x2 = 2 en la ecuacion obtenido arriba, obtenemos
y = 65192 + 4133(3) + 758(2) = $79107

A5-11

3.2.

Regresi
on lineal m
ultiple (notaci
on matricial)

El modelo que estamos usando en la regresion lineal m


ultiple se presta de manera u
nica a un
tratamiento unificado en notaci
on matricial. Esta notacion hace posible enunciar resultados generales
en forma compacta y utilizar muchos resultados de la teora matricial con gran ventaja. Para expresar
las ecuaciones normales en notaci
on matricial, definamos las siguientes matrices:

1
1

X =

y1
y2

.
Y =
.

.
yn

x11
x21

xn1

x1k
x2k
.
.
xn2 xnk

0
1

y B=

.
.
k
x12
x22

La primera X es una matriz de n (k + 1) que consiste esencialmente de los valores de las x,


donde se a
nade una columna 1 para dar cabida a los terminos constantes. Y es una matriz de n1 (o
vector columna) que consiste en los valores observados de Y , y B es una matriz (k + 1) 1 (o vector
columna) que consiste en las estimaciones de mnimos cuadrados de los coeficientes de regresion.
Al usas estas matrices, podemos ahora escribir la siguiente solucion simbolica de las ecuaciones
normales
Teorema 3.2.1 Las estimaciones de mnimos cuadrados para los coeficientes de regresion m
ultiple
est
an dadas por
B = (X0 X)1 X0 Y
donde X0 es la transpuesta de X y (X0 X)1 es la inversa de X0 X.
Demostraci
on
Primero determinamos X0 X, X0 XB y X0 Y, y obtenemos

P
P
n

P
P x12
P x2

x
x
x
x

1
1
2
P
P 1
P 2

x
x
x
x

2
2
1
0
2
XX=

.
P
P
P
xk
xk x1
xk x2
P
P

0 n
+1 x1
+2 x2
P
P
P
0 x1 +1 x21
+2 x1 x2

P
P
x + x x + P x2
0
2
1
2 1
2
2
X0 XB =

P
P
P
0 xk +1 xk x1 +2 xk x2
P

Py

P x1 y
0

x2 y
XY=

P
xk y

P
P xk
P x1 xk
x2 xk

x2k

+
+
+
.
.
+

P
+k xk
P
+k x1 xk
P
+k x2 xk
+k

x2k

Al identificar los elementos de X0 XB como las expresiones en el lado derecho de las ecuaciones
normales y las de X0 Y como las expresiones en el lado izquierdo, podemos escribir
X0 XB = X0 Y
A5-12

Al multiplicar en el lado izquierdo por (X0 X)1 , obtenemos


(X0 X)1 X0 XB = (X0 X)1 X0 Y
y finalmente
B = (X0 X)1 X0 Y
puesto que (X0 X)1 X0 X es igual a la matriz identidad I (k + 1) (k + 1) y por definicion IB=B.
En este casos hemos supuesto que X0 X no tiene singularidad de manera que existe su inversa.
Ejemplo 3.2.1 Con respecto al ejemplo de las casas unifamiliares en el desarrollo habitacional,
use el teorema 3.2.1 para determinar las estimaciones de mnimos cuadrados de los coeficientes de
regresi
on m
ultiple.
Soluci
onP
P
P 2
P
P 2
Al sustituir
x1 = 25,
x2 = 16,
x1 = 87,
x1 x2 = 55,
x2 = 36 y n = 8 en la expresion
para X0 X de arriba, obtenemos

8 25 16
X0 X = 25 87 55
16 55 36
Entonces, la inversa de esta matriz se puede obtener mediante cualquiera de diversas tecnicas: al
usar la que est
a basada en los cofactores, encontramos que

107 20 17
1
20 32 40
(X0 X)1 =
84
17 40 71
P
P
0
0
donde 84
y = 637000,
x1 y =
P es el valor de |X X|, el determinante 0de X X. Al sustituir
2031100 y
x2 y = 1297700 en la expresion para X Y, obtenemos entonces

637000
1
2031100
X0 Y =
84
1297700
y finalmente,

107 20 17
637000
1
20 32
40 2031100
(X0 X)1 X0 Y =
84
17 40 71
1297700

5476100
1
347200
=
84
63799

65191,7
= 4133,3
758,3
donde las est
an redondeadas a un decimal. Advierta que los resultados obtenidos aqu son
identicos a los mostrados en el ejercicio anterior.
Si se supone que para i = 1, 2, ..., n las Yi son variables aleatorias independientes que tienen
distribuciones normales con las medias 0 + 1 xi1 + 2 xi2 + ... + k xik y la desviacion estandar
com
un . Con base en n puntos de datos
(xi1 , xi2 , ..., xik , yi )
podemos entonces hacer toda clase de inferencias sobre los parametros de nuestro modelo, las y
, y juzgar los meritos de las estimaciones y las predicciones basadas en la ecuacion estimada de
A5-13

regresi
on simple. Las estimaciones de maxima verosimilitud de las son iguales a las estimaciones
correspondientes de mnimos cuadrados, as que estan dadas por los elementos de la matriz columna
(k + 1) 1.
B = (X0 X)1 X0 Y
La estimaci
on de m
axima verosimilitud de esta dada por
v
u
n
u1 X

=t
[yi (0 + 1 xi1 + 2 xi2 + ... + k xik )]2
n i=1
donde son las estimaciones de m
axima verosimilitud de las , las mismas que tambien se pueden
escribir como
r
Y0 Y B0 X0 Y

=
n
en notaci
on matricial.
Ejemplo 3.2.2 Use los resultados del ejemplo anterior para determinar
el valor de

Pn
Soluci
on Calculemos primero Y0 Y, lo cual es simplemente i=1 yi2 , as obtenemos
Y0 Y =
=

788002 + 743002 + ... + 829002


50907080000

Entonces, al copiar B y X0 Y obtenemos

BX Y

1 
5476100
84

50906394166

347200

63700

637000
2031100
1297700

y se sigue que
r

=
=

50907080000 50906394166
8
292,8

Por lo que se concluye que los resultados de las i son combinaciones lineales de las n variables
aleatorias independientes Yi de manera que las i tienen distribuciones normales. Ademas, son
estimadores insesgados, esto es,
E(i ) = i

para

i = 0, 1, ..., k

y sus varianzas est


an dadas por
V ar(i ) = cij 2

para i = 0, 1, ..., k

En este caso cij es el elemento en el iesimo renglon y la jesima columna de la matriz (X0 X)1 ,
con i y j que toman los valores de 0,1,...,k.
2
n
n
2
Asi mismo, la distribuci
on muestral de 2 , la variable aleatoria que corresponde a 2 , es la

2
n
distribuci
on ji.cuadrada con n k 1 grados de libertad y que 2 y i son independientes para

i = 0, 1, ..., k. Al combinar todos estos resultados, encontramos que la definicion de la distribucion t


nos lleva:

A5-14

Teorema 3.2.2 Bajo las suposiciones del analisis de regresion m


ultiple normal,
i
ri
para i = 0, 1, ..., k
n|cii |

nk1
son los valores de variables aleatorias que tienen distribucion t con n k 1 grados de libertad.
t=

Con base en este teorema, probemos ahora una hipotesis acerca de uno de los coeficientes de
regresi
on m
ultiple.
Ejemplo 3.2.3 Con respecto al anterior ejemplo, pruebe la hipotesis nula 1 = 3500 contra la
hip
otesis alternativa 1 > 3500 en el nivel 0,05 de significancia.
Soluci
on
1. H0 : 1 = 3500
H1 : 1 > 3500
2. Rechace la hip
otesis nula si t > 2, 015, donde t se determina de acuerdo al anterior teorema y
2, 015 es e valor de t0,05,5 de acuerdo a la tabla de la distribucion T-student.
3. Al sustituir n = 8, 1 = 4133,3 y c11 = 32/84 y
= 292,8 de los ejemplos anteriores, obtenemos
t=

4133,3 3500
4133, 3 3500
r
= 2,77
=
228,6
8|32/84|
292,8
5

4. Puesto que t = 2,77 excede a 2,015, se debe rechazar la hipotesis nula; concluimos que en
promedio cada rec
amara adicional a
nade mas de $3500 al precio de venta de una cada tal.

A5-15

You might also like