You are on page 1of 36

SEMANA 7

MODELOS DE REGRESION MULTIPLE

Introduccin

A menudo se da el caso de que se puede desarrollar un


modelo que se ajusta mejor si se toma en cuenta ms de una
variable explicatoria. As pues, extenderemos nuestro
anlisis a los modelos de regresin mltiple en los que se
pueden utilizar varias variables explicatorias para predecir
el valor de una variable dependiente.

Desarrollo del modelo de regresin mltiple

Suponga que deseamos desarrollar un modelo de regresin


con el propsito de predecir el consumo de petrleo para
calefaccin en casas de una sola familia durante el mes de
enero. Se seleccion para hacer el anlisis una muestra de 15
casas de caractersticas parecidas construidas por la misma
empresa en diferentes localidades de una ciudad.

A pesar de que se pueden tomar en consideracin muchas


variables, para simplificar solamente evaluaremos dos
variables explicatorias:
1.-La temperatura atmosfrica promedio diaria, medida en
grados Fahrenheit, justo en el exterior de la casa durante el
mes en cuestin (X1).
2.- La cantidad de aislamiento, medido en pulgadas, que
hay en la parte ms alta de la casa (X2).
Los resultados se presentan en la siguiente tabla.

TABLA: Consumo de petrleo para calefaccin para una


muestra aleatoria de 15 casas de una sola familia
Consumo mensual de
de petrleo
(galones)
275.3
363.8
164.3
40.8
94.3
230.9
366.7
300.6
237.8
121.4
31.4
203.5
441.1
323.0
52.5

Temperatura atmosfrica
Cantidad de aislamiento
promedio diaria
en la parte alta de la casa
( F)
(pulgadas)
40
3
27
3
40
10
73
6
64
6
34
6
9
6
8
10
23
10
63
3
65
10
41
6
21
3
38
3
58
10

Para el caso de nuestros datos con dos variables


explicatorias, el modelo de regresin lineal mltiple se
expresa como:

en la que:
0 la interseccin con el eje Y
1 la pendiente de Y respecto a la variable X1 manteniendo las variables X2, X3, ... Xp
constantes.
2 la pendiente de Y respecto a la variable X2 manteniendo las variables X1, X3, ... Xp
constantes.

p la pendiente de Y respecto a la variable Xp manteniendo las variables X1, X2, ... Xp-1
constantes.

i error aleatorio en Y correspondiente a la observacin i.

Al igual que en el caso de la regresin lineal simple,


cuando se analizan los datos de la muestra, los
coeficientes de regresin de la muestra (b0 , b1 y b2) se
utilizan como estimaciones de los parmetros
verdaderos (0 , 1 y 2).

Por consiguiente, la ecuacin de regresin para el modelo


de regresin lineal mltiple con dos variables explicatorias
sera:

Utilizando el mtodo de mnimos cuadrados, los valores


de los tres coeficientes de regresin de la muestra
pueden obtenerse con un adecuado paquete de
computacin.
Observamos que los valores calculados de los
coeficientes de regresin para el problema que se est
tratando son:

b0 =562.151

b1 = -5.43658

b2= -20.0123

Por lo tanto, la ecuacin de regresin mltiple puede


expresarse como

Yi cantidad promedio predicha de petrleo para calefaccin que se consume durante el


mes de enero para la observacin i.

X1i = temperatura atmosfrica promedio diaria (F) durante enero para la observacin i.
X2i = cantidad de aislamiento para la parte ms alta de la casa (pulgadas) para la
observacin i.

La interpretacin de los coeficientes de regresin es


parecida a la que se hace en el modelo de regresin lineal
simple.
La interseccin con Y, b0 , calculada como 562.151, es
una estimacin del nmero esperado de galones de
petrleo para calefaccin domstica que se consumira en
enero cuando la temperatura atmosfrica promedio fuera
de 0 para una casa que no se encontrara aislada (es
decir, con 0 pulgadas de aislamiento en la parte ms alta
de la casa).

La pendiente de la temperatura atmosfrica diaria promedio


respecto al consumo de petrleo para calefaccin, b1
(calculada como 5.43658) puede interpretarse como el
correspondiente a una casa con un nmero dado de pulgadas
de aislamiento en la parte ms alta de la casa, se estima que el
consumo esperado de petrleo para calefaccin disminuya en
5.43658 galones por mes por cada grado de aumento en la
temperatura atmosfrica promedio diaria (en 1F)

Adems, la pendiente de la cantidad de aislamiento en la


parte ms alta de la casa respecto al consumo de petrleo
para calefaccin, b2 (calculada como 20.0123) puede
interpretarse como la correspondiente a un mes con una
temperatura atmosfrica promedio diaria dada, se estima
que el consumo esperado de petrleo para calefaccin
disminuya
en 20.0123 galones por cada pulgada
adicional de aislamiento en la parte ms alta de la casa.

PREDICCIN DE LA VARIABLE DEPENDIENTE Y PARA


VALORES DADOS DE LAS VARIABLES EXPLICATIVAS

Suponga que deseamos predecir el nmero de galones de


petrleo para calefaccin consumidos en una casa que
posee 6 pulgadas de aislamiento en la parte ms alta de la
casa, durante un mes en el cual la temperatura
atmosfrica diaria promedio fue de 30F
Utilizando nuestra ecuacin de regresin mltiple:

con X1i = 30 y X2i = 6, tenemos:

y, por consiguiente,

En consecuencia estimaramos que un promedio de


278.98 galones de petrleo para calefaccin se utilizaran
en casas con 6 pulgadas de aislamiento en la parte ms
alta de la casa, cuando la temperatura promedio fuera de
30F.

MEDICION DE LA ASOCIACION EN EL MODELO DE


REGRESION MULTIPLE

En la regresin mltiple, puesto que al menos se tienen


dos variables explicatorias, el coeficiente de
determinacin mltiple representa la porcin de la
variacin en Y que se puede explicar mediante el
conjunto de variables explicatorias elegidas

En nuestro ejemplo, que contiene dos variables


independientes, el coeficiente de determinacin mltiple
est dado por:

en la que

En el problema del consumo de petrleo para calefaccin


ya hemos calculado SSR = 228,015 y SST = 236,135
As pues, como se muestra en el resultado obtenido con
el paquete MINITAB, se tiene:

Este coeficiente de determinacin mltiple, calculado como


0.9656, puede interpretarse diciendo que, de la muestra,
96.56% de la variacin en el consumo de petrleo para
calefaccin domstica puede ser explicada por la variacin
en la temperatura atmosfrica diaria promedio y por la
variacin en la cantidad de aislamiento en el tico.

Sin embargo, cuando tratamos con modelos de regresin


mltiple, algunos investigadores sugieren que se calcule un
coeficiente r2 ajustado que refleje tanto el nmero de
variables explicatorias del modelo como el tamao de la
muestra.
Esto se hace especialmente necesario cuando estamos
comparando dos o ms modelos de regresin que predicen la
misma variable dependiente, pero que poseen diferente
nmero de variables explicativas o de prediccin

Por lo tanto, en la regresin mltiple, podemos


representar el coeficiente r2 ajustado como:

en donde P es el nmero de variables explicativas que hay


en la ecuacin de regresin.

As pues, para nuestros datos correspondientes al


petrleo para calefaccin, como ,

En consecuencia, 96% de la variacin en el uso de


petrleo para calefaccin domstica puede ser
explicada por nuestro modelo de regresin mltiple:
ajustado para el nmero de variables de prediccin y el
tamao de muestra.

Con el propsito de hacer un estudio ms profundo de la


relacin entre las variables, a menudo resulta de utilidad
examinar la correlacin entre cada pareja de variables
incluidas en el modelo. Esta matriz de correlacin, que
indica el coeficiente de correlacin entre cada pareja de
variables, se muestra en la siguiente tabla:

TABLA: Matriz de correlacin para el problema sobre


el consumo del petrleo para calefaccin

Y
X1
X2
(Petrleo para calefaccin) (Temperatura) (Aislamiento)
Y (petrleo para
Calefaccin)
X1 (temperatura)
X2 (aislamiento)

rYY = 1.0
rY1 = -0.86974
rY2 = -0.46508

rY1 = -0.86974 rY2 = -0.46508


r11 = 1.0
r12 = 0.00892
r12 = 0.00892 r22 = 1.0

En la tabla podemos observar que la correlacin entre la


cantidad de petrleo para calefaccin consumida y la
temperatura es de 0.86974, lo cual indica que existe una
fuerte asociacin negativa entre las variables.

Tambin podemos observar que la correlacin entre la


cantidad de petrleo para calefaccin consumida y el
aislamiento en el tico es de 0.46508, lo cual indica que
existe una correlacin negativa moderada entre estas
variables. Adems, observamos tambin que virtualmente
no existe correlacin alguna (0.00892) entre las dos
variables explicativas, la temperatura y el aislamiento en el
tico.

Finalmente, podemos observar que los coeficientes de


correlacin situados en la diagonal principal de la matriz
(rYY, r11, r22) tienen valor de 1.0, puesto que habr una
correlacin perfecta entre la variable y ella misma

ANALISIS RESIDUAL EN REGRESION


MULTIPLE

Cuando examinamos un modelo de regresin lineal mltiple


con dos variables explicativas, las siguientes grficas de
residuos son de inters:
2. Residuos estandarizados contra X1i
3. Residuos estandarizados contra X2i.

4. Residuos estandarizados contra el tiempo

La primera grfica de residuos sirve para examinar el


patrn de residuos para los valores predichos de Y. Si los
residuos estandarizados parecen variar para diferentes
niveles del valor predicho de Y, esto nos proporciona
evidencia de un posible efecto curvilneo en al menos una
variable explicativa y/o de la necesidad de transformar la
variable dependiente

La segunda y tercera grficas de residuos implican a las


variables explicativas. La aparicin de patrones en la grfica
de los residuos estandarizados contra una variable
explicativa puede ser una indicacin de la existencia de un
efecto curvilneo y, por consiguiente, nos llevara a la
posible transformacin de dicha variable independiente

El cuarto tipo de grfica se utiliza para investigar


patrones en los residuos cuando los datos han sido
recolectados en orden cronolgico. Asociada con la
grfica de los residuos en funcin del tiempo, la
estadstica de Durbin-Watson puede calcularse y
determinarse la existencia de correlacin positiva entre
los residuos.

Las grficas de residuos se obtienen como parte de los


resultados de casi todos los paquetes estadsticos de
computacin.
En la siguiente Fig. se presentan las grficas de
residuos obtenidas con el paquete MINITAB para el
problema del consumo de petrleo para calefaccin.

FIG.: Grficas de residuos para el modelo de consumo de


petrleo para calefaccin, obtenidas con el paquete
MINITAB

En esta figura podemos observar que parece haber un


patrn muy pequeo o no haberlo en la relacin entre los
residuos estandarizados y cualquiera de los valores
predichos de Y, X1 (la temperatura) o X2 (el aislamiento en
el tico). As pues, podemos llegar a la conclusin de que
el modelo de regresin lineal mltiple es apropiado para
predecir el consumo de petrleo con propsitos de
calefaccin.

You might also like