You are on page 1of 22

CARACTERSTICAS DEL ANLISIS DE REGRESIN LINEAL MLTIPLE: El anlisis de regresin mltiple es una extensin del anlisis de regresin simple

que nos permite utilizar una mayor parte de la informacin de que disponemos para estimar el valor de la variable dependiente a aplicaciones que implican dos o ms variables independientes. En ocasiones la correlacin entre dos variables puede ser insuficiente para determinar una adecuada ecuacin de estimacin, sin embargo, si agregamos los datos de mas variables independientes, podremos obtener una ecuacin de estimacin que describa la relacin con mayor precisin.

El anlisis de regresin y correlacin mltiple son un proceso que consta de los siguientes pasos:

1.- Definir la ecuacin de regresin mltiple. 2.- Examinar el error estndar de estimacin para la regresin mltiple. 3.- Probar la significacin de la relacin entre la variable dependiente y las variables explicativas. 4.- Construir intervalos de confianza para

Y . X Y

5.- Determinar la contribucin de cada variable explicatoria mediante la comparacin de diferentes modelos de regresin mediante el mtodo conocido como criterio de la prueba parcial F. 6.- Calcular el coeficiente de determinacin para medir la proporcin de la variacin en la variable dependiente que se explica por las variables independientes en el modelo de regresin mltiple y aplicar el anlisis de correlacin lineal mltiple para medir la fuerza de la asociacin en el modelo de regresin lineal mltiple 7.- Determinarlos coeficientes de determinacin parcial para medir la proporcin de la variacin en la variable dependiente que se explica por cada variable explicatoria. 8.- Verificar la existencia de multicolinearidad para analizar la entre las variables independientes. correlacin

9.- Realizar un diagnstico de la regresin mediante el anlisis de los residuales estandarizados para estudiar posibles violaciones a las suposiciones del modelo de regresin. 10.- Realizar un diagnstico de la regresin mediante el anlisis de influencias para evaluar lo apropiado de un modelo en particular en relacin con el efecto potencial o la influencia de cada punto sobre ese modelo ajustado.

El modelo de regresin lineal mltiple est dado por la funcin:

En el caso de dos variables independientes, que se denotan con algebraico lineal es:

, el modelo

Donde:

Yi = Variable dependiente Xi = Variables independientes 0 = Primer parmetro de la regresin u ordenada al origen 1 =Segundo parmetro de la regresin pendiente de Y con la variable X1, manteniendo constante la variable X2 2 =Tercer parmetro de la regresin pendiente de Y con la variable X2, manteniendo constante la variable X1 i = Error aleatorio de muestreo en Y para la observacin i
Para estimar los parmetros de la regresin se utiliza el mtodo de mnimos cuadrados. El mtodo de mnimos cuadrados determina la ecuacin del plano de regresin minimizando la suma de los cuadrados de las distancias verticales entre los valores reales de Y y los valores pronosticados para Y.

As, con base en los datos muestrales, la ecuacin de regresin lineal mltiple para el caso de dos variables independientes quedara de la siguiente forma:

Las ecuaciones normales para estimar los parmetros de la regresin mltiple con dos variables independientes son:

Los valores de los tres coeficientes de regresin, se pueden obtener solucionando este grupo de ecuaciones simultneas. En este caso se utilizar notacin matricial para bosquejar parte de las matemticas en la que se basa la regresin mltiple dado que en clculos subsecuentes se requieren datos de la matriz inversa.

El punto de partida para el uso de la notacin matricial es el modelo mismo de regresin mltiple. El modelo lineal general relaciona una respuesta Y con un conjunto de variables independientes de la forma

Las estimaciones de mnimos cuadrados , ,, del trmino constante u ordenada al origen y las pendientes parciales en el modelo lineal general se pueden obtener utilizando matrices.

Sea el vector columna Y de tamao (n x 1)

[ ]

El vector de observaciones de Y, y sea la matriz X de tamao n x (k+1)

La matriz de valores de las variables independientes aumentada con una columna de unos. La primera fila de X contiene un 1 y los valores para las k variables independientes de la primera observacin . La fila 2 contiene un 1 y los valores para las k variables independientes de la segunda observacin . Anlogamente, las otras filas contienen valores para las observaciones restantes.

Para encontrar las estimaciones mnimo cuadrticas , ,, del trmino constante u ordenada al origen y las pendientes parciales en el modelo de regresin mltiple recuerde que el principio de mnimos cuadrados incluye elegir las estimaciones que minimicen las sumas de los cuadrados de los residuos . Las ecuaciones normales que resultan de ello son, en notacin matricial,

donde [ ]

es el vector buscado de de coeficientes estimados. Suponiendo que la matriz tiene una inversa, la solucin es

donde:

Para la interpretacin de los coeficientes de la regresin lineal mltiple, la ordenada en el origen o interseccin con el eje Y es la interseccin Y. Es el valor estimado de la variable dependiente cuando las =0. En otras palabras, es el valor estimado de cuando la lnea de regresin cruza el eje Y cuando las X son ceros y las pendientes parciales estimadas en el modelo de regresin mltiple representan el cambio promedio en la variable dependiente para cada cambio de una unidad (ya sea aumento o reduccin) en cada una de las variables independientes cuando mantenemos constantes las dems variables independientes.

PRUEBAS DE SIGNIFICANCIA EN EL MODELO DE REGRESIN LINEAL MLTIPLE ERROR ESTNDAR El error estndar describe la variacin con respecto a la recta de regresin en el caso de la regresin lineal simple. Este mismo concepto se aplica en la regresin mltiple. Si se tienen dos variables independientes, puede pensarse en la variacin respecto a un plano de regresin. Si hay ms de dos variables independientes, no se tiene una interpretacin geomtrica de la ecuacin, pero el error estndar del estimador sigue siendo una medida del error o variabilidad de la prediccin. El error estndar del estimador, proporcionado por el smbolo general para k nmero de variables independientes como: , se define en forma

( (

) )

Observe que la ecuacin en su estructura es muy parecida a la que utilizamos para la desviacin estndar de una muestra.

Para el caso de slo dos variables independientes se puede resumir de la siguiente manera:

PRUEBA PARA LA SIGNIFICANCIA DE LA RELACIN ENTRE LA VARIABLE DEPENDIENTE Y LAS VARIABLES EXPLICATORIA E INFERENCIAS CON RESPECTO A LOS COEFICIENTES DE REGRESIN DE LA POBLACIN.

Una vez ajustado un modelo de regresin a un grupo de datos se debe determinar si hay relacin significativa entre la variable dependiente y el grupo de variables explicatorias . Las hiptesis se pueden establecer de la siguiente manera: Juego de hiptesis: ( ( ) )

Se puede probar la hiptesis nula utilizando una prueba F . Cuando se prueba la significacin de los coeficientes de regresin, a la medida del error aleatorio de le conoce como la varianza del error, por lo que la prueba F es la razn de la varianza debida a la regresin dividida entre la varianza del error

Fuente de variacin Regresin Error Total

g.l.

Suma cuadrados SCR SCE

de

Cuadrado Medio

Cociente F

SCT

Donde:

n= nmero de observaciones. k= nmero de variables independientes

En forma matricial:

( )( (

( )

La regla de decisin es de rechazar Ho si F calculada es mayor o igual a un valor crtico determinado para alfa de 0.05 y para V1= k g.l. y V2 = n-k-1 g.l.

Si la hiptesis nula

es verdadera, la razn es:

En caso de que la prueba anterior haya resultado significativa o altamente significativa slo se ha mostrado que alguno, pero no necesariamente todos los coeficientes de regresin, no son iguales a cero y, por tanto, son tiles para las predicciones. El siguiente paso consiste en utilizar la prueba t para probar individualmente las variables para determinar cules coeficientes de regresin pueden ser 0 y cules no. Si una puede ser cero, ello implica que esta variable independiente en particular no tiene ningn valor para explicar cualquier variacin en el valor dependiente. Si hay coeficientes para los cuales no se puede rechazar H 0, se pueden eliminar de la ecuacin de regresin.

Las hiptesis se pueden establecer de la siguiente manera para el caso de dos variables independientes: Juego de hiptesis: Para la variable independiente X1: H0: =0 ( no existe relacin) H1: 0 (existe relacin) Para la variable independiente X2: H0: =0 ( no existe relacin) H1: 0 (existe relacin)

Podemos probar coeficientes de regresin individuales utilizando la distribucin t. La frmula es :

se refiere a cualquiera de los coeficientes de regresin y coeficiente de regresin cuya frmula en forma matricial es:

se refiere al error estndar del

es el

Donde

es el error estndar del estimador a partir de la ecuacin de regresin y )

elemento en la fila j + 1, columna j + 1 de (

Un segundo y equivalente mtodo para probar la existencia de una relacin lineal entre las variables, es establecer un estimado de intervalo de confianza de y determinar si el valor hipottico ( ) est incluido en el intervalo. El estimado del intervalo de confianza de se obtendra de la siguiente manera:

PREDICCIONES DE NUEVAS OBSERVACIONES. El error estndar del estimador se utiliza tambin para establecer intervalos de confianza para reportar el valor medio de Y con nuevos valores de las variables independientes, si el tamao de la muestra es suficientemente grande y la dispersin alrededor del plano de regresin se aproxima a la distribucin normal.

Se puede desarrollar una estimacin por intervalo de confianza para hacer inferencia sobre el valor predicho de Y, la frmula es:

donde: ( )

Prueba de porciones de un modelo de regresin mltiple.

Cuando se desarrolla un modelo de regresin lineal mltiple uno de los objetivos es utilizar slo aquellas variables explicatorias que sean tiles para predecir el valor de la variable dependiente.

Un mtodo para determinar la contribucin de una variable explicatoria es conocido como criterio para prueba F parcial . Consiste en determinar la contribucin a la regresin de la suma de cuadrados por cada variable explicatoria despus de haber incluido todas las otras variables explicatorias del modelo. La nueva variable explicatoria slo ser incluida si el modelo mejora en forma significativa.

La contribucin de cada variable explicatoria se evaluar al tomar en cuenta la suma de regresin de los cuadrados de un modelo que incluye todas las variables explicatorias excepto la de inters, SCR (Todas las variables excepto k). De esta manera, en general, para determinar la contribucin de la variable k , sabiendo que ya todas las otras variables estn incluidas, se tendra:

SCR ( Xktodas las variables excepto k)=SCT(todas las variables incluyendo k) -SCR(todas las variables excepto k)

Por ejemplo si slo hay dos variables explicatorias, la contribucin de cada una se puede determinar de la siguiente manera:

Contribucin de la variable X1 sabiendo que X2 est incluida:


SCR(X1X2) = SCR(X1 Y X2) SCR(X2)

Contribucin de la variable X2 sabiendo que X1 est incluida:

SCR(X2X1) = SCR(X1 Y X2) SCR(X1)

La hiptesis nula y alternativa para probar la contribucin de X1 al modelo seran:

H0: la variable X1 no mejora en forma significativa el modelo, una vez incluida la variable X2.

H1: la variable X1 mejora en forma significativa el modelo, una vez incluida la variable X2.

El criterio para la prueba F parcial se expresa de la siguiente manera:

F1. n-k-1 = SCR(Xk todas las variables excepto k) / CME = 0.05 (Extremo derecho) Si hay dos variables explicatorias el criterio para la prueba F parcial quedara de la siguiente manera: F1. n-k-1 = SCR(X1X2)/CME = SCR(X1 Y X2) SCR(X2) / CME

Dado que los grados de libertad de la SCR(X1X2) es 1 se puede escribir la expresin anterior como :

F1. n-k-1 = CMR(X1X2)/CME

La hiptesis nula y alternativa para probar la contribucin de X2 al modelo seran:

H0: la variable X2 no mejora en forma significativa el modelo, una vez incluida la variable X1

H1: la variable X2 mejora en forma significativa el modelo, una vez incluida la variable X1.

El criterio para la prueba F parcial se expresa de la siguiente manera:

F1. n-k-1 = SCR(Xk todas las variables excepto k) / CME = 0.05 ( Extremo derecho) Si hay dos variables explicatorias el criterio para la prueba F parcial quedara de la siguiente manera: F1. n-k-1 = SCR(X2X1)/CME = SCR(X1 Y X2) SCR(X1) / CME

Dado que los grados de libertad de la SCR(X2X1) es 1 se puede escribir la expresin anterior como :

F1. n-k-1 = CMR(X2X1)/CME

El coeficiente de determinacin y correlacin mltiple

En la regresin mltiple, ya que existen por lo menos dos variables explicativas, el coeficiente de determinacin mltiple representa la proporcin de la variacin en Y que se explica por el grupo de variables explicativas seleccionadas. En el caso de dos variables explicativas, el coeficiente de determinacin mltiple ( ) se obtiene de la siguiente manera:

donde :

No obstante al tratar con modelos de regresin mltiple, algunos investigadores o analistas sugieren que se calcule un R2 ajustado que refleje tanto el nmero de variables explicativas en el modelo como el tamao de la muestra. En la regresin mltiple se puede representar un R2 ajustado como:

[(

Por lo general la fuerza de una relacin entre una variable dependiente Y y dos ms variables independientes X en una poblacin se mide mediante el coeficiente de correlacin, cuyos valores oscilan entre -1 para la correlacin negativa perfecta hasta +1 para la correlacin positiva perfecta.

Se puede obtener con facilidad el coeficiente de correlacin mediante la frmula:

EL COEFICIENTE DE DETERMINACIN PARCIAL. Los coeficientes de determinacin parcial ( r2y1.2 y r2y2.1 ) miden la proporcin de la variacin en la variable dependiente que se explica por cada variable explicativa, al mismo tiempo que se controlan o se mantienen constantes las otras variables explicativas. Para un modelo de regresin mltiple con diversas variables explicativas (k) resulta que:

( ( (

) )

En un modelo con dos variables explicativas resultara de la siguiente manera: ( ( ) ) ( )

( ( Donde: )

) ( )

SCR (X1X2 ) = suma de los cuadrados de la contribucin de la variable X 1 al modelo de regresin conociendo que la variable X2 ha sido incluida en el modelo. SCT = Suma total de los cuadrados para Y. SCR (X1 y X2) = suma de regresin de los cuadrados cuando tanto la variable X 1 como la X2 estn incluidas en el modelo de regresin mltiple. SCR (X2 X1) = suma de los cuadrados de la contribucin de la variable X2 al modelo de regresin, sabiendo que la variable X1 ha sido incluida en el modelo.

La multicolinearidad. En general no hay relacin importante entre el coeficiente de determinacin mltiple R2 de la ecuacin de regresin y los coeficientes individuales de determinacin. Si todos las variables independientes no estn correlacionadas entre s, se pueden ir aadiendo coeficientes individuales de determinacin; sin embargo, si las X estn correlacionadas, es difcil separar el valor predictivo global de X1, X2,,Xk, tal como se mide con R2Y.X1Xk, en partes separadas que se puedan atribuir solamente a X1,,solamente a Xk. Por lo tanto, un problema importante en la aplicacin del anlisis de regresin mltiple incluye la posible correlacin de las variables independientes explicativas (llamada en ocasiones multicolinealidad multicolinearidad). Esta condicin se refiere a situaciones en que algunas variables explicativas estn altamente correlacionadas entre s. En esas situaciones las variables correlacionadas no proporcionan informacin nueva y resulta difcil separar el efecto de esas variables sobre la variable dependiente o de respuesta. En esos casos los valores de los coeficientes de regresin para las variables correlacionadas pueden fluctuar en forma importante, dependiendo de qu variables estn incluidas en el modelo. Un mtodo de medir la colinealidad colinearidad usa el factor de varianza inflacionaria (VIF) para cada variable explicativa. Este VIF se define en la siguiente ecuacin:

Donde

representa el coeficiente de determinacin mltiple de la variable explicativa Xj con

todas las otras variables X. Cuando slo hay dos variables explicativas es el coeficiente de determinacin entre X1 y sera el coeficiente de determinacin

X2 . Si hubiera tres variables explicativas, entonces mltiple de X1 con X2 y X3.

Cuando un grupo de variables explicativas no estn correlacionadas, entonces VIFj ser del orden de 1. Si el grupo presenta una alta correlacin entre s, entonces VIFj podra exceder a 10 aunque algunos analistas o investigadores sugieren un criterio ms conservador donde se emplearan alternativas a la regresin de mnimos cuadrados si el VIFj mximo excediera a 5. Puesto que solo hay dos variables explicatorias en el modelo, se puede calcular el VIFj de la siguiente manera

Primero se debe calcular

, es decir el coeficiente de determinacin utilizando nicamente las

dos variables independientes X1 y X2 mediante las siguientes frmulas:

[(

)(

)]

NOTA: Si el clculo se hace con calculadora usando el mdulo de regresin lineal simple, se debe calcular el modelo suponiendo un modelo de regresin lineal simple utilizando como Y a X1 y como X1 a X2 y posteriormente encontrando el valor de r y elevndolo al cuadrado para obtener . Anlisis de residuos.

En anlisis de regresin un residual es:

La grfica de residuales se puede definir como una grfica de los residuales ei con respecto a la variable independiente Xi. En el anlisis de regresin lineal simple, puede utilizarse un diagrama de dispersi n o una gr fica de residuales para observar si parecen satisfacerse las suposiciones de aleatoridad, linealidad, normalidad y homocedasticidad de la regresin . Sin embargo en el anlisis de regresin mltiple, el nico tipo de grfica que permite abordar este anlisis para el modelo global es la grfica de residuales con respecto al valor ajustado , porque esta es la nica grfica bidimensional que puede incluir el uso de varias variables independientes (solo se puede construir con la computadora). Si se observa en una de esas grficas que existe algn problema en los supuestos de la regresin, entonces pueden elaborarse grficas individuales de residuales para cada variable independiente del modelo , con el objeto de buscar la fuente del problema, en cuyo caso es conveniente calcular los residuales estandarizados; stos representan cada residual dividido entre su error est ndar. El residual estandarizado en la regresin lineal mltiple se presenta como la ecuacin:

Donde:

En particular si el modelo tiene dos variables explicatorias el residual estandarizado se presentara como la ecuacin:

Donde:

Estos valores estandarizados permiten considerar la magnitud de los residuales en unidades que reflejan la variacin estandarizada en torno al plano de regresin. Los residuales estandarizados se trazan con respecto al valor ajustado . Si parece que los residuales estandarizados varan para diferentes niveles de , hay un posible efecto curvilneo en por lo menos una variable explicatoria y/o la necesidad de transformar la variable dependiente.

Los patrones en el diagrama de los residuales estandarizados, en contraste con una variable explicatoria, pueden sealar la existencia de un efecto curvilneo y por consiguiente, llevar a la posible transformacin de esa variable explicatoria.

Por otro lado una de las hiptesis ms importantes del anlisis de regresin es que los trminos de error ( ) , que se podran llamar los residuos verdaderos , son independientes. Gran parte de la teora estadstica de la regresin depende de esta hiptesis. Los datos de series temporales, medidos en periodos suscesivos, a menudo muestran un comportamiento ms o menos cclico. Este problema restringido principalmente a los datos de series temporales, se llama autocorrelacin. Una prueba formal para la autocorrelacin se apoya en el estadstico de Durbin-Watson. El estadstico de Durbin-Watson es:

donde: ei = residual del periodo i.

Si los verdaderos errores son en realidad independientes, el valor esperado de d es alrededor de 2.0. Cualquier valor de d menor que 1.5 o 1.6 nos lleva a sospechar que hay autocorrelacin.

Evaluacin de las suposiciones

Aleatoridad y linealidad

Se puede evaluar lo apropiado del modelo de regresin, trazando los residuales estandarizados con respecto al valor ajustado . Si parece que los residuales estandarizados varan para diferentes niveles de , hay un posible efecto curvilneo en por lo menos una variable explicatoria y/o la necesidad de transformar la variable dependiente. Si se observa en la grfica que existe algn problema, entonces pueden elaborarse grficas individuales de residuales para cada variable independiente del modelo, con el objeto de buscar la fuente del problema.

Homoscedasticidad

La suposicin de homoscedasticidad se puede evaluar tambin de la grfica de residuales estandarizados con respecto al valor ajustado .. Si parece haber un efecto de abanico en el cual aumenta disminuye la variabilidad de los residuales al aumentar se demuestra la falta de homogeneidad en las varianzas de a cada nivel de . Si se observa en la grfica que existe algn problema, entonces pueden elaborarse grficas individuales de residuales para cada variable independiente del modelo, con el objeto de buscar la fuente del problema.

Normalidad

El supuesto de normalidad en la regresin es posible evaluarlo de un anlisis residual colocando los residuales estandarizados en una distribucin de frecuencias y mostrando los resultados en un histograma. Si contamos con papel normal o acceso a la computadora, podemos construir una grfica de probabilidad normal de residuos: Los puntos de esta grfica deben generalmente formar una lnea recta si los residuos se estn normalmente distribuidos. Si los puntos en la grfica salen de una lnea recta, el supuesto de normalidad puede ser invlido. Si sus datos tienen menos de 50 observaciones, la grfica podra mostrar una curvatura en las colas, aun si los residuos estn normalmente distribuidos. A medida que el nmero de observaciones disminuye, la grfica de probabilidad podra mostrar una variacin sustancial no linealidad, aun si los residuos estn normalmente distribuidos. Utilice la grfica de probabilidad y las pruebas de bondad de ajuste, tales como el estadstico de Anderson-Darling, para evaluar si los residuos estn normalmente distribuidos. Independencia

La suposicin de independencia requiere que el error (diferencia residual entre un valor observado y uno predicho de Y) sea independiente para cada valor de X. Con frecuencia esta

suposicin se refiere a datos que se recopilan a lo largo de un periodo. Estos tipos de modelos caen bajo la denominacin general de series de tiempo. La suposicin de independencia se puede evaluar trazando los residuales en el orden o la sucesin en que se obtuvieron los datos observados.

Una prueba formal para la autocorrelacin se apoya en el estadstico de Durbin-Watson. El estadstico de Durbin-Watson es:

donde: ei = residual del periodo i.

Si los verdaderos errores son en realidad independientes, el valor esperado de d es alrededor de 2.0. Cualquier valor de d menor que 1.5 o 1.6 nos lleva a sospechar que hay autocorrelacin. Anlisis de influencia. Las tcnicas del anlisis de influencias se utilizan para determinar si cualquier observacin individual tiene una influencia indebida sobre el modelo ajustado.

Se consideran bsicamente tres medidas:

1.- Los elementos de la matriz sombrero hi. 2.- Los residuales de Student eliminados t*i . 3.- El estadstico de distancia Di de Cook.

1.- Uso de los elementos de la matriz sombrero hi :

Donde hi son los elementos diagonales de la matriz sombrero, que reflejan la influencia de cada Xi sobre el modelo de regresin ajustado.

Si existen esos puntos de influencia quiz sea necesario evaluar de nuevo la necesidad de mantenerlos en el modelo.

Hoaglin y Welsch sugieren la siguiente regla de decisin para un modelo de regresin lineal mltiple con k variables explicatorias:

Si hi > 2( k + 1)/n

entonces Xi es un punto influyente y removible del modelo.

2.- Los residuales de Student eliminados t*i .

En el estudio del anlisis residual se definieron los residuales estandarizados mediante la ecuacin:

Para poder medir mejor la repercusin adversa sobre el modelo de cada caso individual, Hoaglin y Welsch desarrollaron el residual de Student eliminado t*i que se presenta en la siguiente ecuacin:

( )

Donde S(i) = el error estndar de la estimacin para un modelo que incluye todas las observaciones excepto la observacin i.

Este residual de Student eliminado mide la diferencia entre cada valor observado Yi y el valor predicho obtenidos de un modelo que incluye todas las dems observaciones excepto i. En el modelo de regresin mltiple Hoaglin y Welsch proponen que si,

t*i > t.10. n k 2

entonces los valores observados y predichos son tan diferentes, que la observacin i es un punto influyente que afecta de modo adverso al modelo y puede ser eliminada.

3.- El estadstico de distancia Di de Cook.

El uso de hi y t*i en la bsqueda de puntos de datos potencialmente problemticos es complementario ya que ninguno de los criterios es suficiente por s mismo.

Para decidir si un punto que ha sido destacado mediante el criterio hi t*i est afectando indebidamente al modelo, Cook y Weisberg sugieren el uso del estadstico Di en la ecuacin:

)(

Donde SRi es el residual estandarizado.

En el modelo de regresin mltiple Cook y Weisberg sugieren que

Si Di > F.50. k+1. n-k-1

La observacin puede tener una recuperacin sobre los resultados de ajustar un modelo de regresin mltiple.

You might also like