You are on page 1of 8

El problema de la colinealidad

Es uno de los problemas ms desesperantes con que uno se puede encontrar en un


anlisis de regresin. Como ya vimos al hablar de la estimacin de los coeficientes,
si en un modelo de RLM alguna variable independiente es combinacin lineal de
otras, el modelo es irresoluble, debido a que, en ese caso, la matriz X'X es
singular, es decir, su determinante es cero y no se puede invertir.

A este fenmeno se le denomina colinealidad. Que una variable X1 sea combinacin


lineal de otra X2, significa que ambas estn relacionadas por la expresin
X1 = 1 + 2X2, siendo 1 y 2 constantes, por lo tanto el coeficiente de correlacin
entre ambas variables ser 1.

Del mismo modo, que una variable X1 sea combinacin lineal de otras X2, ...,
Xi con i>2, significa que dichas variables estn relacionadas por la expresin
X1 = 1 > + 2 X2 + ... + iXi, siendo 1,..., i constantes y por tanto, el coeficiente
de correlacin mltiple RX1|X2,...Xitambin ser 1.

Otro modo, por tanto, de definir la colinealidad es decir que existe colinealidad
cuando alguno de los coeficientes de correlacin simple o mltiple entre algunas de
las variables independientes es 1, es decir, cuando algunas variables
independientes estn correlacionadas entre s.

En la prctica, esta colinealidad exacta raras veces ocurre, pero s surge con cierta
frecuencia la llamada casi-colinealidad, o por extensin, simplemente colinealidad
en que alguna variable es "casi" combinacin lineal de otra u otras, o dicho de otro
modo, algunos coeficientes de correlacin simple o mltiple entre las variables
independientes estn cercanos a 1, aunque no llegan a dicho valor.

En este caso la matriz X'X es casi-singular, es decir su determinante no es cero


pero es muy pequeo. Como para invertir una matriz hay que dividir por su
determinante, en esta situacin surgen problemas de precisin en la estimacin de
los coeficientes, ya que los algoritmos de inversin de matrices pierden precisin al
tener que dividir por un nmero muy pequeo, siendo adems inestables.

Adems, como la matriz de varianzas de los estimadores es proporcional


a X'X, resulta que en presencia de colinealidad los errores estndar de los
coeficientes son grandes (hay imprecisin tambin en sentido estadstico).

Por consiguiente, a la hora de plantear modelos de RLM conviene estudiar


previamente la existencia de casi-colinealidad (la colinealidad exacta no es
necesario estudiarla previamente, ya que todos los algoritmos la detectan, de
hecho no pueden acabar la estimacin). Como medida de la misma hay varios
estadsticos propuestos, los ms sencillos son los coeficientes de determinacin de
cada variable independiente con todas las dems, es decir

y, relacionados con ellos, el factor de inflacin de la varianza (FIV) y la tolerancia


(T), definidos como
Una regla emprica, citada por Kleinbaum, consiste en considerar que existen
problemas de colinealidad si algn FIV es superior a 10, que corresponde a algn
R2i 0,9 y Ti < 0,1.

Aunque puede existir colinealidad con FIV bajos, adems puede haber
colinealidades que no impliquen a todas las variables independientes y que, por
tanto, no son bien detectadas por el FIV.

Otra manera, ms completa, de detectar colinealidad es realizar un anlisis de


componentes principales de las variables independientes. Esta tcnica es
matemticamente compleja y aqu se hace slo un resumen de la misma necesario
para entender el diagnstico de la colinealidad.

Se denominan componentes principales de un conjunto de variables a otras


variables, combinacin lineal de las originales y que tienen tres propiedades
caractersticas:

i) son mutuamente independientes (no estn correlacionadas entre s).

ii) mantienen la misma informacin que las variables originales.

iii) tienen la mxima varianza posible con las limitaciones anteriores.

De hecho, para modelos predictivos los componentes principales son las variables
independientes ideales.

La varianza de cada componente principal es un autovalor (nmero asociado a una


matriz) de la matriz de varianzas-covarianzas de las variables originales.

El nmero de autovalores nulos indica el nmero de variables que son combinacin


lineal de otras (el nmero de colinealidades exactas) y autovalores prximos a cero
indican problemas graves de colinealidad.

El clculo de los autovalores permite, por lo tanto, determinar no slo la existencia


de colinealidad, sino tambin el nmero de colinealidades.

Para determinar cundo un autovalor pequeo est suficientemente prximo a cero


se usa su valor relativo con respecto al mayor, en este sentido, para cada autovalor
se define el ndice de condicin como la raz cuadrada del cociente entre el mayor
de ellos y dicho autovalor y se denomina nmero de condicin al mayor de los
ndices de condicin.

Para Belsley ndices de condicin entre 5 y 10 estn asociados con una colinealidad
dbil, mientras que ndices de condicin entre 30 y 100 sealan una colinealidad
moderada a fuerte.

Una vez determinada la presencia y el nmero de colinealidades, es conveniente


averiguar qu variables estn implicadas en ellas. Usando ciertas propiedades de la
matrices se puede calcular la proporcin de la varianza de las variables sobre cada
componente.
Si dos o ms variables tienen una proporcin de varianza alta en un componente
indica que esas variables estn implicadas en la colinealidad y, por tanto, la
estimacin de sus coeficientes est degradada por la misma.

Belsley propone usar conjuntamente los ndices de condicin y la proporcin de


descomposicin de varianza para realizar el diagnstico de colinealidad, usando
como umbral de proporcin alta 0,5 de modo que, finalmente, dicho diagnstico se
har:

Los ndices de condicin altos (mayores que 30) indican el nmero de


colinealidades y la magnitud de los mismos mide su importancia relativa.

Si un componente tiene un ndice de condicin mayor que 30 y dos o ms variables


tienen un proporcin de varianza alta en el mismo, esas variables son colineales.

Como ya se indic ms arriba, la mejor solucin a los problemas de colinealidad


consiste en plantear el modelo de regresin con los componentes principales en
lugar de con las variables originales, si bien esta solucin slo est indicada en los
modelos predictivos.

En los modelos estimativos no tiene sentido, ya que el inters del modelo es,
justamente, estimar el efecto sobre la variable independiente de una variable
determinada y no interesa, por lo tanto, usar otras variables distintas.

Otras soluciones alternativas planteables en ambos tipos de modelos pueden ser:


cambios de escala en las variables, incluyendo el centrado de las mismas (restar a
cada variable su media) o, incluso, eliminar alguna de las variables colineales.

En este mismo sentido hay que tener en cuenta que las variables producto
introducidas para estudiar la interaccin pueden dan lugar a problemas de
colinealidad y no se recomienda, por lo tanto, que un modelo contenga muchos
trminos de interaccin.

Si una variable toma el mismo valor para todas las observaciones (tiene varianza
cero) existe colinealidad exacta con el trmino independiente, y si una variable
tiene varianza casi cero (toma valores muy prximos para todas las observaciones)
existe casi-colinealidad.

Puede ocurrir que una varianza pequea sea debida a una escala inapropiada para
la variable, por ejemplo, si la edad de sujetos adultos se mide en dcadas se
obtiene una varianza 100 veces menor que si se midiera en aos. En este caso un
cambio de escala puede evitar el problema de la colinealidad.

Tambin se puede perder precisin en el clculo de (X'X)-1 por la existencia de


variables con varianzas excesivamente grandes, en cuyo caso el cambio de escala
aconsejable sera el contrario, por ejemplo, podra dar lugar a problemas de
precisin medir la edad en das.

Ejemplo 10

Realizar el estudio de colinealidad en los datos del ejemplo 5, usando los FIV, los
ndices de condicin y la matriz de proporcin de descomposicin de la varianza de
los estimadores.
Realizando los anlisis de regresin de cada una de las variables independientes
con todas las dems, se obtienen los siguientes coeficientes de determinacin,
tolerancia y factores de inflacin de la varianza

que indican problemas graves de colinealidad.

Obsrvese que el factor de inflacin mayor corresponde a la variable GRASAS,


resultado esperable debido a que se han creado tres variables ms (GRASA2,
GRAXED y GRAXEJ) a partir de ella.

Los autovalores de la matriz X'X y los ndices de condicin, as como la matriz de


proporcin de descomposicin de varianza son:

Hay un ndice de condicin alto (50,781) y asociado con el mismo hay cinco
variables (el trmino constante, GRASAS, GRASA2, EDAD y GRAXED) con
proporcin de varianza alta.

Nos indica, por tanto, que GRASAS es colineal con GRASA2, GRAXED (no nos
sorprende), EDAD y con la constante.
Al existir esta ltima colinealidad, el centrado de variables podra mejorar el
problema, se podra tambin renunciar a estudiar los trminos no lineales GRASA2
y GRAXED.

Empecemos por centrar las variables continuas.

GRASAC = GRASAS - 39,7


EDADC = EDAD - 36,25
GRASC2 = GRASAC x GRASAC
GRXEDC = GRASAC x EDADC
GRXEJC = GRASAC x EJERC

y, para ellas, el diagnstico de colinealidad queda:

y tanto los ndices de condicin como la proporcin de varianza, indican que el


centrado ha resuelto los problemas de colinealidad.
Anlisis de los residuos

Si bien para la estimacin por mnimos cuadrados de los coeficientes de un modelo de regresin, slo
la asuncin de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de
est basada tambin en las asunciones de normalidad y homoscedasticidad. Por consiguiente, convie
que dichas asunciones se cumplen en cada caso.

Hay que tener en cuenta que, en caso de que no se cumpla la normalidad, no se puede utilizar la t n
contrastes de hiptesis. Puede usarse, sin embargo, la desigualdad de Tchebysheff, que establece qu
cualquier variable aleatoria

siendo k cualquier nmero real positivo. Otro modo alternativo de escribirlo es

Por lo tanto, un modo de contrastar, sin la asuncin de normalidad, la hiptesis nula

H0 : i = a

es calcular el cociente

y la probabilidad de error tipo I al rechazarla es 1/k2

Esta prueba tampoco se puede usar si no se cumple la homoscedasticidad, pues en ese caso la estim
EE(i) no es vlida.

Recordando la 2 formulacin del modelo, las asunciones se pueden resumir en que las variablesx1,..
independientes, distribuidas normalmente con media cero y todas con la misma varianza 2

x1,...,xk es un conjunto de variables, una para cada combinacin x1,...,xk de valores de las variables X

denominados residuos, son los valores que en la muestra toman estas variables.

Generalmente, sin embargo, no se tienen suficientes de estos valores muestrales para cada variable
problema del ejemplo 5, por ejemplo, existe una variable x1,...,xk para cada valor de la edad, del cons
grasas y del ejercicio; el residuo para el primer paciente corresponde a la variable 80,35,0; el del segu
variable 30,40,2; etc., es decir, para cada variable slo se tiene un valor muestral.

Para el problema del ejemplo 8, sin embargo, slo hay cuatro variables: 0,0, 1,0, 0,1 y 1,1 y s puede
suficientes valores muestrales para cada una de ellas como para plantearse pruebas de bondad de aj
distribucin normal (ji-cuadrado o Kolmogorov-Smirnov) y de homoscedasticidad (Bartlett).

El planteamiento habitual es considerar que, como todas ellas son normales con la misma media (0)

varianza (2), los residuos ( ) tambin tienen una distribucin normal con media 0 y varianza desco
simplemente, contrastar este extremo.

Al conjunto de tcnicas que se usan para ello se le denomina anlisis de los residuos.

El anlisis de los residuos consiste, por tanto, en contrastar que , i=1,...,n provienen de una pobla
con media 0 y varianza 2 con las pruebas habituales de ji-cuadrado, Kolmogorov-Smirnov.

Hay que tener en cuenta que de este modo se estn contrastando globalmente todas las asunciones
consiguiente, una falta de normalidad de los residuos puede ser debida tambin a que el modelo sea
a existencia de heterocedasticidad.

Teniendo en cuenta que (n-(k+1))s2/ 2 se distribuye como una ji-cuadrado con (n-(k+1)) grados de
variable

llamada residuo normalizado tendr una distribucin t de Student con (n-(k+1)) grados de libertad, q
valores de n suficientemente grandes se puede aproximar a una normal reducida (de media cero y va
a menudo, se contrasta la distribucin de esta variable en lugar de el residuo.

Adems de estas pruebas de significacin para asegurar que globalmente se cumplen las asunciones
es til realizar un anlisis grfico de los mismos que permite discriminar entre distintas violaciones de
Si se representara en una grfica bidimensional los residuos observados (eje Y) para cada una de las
variables Y|x1,...,xk (eje X) y se cumplieran las asunciones se observara una nube de puntos en dire
horizontal y con anchura constante (la media de cada x1,...,xkdebera ser cero y tener todas la misma
Como para cada variable Y|x1,...,xk el modelo produce la misma estimacin una grfica de los residuo
valores predichos tendr el mismo aspecto (fig. A).

Si se viola la linealidad se observar una falta de linealidad tambin en los residuos (fig. B), si se vio
homoscedasticidad, la anchura de la banda no ser constante (fig. C), una relacin lineal entre los re
predicciones puede indicar que alguna variable no incluida en el modelo puede ser significativa (fig. D

You might also like