You are on page 1of 10

REGRESIN

INTRODUCCIN
REGRESIN DE LA MEDIA
REGRESIN MNIMO-CUADRTICA
REGRESIN LINEAL
RECTA DE REGRESIN Y/X
RECTA DE REGRESIN X/Y
COEFICIENTES DE REGRESIN
RESIDUOS
BONDAD DEL AJUSTE
VARIANZA RESIDUAL
VARIANZA DE LA REGRESIN
COEFICIENTE DE DETERMINACIN
REGRESIN MNIMO CUADRTICA NO-LINEAL
REGRESIN POTENCIAL
REGRESIN PARABLICA
REGRESIN EXPONENCIAL

INTRODUCCIN

En el marco del anlisis estadstico multidimensional interesa, en gran medida,


descubrir la interdependencia o la relacin existente entre dos o ms de las
caractersticas analizadas.

La dependencia entre dos ( o ms ) variables puede ser tal que se base en una relacin
funcional (matemtica ) exacta, como la existente entre la velocidad y la distancia
recorrida por un mvil; o puede ser estadstica. La dependencia estadstica es un tipo de
relacin entre variables tal que conocidos los valores de la ( las) variable (variables )
independiente(s) no puede determinarse con exactitud el valor de la variable
dependiente, aunque si se puede llegar a determinar un cierto comportamiento (global)
de la misma. (Ej . : la relacin existente entre el peso y la estatura de los individuos de
una poblacin es una relacin estadstica) .

Pues bien, el anlisis de la dependencia estadstica admite dos planteamientos ( aunque


ntimamente relacionados) :

El estudio del grado de dependencia existente entre las variables que queda recogido
en la teora de la correlacin.

La determinacin de la estructura de dependencia que mejor exprese la relacin, lo que


es analizado a travs de la regresin .

Una vez determinada la estructura de esta dependencia la finalidad ltima de la


regresin es llegar a poder asignar el valor que toma la variable Y en un individuo del
que conocemos que toma un determinado valor para la variable X (para las
variablesX1,X2,..., Xn ).

1
J.lejarza & I.Lejarza
En el caso bidimensional, dadas dos variables X e Y con una distribucin conjunta de
frecuencias ( xi, yj ,nij ), llamaremos regresin de Y sobre X ( Y/X) a una funcin que
explique la variable Y para cada valor de X, y llamaremos regresin de X sobre Y
(X/Y) a una funcin que nos explique la variable X para cada valor de Y.(Hay que
llamar la atencin, como se ver ms adelante, que estas dos funciones, en general, no
tienen por qu coincidir).

REGRESIN DE LA MEDIA.

La primera aproximacin a la determinacin de la estructura de dependencia entre una


variable Y y otra u otras variables X (X1,X2,..., Xn) es la llamada regresin de la media
(regresin I) (regresin en sentido estricto).

Consideremos el caso bidimensional:

Regresin Y/X (en sentido estricto) (de la media).

Consistir en tomar como funcin que explica la variable Y a partir de la X a una


funcin que para cada valor de X , xi, le haga corresponder (como valor de Y ) el valor
de la media de la distribucin de Y condicionada a xi .La funcin de regresin quedara
explicitada por el conjunto de puntos: ( xi ,y/xi ).

Regresin X/Y (en sentido estricto) (de la media).

Consistir en tomar como funcin que explica la variable X a partir de la Y a una


funcin que para cada valor de Y , yj, le haga corresponder (como valor de X ) el valor

2
J.lejarza & I.Lejarza
de la media de la distribucin de X condicionada a Yj .La funcin de regresin quedara
explicitada por el conjunto de puntos: ( x/yj ,yj ).

REGRESIN MNIMO-CUADRTICA

Consiste en explicar una de las variables en funcin de la otra a travs de un


determinado tipo de funcin (lineal, parablica, exponencial, etc.), de forma que la
funcin de regresin se obtiene ajustando las observaciones a la funcin elegida,
mediante el mtodo de Mnimos-Cuadrados (M.C.O.).

Elegido el tipo de funcin ( ) la funcin de regresin concreta se obtendr

minimizando la expresin:

l k


i =1 j =1
(yj - (xi ) ) 2. nij en el caso de la regresin de Y/X

l k


i =1 j =1
(xi - (yj ) ) 2. nij en el caso de la regresin de X/Y

Puede probarse que es equivalente ajustar por mnimos cuadrados la totalidad de las
observaciones (toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por
la regresin de la media; de forma que la regresin mnimo-cuadrtica viene ser, en
cierto modo, la consecucin de una expresin analtica operativa para la regresin en
sentido estricto.

3
J.lejarza & I.Lejarza
REGRESIN LINEAL A pesar de la sencillez de las funciones lineales tiene una
importancia fundamental. La regresin ser lineal cuando la funcin de ajuste
seleccionada sea una funcin lineal, una recta, se habla tambin de recta de regresin.

Recta de regresin de Y/X (M.C.O)

Pretendemos obtener como funcin de regresin que nos explique la variable Y en


funcin de los valores de X una funcin lineal, con el criterio de que minimice los
l k
cuadrados de las diferencias entre los valores reale s y los tericos (segn la
i =1 j =1

regresin).

La funcin de regresin a obtener es y* = a + b X con la pretensin de que


l k


i =1 j =1
(yj - (a+b xi) ) 2.nij sea mnima .

Habr que encontrar los valores de los parmetros a y b que minimizan esa expresin.
Es decir que anulan simultneamente las derivadas parciales de la funcin:

l k
(a,b)=
i =1 j =1
(yj - (a+b xi) ) 2.nij: (Sistema de ecuaciones normales)

l k

a
=0 2 e =0
i =1 j =1
(yj -a-b xi ) . nij (-1)= 0

l k l k
=0 2[ yj -a-b xi ) . nij ].[- xi nij ] = 0
b i =1 j =1 i =1 j =1

l k l k l k

i =1 j =1
yj nij =a nij +b
i =1 j =1

i =1 j =1
xi nij
l k l k l k

i =1 j =1
yj xi nij = a xi nij +b
i =1 j =1
i =1 j =1
xi2 nij

(*1)

restando la segunda ecuacin por la primera multiplicada por -x, quedar:

4
J.lejarza & I.Lejarza
Sxy=b S2x (*2)

de forma que de (*1) y de (*2) se concluye que los valores de a y b que minimizan los
cuadrados de los residuos y que, por tanto son los parmetros del ajuste mnimo-
cuadrtico sern:

La ecuacin de la recta de regresin Y/X quedar, por lo tanto como:

De (*1) , o de la propia ecuacin de la recta se deduce que la recta de regresin de


Y/X pasa por el centro de gravedad de la distribucin .

Otra expresin alternativa de la recta de regresin de regresin Y/X es:

Recta de regresin de X /Y (M.C.O)

Pretendemos obtener, ahora la regresin lineal que nos explique la variable X en


funcin de los valores de Y.El procedimiento de obtencin ser, en todo anlogo, al
anterior, pero ahora la funcin de regresin a obtener ser:

x* = a' + b' Y con la pretensin de que:

l k


i =1 j =1
(xi - (a'+b' yj) ) 2.nij sea mnima .

Habr que encontrar los valores de los parmetros a' y b' que minimizan esa expresin
.Es decir que anulan simultneamente las derivadas parciales de la funcin:

l k
(a' , b' )= (xi - (a'+b' yj) ) 2.nij : (Sistema de ecuaciones normales)
i =1 j =1

5
J.lejarza & I.Lejarza
l k
=0 2 (xi -a'-b' yj ) . nij (-1)= 0
a i =1 j =1

l k l k
=0 2 [ xi -a'-b' yj ) . nij ].[- yj nij ] = 0
b i =1 j =1 i =1 j =1

l k l k l k


i =1 j =1
xi nij =a' nij +b'
i =1 j =1

i =1 j =1
yj nij
l k l k l k


i =1 j =1
yj xi nij = a
i =1 j =1
xi nij +b xi2 nij
i =1 j =1

(*1')

restando la segunda ecuacin por la primera multiplicada por -y,


quedar:

Sxy=b' S2y (*2')

de forma que de (*1') y de (*2') se concluye que los valores de a' y b'que minimizan los
cuadrados de los residuos y que, por tanto son los parmetros del ajuste mnimo-
cuadrtico sern:

La ecuacin de la recta de regresin Y/X quedar, por lo tanto


como:

De (*1) , o de la propia ecuacin de la recta se deduce que la recta de regresin de Y/X


pasa por el centro de gravedad de la distribucin .

6
J.lejarza & I.Lejarza
Otra expresin alternativa de la recta de regresin de regresin Y/X es:

Coeficientes de regresin

Se llama coeficiente de regresin a la pendiente de la recta de regresin:

en la regresin Y/X : b = Sxy / Sx2

en la regresin X/Y b' = Sxy / Sy2

El signo de ambos coincidir con el de la covarianza, indicndonos la tendencia (directa


o inversa a la covariacin).Es interesante hacer notar que b.b'= r2

Nota.

Realizada la regresin (por ejemplo la Y/X, aunque ocurre igual con la X/Y),

podemos considerar el resultado obtenido Y* como una variable (que se obtiene en


funcin de los valores de X) (variable regresin) de manera que:

Y* es tal que y*i = a + b xi

Puede igualmente considerarse otra variable e (llamada residuo) que resulta ser,
precisamente la diferencia entre el valor real de la variable regresando (Y) y el valor
terico de la regresin (Y*):

ei=yi-y*i

De el resultado de la recta de regresin es obvio que la media de la variable regresin


*
coincide con la media de la variable regresando: y = y
.

Y de este resultado se deduce que la media de los residuos o errores es cero e = 0 .

Adems es sencillo probar que las variables regresin y residuo estn incorrelacionadas
y por tanto:

7
J.lejarza & I.Lejarza
BONDAD DEL AJUSTE (Varianza residual, varianza de la regresin y coeficiente
de determinacin)

Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los
datos originales y los valores tericos que se obtienen de la regresin. Obviamente
cuanto mejor sea el ajuste, ms til ser la regresin a la pretensin de obtener los
valores de la variable regresando a partir de la informacin sobre la variable regresora

Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una
regresin de un determinado tipo u otro.

Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste
(no puede ser el error medio) ser el error cuadrtico medio, o varianza del residuo, o
varianza residual :

Considerando la regresin Y/X:

Que ser una cantidad mayor o igual que cero.De forma que cuanto ms baja sea mejor
ser el grado de ajuste. Si la varianza residual vale cero el ajuste ser perfecto (ya que
no existir ningn error ).

Del hecho de que yi=y*i+ei ,y de que las variables y* e estn


incorrelacionadas se tiene que:

Donde S2y* es la llamada varianza de la regresin y supone la varianza de


la variable regresin:

Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y


puede descomponerse en dos partes una parte explicada por la regresin( la varianza de
la regresin) y otra parte no explicada (la varianza residual).

Considerando que la varianza nos mide la dispersin de los datos este hecho hay que
entenderlo como que la dispersin total inicial queda, en parte explicada por la regresin
y en parte no.Cuanto mayor sea la proporcin de varianza explicada (y menor la no
explicada) tanto mejor ser el ajuste y tanto ms til la regresin.

8
J.lejarza & I.Lejarza
A la proporcin de varianza explicada por la regresin se le llama coeficiente de
determinacin ( en nuestro caso lineal):
S y2* S y2*
R =
2
R =
2
S2 S2
que evidentemente estar siempre comprendido entre 0 y 1 y, en consecuencia, da
cuenta del tanto por uno explicado por la regresin.

Una consecuencia importante en la prctica es que la varianza residual ser obviamente:

Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinacin
coincide con el cuadrado del coeficiente de correlacin: R2 = r2

Con lo cual la varianza residual y la varianza debida a la regresin pueden calcularse a


partir del coeficiente de correlacin:

REGRESIN MNIMO CUADRTICA NO-LINEAL

La regresin mnimo-cuadrtica puede plantearse de forma que la funcin de ajuste se


busca no sea una funcin lineal. El planteamiento general sera similar, aunque
obviamente habra que minimizar el cuadrado de los residuos entre los datos originales
y los valor tericos obtenibles a travs de la funcin no-lineal considerada.

Regresin parablica .Desarrollaremos someramente la regresin Y/X y debe quedar


claro que la regresin X/Y resultara anloga.

Supongamos para simplificar que los datos no estn agrupados por frecuencias.

En tal caso, obtener la funcin parablica y* = a0+a1x+a2 x2 se llevar a cabo


determinado los valores de los tres parmetros a0,a1,a2 que minimicen :

(a0,a1,a2)= (yi- (a0+a1x+a2 x2)) 2

Igualando a cero las tres derivadas parciales se obtendr las ecuaciones normales, que
convenientemente manipuladas acaban siendo:

9
J.lejarza & I.Lejarza
k l l

j=1
yj =N a0 + a1
i=1
xi + a2 xi2
i=1
l k l l l


i =1 j =1
yjxi = a0
i=1
xi + a1
i=1
x + a2 xi3
i
2

i=1
l k l l l

i =1 j =1
yjxi2 = a0
i=1
xi2 + a1 xi3 + a2 xi4
i=1 i=1

Sistema de ecuaciones del que se pueden despejar los valores de los coeficientes de
regresin.

Regresin exponencial

Ser aquella en la que la funcin de ajuste ser una funcin exponencial del tipo

y = a.bx

La regresin exponencial aunque no es lineal es linealizable tomando logaritmos ya que


haciendo el cambio de variable
v = log y tendremos que la funcin anterior nos generara:

v = log y = log( a.bx) = log a + x log b

la solucin de nuestro problema vendra de resolver la regresin lineal entre v x, y una


vez obtenida supuesta sta:
v* = A + B x ; obviamente la solucin final ser:

a = antilog A y b = antilog B.

Regresin potencial.

Ser aquella en la que la funcin de ajuste sea una funcin potencial del tipo:

y = a. xb

tambin en este caso se resuelve linealizando la funcin tomando logaritmos ya que:

log y = log a + b log x

Considerando las nuevas variables v = log y u= log x resolveramos la regresin lineal


entre ellas de forma que si el resultado fuera: v*= A +B u

La solucin final quedara como a= antilog A y b= B

10
J.lejarza & I.Lejarza

You might also like