You are on page 1of 68

Correlacin.

En el estudio de la relacin estadstica de


dos variables, interesa particularmente el
grado de asociacin lineal entre ellas. Una
medida de este grado de asociacin es el
coeficiente de correlacin:

Para una muestra de tamao n, el


coeficiente de correlacin muestral de
Pearson (recordar que existen otros) est
dado por:
Este coeficiente vara entre -1 y 1.
En el caso que la distribucin conjunta de
las variables NO sea normal bivariada se
podr obtener el coeficiente de
correlacin de Spearman, que
simplemente es la correlacin entre los
rangos de los datos (aqu los rangos se
asignan en forma independiente a cada
conjunto de datos).

Observe y comente los siguientes


diagramas de dispersin, aparece el
coeficiente de correlacin estimado y su
BIVARIADO.
Los diagramas de dispersin no slo
muestran la relacin existente entre
variables, sino tambin resaltan las
observaciones individuales que se
desvan de la relacin general. Estas
observaciones son conocidas como
outliers o valores inusitados, que son
puntos de los datos que aparecen
separados del resto.

En que se debe poner atencin:


puntos atpicos,
Correlacin y Regresin
Lineal.
Es de inters en muchos problemas prcticos hallar
la relacin entre dos o ms variables, medir el grado
de tal relacin y ver si existe algn tipo de
causalidad.
En general, en este tipo de situaciones, los datos
consisten en dos tipos de variables, medidas para
cada uno de los n individuos (objetos, plantas,
ciudades, etc.) de la muestra.
Sean Y y X dos variables que
representan alguna caracterstica de
una poblacin y supongamos que
estamos interesados:
en explicar Y en trminos de X o
en estudiar cmo vara Y ante variaciones
en X o
simplemente determinar si X no ayuda a
explicar el comportamiento de Y.
Por ejemplo:
Y=cosecha de trigo X=cantidad de abono

Y=salario-hora X=aos de estudio

Y=ventas X=gastos en publicidad

Y=gasto en un bien X=gasto total

Nombres habituales:
X: entrada independiente -
exgena
Y: salida - dependiente - endgena
El Modelo de Regresin Lineal establece
una relacin entre ambas variables a
travs de la ecuacin:
Y=f(x)+
donde
f(x) = E(Y/X=x) = 0+1x

funcin lineal
Regresin Lineal?
Y= 0+1x +
parmetros
poblacionales

Trmino de error o perturbacin inobservable.


Representa los factores que influyen en Y adems
de x, el componente aleatorio de Y que no viene
explicado por 0+1x .
Por ejemplo:

Si Y=salario y X=aos-estudio, entonces el


trmino de error puede recoger factores
cmo:
experiencia laboral,
habilidad,
antigedad en la empresa, etc.

Si Y=cosecha y X=abono, entonces el


trmino de error puede recoger factores
cmo:
calidad de la tierra,
Se debe de tener cuidado pues podemos
tener dos variables que pueden estar
relacionadas entre si y que sin embargo no
hay una relacin de causalidad entre ellas
(en ningn sentido), por ejemplo venta de
zapallo y venta de zapatos.
usos.
El anlisis de regresin fue primero
desarrollado por Sir Francis Galton (siglo 19).
El anlisis de regresin tiene cuatro
propsitos, que generalmente se traslapan en
la prctica:

describir, controlar, predecir y


seleccionar

Recordar que la existencia de una relacin


estadstica entre la variable Y y la variable X
no necesariamente implica que exista alguna
Existen muchos paquetes que realizan los
tediosos clculos que conlleva un anlisis
de regresin, en este curso trabajaremos
principalmente con SAS, SPSS, InfoStat y
Statistica (los dos ltimos de menu).
Modelos de Regresin Lineal
Simple con distribucin del error
normal.
Y i = 0 + 1 X i + i
donde:
Yi es la respuesta de la variable en el i-simo ensayo,
0 y 1 son los parmetros,
Xi es una constante conocida correspondiente al
valor de la variable predictora en el i-simo ensayo.
i son independientes con distribucin N(0,), para cada
i=1, , n.

Lo anterior implica inmediatamente que Yi son variables


aleatorias con distribucin normal con media 0+1X y
varianza .
Significado de los parmetros de
regresin o coeficientes de regresin.
1 es la pendiente de la recta de regresin (slope) e
indica el cambio promedio de la distribucin de
probabilidad de Y por unidad que incrementa X.

0 es el intercepto de la recta de regresin y tiene


sentido interpretarlo cuando la variable
predictora toma el valor 0, en este caso indica el
valor promedio de la variable respuesta cuando la
variable predictora vale 0.
Datos en el anlisis de
regresin.
A partir de los datos obtenidos es que podremos
estimar los valores de 0 y 1.

Los datos pueden ser obtenidos a partir de estudios


experimentales (este es el caso de cuando
nosotros decidimos los valores que tomarn las
variables de entrada, por ejemplo en un diseo
completamente aleatorio) o no experimentales
(datos observacionales).
En el caso de regresin lineal simple tendremos
que (Xi, Yi) denota la observacin del i-simo
ensayo, donde i=1,,n.
24

22

20

18

16

14

12
y

10

0
0 2 4 5 7
x
Estimacin de la funcin de
regresin.
El mtodo ms usado para hacer la estimacin es el de mnimos
cuadrados y consiste en minimizar la suma de cuadrados de los
errores, con respecto a los parmetros, as de (1) tenemos
i=Yi(0+1Xi)
n
Q 0 , 1 i2 (Yi 0 1 X i ) 2
i 1

Luego los estimadores de 0 y 1 son aquellos valores b0 y b1,


respectivamente que minimizan Q para la muestra de observaciones
(x1,y1), (x2,y2), , (xn,yn).

Antes de proseguir observemos que


.
Derivando parcialmente Q, con respecto a b 0 y b1 e igualando a cero
se obtienen las ecuaciones normales:
Observacin.
Se obtiene el valor esperado del error
(recordar que el error es no observable)
cuando hacemos la diferencia entre el valor
observado y el estimado, este valor es
llamado residuo y generalmente es
denotado por la letra e.
Otro mtodo utilizado para estimar los parmetros del
modelo es el de mxima verosimilitud, que en el caso de
cumplirse que los errores son variables aleatorias con
distribucin normal, con media cero y varianza ,
coinciden con los obtenidos por EMC (suficientes). Este
mtodo adems permite obtener una estimacin de

La funcin de verosimilitud est dada por:


n
L 0 , 1 , 2 f ( yi 0 1 xi )
i 1
funcin de densidad de una N(0,2).
Estimacin puntual de la
respuesta media
Dadas las estimaciones b0, b1 de los parmetros de la funcin
de regresin (3), E(Y/X)=0+1X se tiene que la funcin de
regresin estimada estYdada
por:
X
0 1

donde el es el valor de la funcin de regresin ajustada a


nivel de X en la variable predictora.

A E(Y) le llamaremos tambin respuesta media, as la respuesta


media es la distribucin de probabilidades de Y correspondiente
al nivel X de la predictora.

Del teorema de Gauss-Markov se sigue que es un estimador


insesgado de E(Y), con varianza mnima dentro de la clase de
estimadores lineales insesgados.
Denotaremos por:

el valor de en el i-simo ensayo o caso.

Observacin. Es importante distinguir entre el valor observado


y el estimado.
Observar que el residuo corresponde a la diferencia entre el
valor observado y el ajustado:
i ei Yi Yi
y el error corresponde a:
i Yi ( 0 1 X i ) Yi E (Yi )
Estimacin de la varianza del error.
Con el objetivo de obtener un indicador de la variabilidad de la
distribucin de probabilidades de Y necesitamos tener un valor que
estime la varianza del error, (ver pg.25).

Un estimador insesgado de la varianza del error, , est dado por el


cuadrado medio del error (CME) :

n n

e Yi Y
2 2
i
SCE i 1
CME i 1

n2 n2 n2

Se puede verificar que Var(CME)= .


Observar que el estimador de la varianza por el mtodo de MV NO es
Descomposicin de la suma de cuadrados
total.

24 24
22 22
20 20
18 18
16 16
14 14
12 12
Y

Y
10 10
8 8
6 6
4 4
2 2
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
X X
Descomposicin ...
Observar que se tiene la siguiente igualdad:

Y Y Y Y Y Y
i i i i

Es fcil verificar que:

Y Y
n n n

Y Y
2 2
Yi Yi
2
i i
i 1 i 1 i 1 EJERCICIO

SC totales SC residuales SC regresin o


modelo 2
R mide la bondad del ajuste para el
Observaciones
El coeficiente de determinacin, R2, es el cuociente
entre la suma de cuadrados del modelo (o de la
regresin) y la suma de cuadrados totales.
(100R2)% se interpreta como el porcentaje de
variabilidad de Y, explicado por X (porcentaje de la
variacin en la variable respuesta que puede ser
explicada a partir de las variaciones postuladas por el
modelo).
Qu ser 1-R2?.
Qu valor de R2 es recomendado?
Observar que en el caso de regresin simple R 2
corresponde a la correlacin entre X e Y al cuadrado.
Tabla de Anlisis de Varianza

Esto no aparece en las tablas de ANOVA que entregan los paquetes


computacionales, es para que se recuerden del por qu utilizamos el
cuociente.
Observar que el test F es idntico al test T para el parmetro 1.
Observar que algunos software incluyen el intervalo de
confianza para los parmetros.
Salidas de InfoStat.
Identifique cada componente de las siguientes
tablas.
Bandas de Confianza y bandas de
prediccin.
30 30

25 25

20 20

15 15
y

y
10 10

5 5

0 0

-5 -5
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
x x
Anlisis de Residuos
Los residuos son estimaciones de los errores del
modelo, con ellos verificaremos los supuestos sobre
los errores, si estos no se cumplen nos ayudarn a
explorar el por qu del mal ajuste del modelo.
Si la distribucin de los errores es normal y sin
outliers.
Si la varianza de los errores es constante y si se

requieren transformaciones de las variables.


Si la relacin entre las variables es efectivamente

lineal o presenta algn tipo de curvatura.


Si hay dependencia de los errores, especialmente

en el caso de que la variable predictora sea


i
Anlisis de Residuosei Yi Y
La funcin de regresin no es lineal. Diagrama de
dispersin X versus Y.
El trmino del error no tiene varianza constante. Diagrama
de dispersin de los valores predichos, Y i versus los
residuos.
Grfico de los predichos versus los residuos,
ayudan a detectar heterocedasticidad en la
varianza ( valor absoluto de los residuos o residuos al
cuadrado).
Test usados en econometra son: test de Park, test de
Goldfeld y Quandt, test de Breusch-Pagan-Godfrey, test de
White, test de Levene modificado.
Normalidad de los errores. Se estudia la
normalidad de los residuos estundentizados
utilizando mtodos grficos (grfico de cajas,
histograma, y los grficos p-p y q -q) y los
contrastes de normalidad (asimetra y curtosis, chi-
cuadrado y Kolmogoroff-Smirnoff-Lilliefors).

Si mediante un determinado test se rechaza la


normalidad de los errores, entonces se aconseja
utilizar los mtodos grficos mencionados para
detectar el problema.
Tambin se debe observar el grfico de los residuos
vs la predictora, X.
El modelo se ajusta a todas excepto una o varias
observaciones atpicas. Diagrama de dispersin
de valores estimados versus residuos
estandarizados.
Los trminos del error no son independientes.
Diagrama de dispersin del tiempo versus
residuos. Cuando la variable predictora es el tiempo,
puede que suceder que los errores estn correlacionados
secuencialmente.
Independencia de los errores: Grfico tiempo
versus residuos. Test de Durbin-Watson.

Yt = 0 + 1 Xt + t
t = t-1 + ut

Donde es un parmetro tal que ||<1 y ut son


independientes N(0, se denomina parmetro de
autocorrelacin.
Propiedades del trmino del error.
E(t)=0 Var(t)= Cov(t,t-1)=

Cor(t,t-1)= Cor(t,t-s)= s
Test de Durbin-Watson
Yt=0+1Xt+t
t = t-1 + ut

H0: =0 vs H1: >0


El estadstico de prueba D, es obtenido por mnimos
cuadrados considerando los residuos como:

Diagnstico.
Grfico de residuos versus variables predictoras.
Grfico de residuos absolutos o cuadrticos versus variables
predictoras.
Grficos de residuos versus valores ajustados (estimados).
Grficos de residuos versus tiempo u otra secuencia.
Grfico de residuos versus variables predictoras omitidas en el
modelo.
Box-plot de los residuos.
Grfico normal de probabilidades de los residuos.
Lineales
Casos
Regresin polinomial.
k variables predictoras.
Variables cualitativas (ejemplo sexo,
categora nutricional).
Transformar variables.
Efecto de interaccin.
Combinacin de casos.
REGRESION LOGISTICA.
Regresin Lineal Mltiple.
La regresin lineal mltiple trata de explicar el
comportamiento de la variable respuesta con
ms de una variable predictora a travs de
una funcin lineal.
Algunas alternativas para mejorar un modelo
cuando se tiene una sola variable predictora
son:
Transformar la variable predictora, o la variable
de respuesta Y, o ambas y usar luego un modelo
lineal.
Usar regresin polinmica con una variable
predictora.
Otra alternativa es conseguir ms
variables de entrada y realizar una
regresin lineal mltiple.

El modelo de regresin lineal mltiple


con p variables y basado en n
observaciones es de la forma

yi 0 1 xi1 2 xi 2 ... k xik i


Cuntos modelos es posible
formar?

Si tenemos X1, X2, ..., Xk posibles variables


independientes para representar Y.

2
K

4, 23=8, 24=16, 25=32, 26=64, 27=128,


8
Lineal en los
parmetros

El modelo de regresin lineal mltiple con p variables


y basado en n observaciones es de la forma
yi 0 1 xi1 2 xi 2 ... k xik i

para i=1,,n. Luego podemos escribirlo como


As en forma matricial tenemos

y1 1 x11 x12 x1k 0


y 1 0
2 x21 x22 x2 k 1
1



k
yn 1 xn1 xn 2 xnk n

Y X
Los supuestos para obtener estimadores de los
parmetros son que E()=0 y Var( )=2In. Es inmediato
que E(Y)=X y Var(Y)=2In.
Estimacin por mnimos
cuadrados.
Como en el caso univariado minimizaremos la
suma de los errores al cuadrado:
n
Q( ) i2 ' (Y X )' (Y X )
i 1

Q( ) (Y ' ' X ' )(Y X ) Y 'Y Y ' X ' X 'Y ' X ' X

Q( ) Y 'Y 2 ' X 'Y ' X ' X

Antes de proseguir haremos un pequeo


recuerdo de derivada de vectores y matrices.
Parntesis Derivadas de vectores y
matrices.
1. Sean X y A dos vectores de px1 y Z=X'A=A'X,
entonces la derivada de Z respecto del vector X est
dado por:

2. Sea A un vector de px1, B un vector de qx1 y X


una matriz de orden pxq, X=(xij). Sea adems
Z=A'XB entonces
Parntesis Derivadas de vectores y
matrices.
3. Sea X un vector de px1, A una matriz simtrica de
orden p, y sea Z=X'AX, entonces

4. Sea X un vector de px1, A una matriz simtrica de


orden p tal que Z=X'AX entonces
Q( ) Y 'Y 2 ' X 'Y ' X ' X

As XX=XY se obtiene que


( X ' X ) X 'Y
1
Para k variables.
Resumen

H 0 : 1 2 ... k 0
H1: no todos los i son ceros, i=1,,k.
o al menos unos de los coeficientes es
distinto de cero.
El coeficiente de determinacin mltiple est
dado por:
SC R SCE
R
2
1
SCT SCT

Dado que este valor siempre aumenta cuando


ingresa una nueva variable al modelo se
considera un R cuadrado ajustado, que penaliza la
inclusin de una nueva variable en el modelo.
n 1 SCError
Raj 1
2

n (k 1) SCT

Se acostumbra a denominar coeficiente de


correlacin mltiple a la raz positiva de R 2.
INFOSTAT
|
Corr(Edad, Peso)=0,1548 valor-p=0,2040

Corr(Peso, Estatura)=0,7512, valor-


p=0,0000

You might also like