Bioestadistica Clase 07 Correlacion y Regresion Lineal Simple

Correlacin.
En el estudio de la relacin estadstica de

dos variables, interesa particularmente el
grado de asociacin lineal entre ellas. Una
medida de este grado de asociacin es el
coeficiente de correlacin:
Para una muestra de tamao n, el

coeficiente de correlacin muestral de
Pearson (recordar que existen otros) est
dado por:
Este coeficiente vara entre -1 y 1.
En el caso que la distribucin conjunta de
las variables NO sea normal bivariada se
podr obtener el coeficiente de
correlacin de Spearman, que
simplemente es la correlacin entre los
rangos de los datos (aqu los rangos se
asignan en forma independiente a cada
conjunto de datos).
Observe y comente los siguientes

diagramas de dispersin, aparece el
coeficiente de correlacin estimado y su
BIVARIADO.
Los diagramas de dispersin no slo
muestran la relacin existente entre
variables, sino tambin resaltan las
observaciones individuales que se
desvan de la relacin general. Estas
observaciones son conocidas como
outliers o valores inusitados, que son
puntos de los datos que aparecen
separados del resto.
En que se debe poner atencin:

puntos atpicos,
Correlacin y Regresin
Lineal.
Es de inters en muchos problemas prcticos hallar
la relacin entre dos o ms variables, medir el grado
de tal relacin y ver si existe algn tipo de
causalidad.
En general, en este tipo de situaciones, los datos
consisten en dos tipos de variables, medidas para
cada uno de los n individuos (objetos, plantas,
ciudades, etc.) de la muestra.
Sean Y y X dos variables que
representan alguna caracterstica de
una poblacin y supongamos que
estamos interesados:
en explicar Y en trminos de X o
en estudiar cmo vara Y ante variaciones
en X o
simplemente determinar si X no ayuda a
explicar el comportamiento de Y.
Por ejemplo:
Y=cosecha de trigo X=cantidad de abono
Y=salario-hora X=aos de estudio
Y=ventas X=gastos en publicidad
Y=gasto en un bien X=gasto total
Nombres habituales:
X: entrada independiente -
exgena
Y: salida - dependiente - endgena
El Modelo de Regresin Lineal establece
una relacin entre ambas variables a
travs de la ecuacin:
Y=f(x)+
donde
f(x) = E(Y/X=x) = 0+1x
funcin lineal
Regresin Lineal?
Y= 0+1x +
parmetros
poblacionales
Trmino de error o perturbacin inobservable.

Representa los factores que influyen en Y adems
de x, el componente aleatorio de Y que no viene
explicado por 0+1x .
Por ejemplo:
Si Y=salario y X=aos-estudio, entonces el

trmino de error puede recoger factores
cmo:
experiencia laboral,
habilidad,
antigedad en la empresa, etc.
Si Y=cosecha y X=abono, entonces el

trmino de error puede recoger factores
cmo:
calidad de la tierra,
Se debe de tener cuidado pues podemos
tener dos variables que pueden estar
relacionadas entre si y que sin embargo no
hay una relacin de causalidad entre ellas
(en ningn sentido), por ejemplo venta de
zapallo y venta de zapatos.
usos.
El anlisis de regresin fue primero
desarrollado por Sir Francis Galton (siglo 19).
El anlisis de regresin tiene cuatro
propsitos, que generalmente se traslapan en
la prctica:
describir, controlar, predecir y

seleccionar
Recordar que la existencia de una relacin

estadstica entre la variable Y y la variable X
no necesariamente implica que exista alguna
Existen muchos paquetes que realizan los
tediosos clculos que conlleva un anlisis
de regresin, en este curso trabajaremos
principalmente con SAS, SPSS, InfoStat y
Statistica (los dos ltimos de menu).
Modelos de Regresin Lineal
Simple con distribucin del error
normal.
Y i = 0 + 1 X i + i
donde:
Yi es la respuesta de la variable en el i-simo ensayo,
0 y 1 son los parmetros,
Xi es una constante conocida correspondiente al
valor de la variable predictora en el i-simo ensayo.
i son independientes con distribucin N(0,), para cada
i=1, , n.
Lo anterior implica inmediatamente que Yi son variables

aleatorias con distribucin normal con media 0+1X y
varianza .
Significado de los parmetros de
regresin o coeficientes de regresin.
1 es la pendiente de la recta de regresin (slope) e
indica el cambio promedio de la distribucin de
probabilidad de Y por unidad que incrementa X.
0 es el intercepto de la recta de regresin y tiene

sentido interpretarlo cuando la variable
predictora toma el valor 0, en este caso indica el
valor promedio de la variable respuesta cuando la
variable predictora vale 0.
Datos en el anlisis de
regresin.
A partir de los datos obtenidos es que podremos
estimar los valores de 0 y 1.
Los datos pueden ser obtenidos a partir de estudios

experimentales (este es el caso de cuando
nosotros decidimos los valores que tomarn las
variables de entrada, por ejemplo en un diseo
completamente aleatorio) o no experimentales
(datos observacionales).
En el caso de regresin lineal simple tendremos
que (Xi, Yi) denota la observacin del i-simo
ensayo, donde i=1,,n.
24
22
20
18
16
14
12
y
10
0
0 2 4 5 7
x
Estimacin de la funcin de
regresin.
El mtodo ms usado para hacer la estimacin es el de mnimos
cuadrados y consiste en minimizar la suma de cuadrados de los
errores, con respecto a los parmetros, as de (1) tenemos
i=Yi(0+1Xi)
n
Q 0 , 1 i2 (Yi 0 1 X i ) 2
i 1
Luego los estimadores de 0 y 1 son aquellos valores b0 y b1,

respectivamente que minimizan Q para la muestra de observaciones
(x1,y1), (x2,y2), , (xn,yn).
Antes de proseguir observemos que

.
Derivando parcialmente Q, con respecto a b 0 y b1 e igualando a cero
se obtienen las ecuaciones normales:
Observacin.
Se obtiene el valor esperado del error
(recordar que el error es no observable)
cuando hacemos la diferencia entre el valor
observado y el estimado, este valor es
llamado residuo y generalmente es
denotado por la letra e.
Otro mtodo utilizado para estimar los parmetros del
modelo es el de mxima verosimilitud, que en el caso de
cumplirse que los errores son variables aleatorias con
distribucin normal, con media cero y varianza ,
coinciden con los obtenidos por EMC (suficientes). Este
mtodo adems permite obtener una estimacin de
La funcin de verosimilitud est dada por:

n
L 0 , 1 , 2 f ( yi 0 1 xi )
i 1
funcin de densidad de una N(0,2).
Estimacin puntual de la
respuesta media
Dadas las estimaciones b0, b1 de los parmetros de la funcin
de regresin (3), E(Y/X)=0+1X se tiene que la funcin de
regresin estimada estYdada
por:
X
0 1
donde el es el valor de la funcin de regresin ajustada a

nivel de X en la variable predictora.
A E(Y) le llamaremos tambin respuesta media, as la respuesta

media es la distribucin de probabilidades de Y correspondiente
al nivel X de la predictora.
Del teorema de Gauss-Markov se sigue que es un estimador

insesgado de E(Y), con varianza mnima dentro de la clase de
estimadores lineales insesgados.
Denotaremos por:
el valor de en el i-simo ensayo o caso.
Observacin. Es importante distinguir entre el valor observado

y el estimado.
Observar que el residuo corresponde a la diferencia entre el
valor observado y el ajustado:
i ei Yi Yi
y el error corresponde a:
i Yi ( 0 1 X i ) Yi E (Yi )
Estimacin de la varianza del error.
Con el objetivo de obtener un indicador de la variabilidad de la
distribucin de probabilidades de Y necesitamos tener un valor que
estime la varianza del error, (ver pg.25).
Un estimador insesgado de la varianza del error, , est dado por el

cuadrado medio del error (CME) :

n n
e Yi Y
2 2
i
SCE i 1
CME i 1
n2 n2 n2
Se puede verificar que Var(CME)= .

Observar que el estimador de la varianza por el mtodo de MV NO es
Descomposicin de la suma de cuadrados
total.
24 24
22 22
20 20
18 18
16 16
14 14
12 12
Y
Y
10 10
8 8
6 6
4 4
2 2
0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
X X
Descomposicin ...
Observar que se tiene la siguiente igualdad:
Y Y Y Y Y Y
i i i i
Es fcil verificar que:
Y Y
n n n
Y Y
2 2
Yi Yi
2
i i
i 1 i 1 i 1 EJERCICIO
SC totales SC residuales SC regresin o

modelo 2
R mide la bondad del ajuste para el
Observaciones
El coeficiente de determinacin, R2, es el cuociente
entre la suma de cuadrados del modelo (o de la
regresin) y la suma de cuadrados totales.
(100R2)% se interpreta como el porcentaje de
variabilidad de Y, explicado por X (porcentaje de la
variacin en la variable respuesta que puede ser
explicada a partir de las variaciones postuladas por el
modelo).
Qu ser 1-R2?.
Qu valor de R2 es recomendado?
Observar que en el caso de regresin simple R 2
corresponde a la correlacin entre X e Y al cuadrado.
Tabla de Anlisis de Varianza
Esto no aparece en las tablas de ANOVA que entregan los paquetes

computacionales, es para que se recuerden del por qu utilizamos el
cuociente.
Observar que el test F es idntico al test T para el parmetro 1.
Observar que algunos software incluyen el intervalo de
confianza para los parmetros.
Salidas de InfoStat.
Identifique cada componente de las siguientes
tablas.
Bandas de Confianza y bandas de
prediccin.
30 30
25 25
20 20
15 15
y
y
10 10
5 5
0 0
-5 -5
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
x x
Anlisis de Residuos
Los residuos son estimaciones de los errores del
modelo, con ellos verificaremos los supuestos sobre
los errores, si estos no se cumplen nos ayudarn a
explorar el por qu del mal ajuste del modelo.
Si la distribucin de los errores es normal y sin
outliers.
Si la varianza de los errores es constante y si se
requieren transformaciones de las variables.

Si la relacin entre las variables es efectivamente
lineal o presenta algn tipo de curvatura.

Si hay dependencia de los errores, especialmente
en el caso de que la variable predictora sea

i
Anlisis de Residuosei Yi Y
La funcin de regresin no es lineal. Diagrama de
dispersin X versus Y.
El trmino del error no tiene varianza constante. Diagrama
de dispersin de los valores predichos, Y i versus los
residuos.
Grfico de los predichos versus los residuos,
ayudan a detectar heterocedasticidad en la
varianza ( valor absoluto de los residuos o residuos al
cuadrado).
Test usados en econometra son: test de Park, test de
Goldfeld y Quandt, test de Breusch-Pagan-Godfrey, test de
White, test de Levene modificado.
Normalidad de los errores. Se estudia la
normalidad de los residuos estundentizados
utilizando mtodos grficos (grfico de cajas,
histograma, y los grficos p-p y q -q) y los
contrastes de normalidad (asimetra y curtosis, chi-
cuadrado y Kolmogoroff-Smirnoff-Lilliefors).
Si mediante un determinado test se rechaza la

normalidad de los errores, entonces se aconseja
utilizar los mtodos grficos mencionados para
detectar el problema.
Tambin se debe observar el grfico de los residuos
vs la predictora, X.
El modelo se ajusta a todas excepto una o varias
observaciones atpicas. Diagrama de dispersin
de valores estimados versus residuos
estandarizados.
Los trminos del error no son independientes.
Diagrama de dispersin del tiempo versus
residuos. Cuando la variable predictora es el tiempo,
puede que suceder que los errores estn correlacionados
secuencialmente.
Independencia de los errores: Grfico tiempo
versus residuos. Test de Durbin-Watson.
Yt = 0 + 1 Xt + t
t = t-1 + ut
Donde es un parmetro tal que ||<1 y ut son

independientes N(0, se denomina parmetro de
autocorrelacin.
Propiedades del trmino del error.
E(t)=0 Var(t)= Cov(t,t-1)=
Cor(t,t-1)= Cor(t,t-s)= s
Test de Durbin-Watson
Yt=0+1Xt+t
t = t-1 + ut
H0: =0 vs H1: >0

El estadstico de prueba D, es obtenido por mnimos
cuadrados considerando los residuos como:
Diagnstico.
Grfico de residuos versus variables predictoras.
Grfico de residuos absolutos o cuadrticos versus variables
predictoras.
Grficos de residuos versus valores ajustados (estimados).
Grficos de residuos versus tiempo u otra secuencia.
Grfico de residuos versus variables predictoras omitidas en el
modelo.
Box-plot de los residuos.
Grfico normal de probabilidades de los residuos.
Lineales
Casos
Regresin polinomial.
k variables predictoras.
Variables cualitativas (ejemplo sexo,
categora nutricional).
Transformar variables.
Efecto de interaccin.
Combinacin de casos.
REGRESION LOGISTICA.
Regresin Lineal Mltiple.
La regresin lineal mltiple trata de explicar el
comportamiento de la variable respuesta con
ms de una variable predictora a travs de
una funcin lineal.
Algunas alternativas para mejorar un modelo
cuando se tiene una sola variable predictora
son:
Transformar la variable predictora, o la variable
de respuesta Y, o ambas y usar luego un modelo
lineal.
Usar regresin polinmica con una variable
predictora.
Otra alternativa es conseguir ms
variables de entrada y realizar una
regresin lineal mltiple.
El modelo de regresin lineal mltiple

con p variables y basado en n
observaciones es de la forma
yi 0 1 xi1 2 xi 2 ... k xik i

Cuntos modelos es posible
formar?
Si tenemos X1, X2, ..., Xk posibles variables

independientes para representar Y.
2
K
4, 23=8, 24=16, 25=32, 26=64, 27=128,

8
Lineal en los
parmetros
El modelo de regresin lineal mltiple con p variables

y basado en n observaciones es de la forma
yi 0 1 xi1 2 xi 2 ... k xik i
para i=1,,n. Luego podemos escribirlo como

As en forma matricial tenemos
y1 1 x11 x12 x1k 0

y 1 0
2 x21 x22 x2 k 1
1

k
yn 1 xn1 xn 2 xnk n
Y X
Los supuestos para obtener estimadores de los
parmetros son que E()=0 y Var( )=2In. Es inmediato
que E(Y)=X y Var(Y)=2In.
Estimacin por mnimos
cuadrados.
Como en el caso univariado minimizaremos la
suma de los errores al cuadrado:
n
Q( ) i2 ' (Y X )' (Y X )
i 1
Q( ) (Y ' ' X ' )(Y X ) Y 'Y Y ' X ' X 'Y ' X ' X
Q( ) Y 'Y 2 ' X 'Y ' X ' X
Antes de proseguir haremos un pequeo

recuerdo de derivada de vectores y matrices.
Parntesis Derivadas de vectores y
matrices.
1. Sean X y A dos vectores de px1 y Z=X'A=A'X,
entonces la derivada de Z respecto del vector X est
dado por:
2. Sea A un vector de px1, B un vector de qx1 y X

una matriz de orden pxq, X=(xij). Sea adems
Z=A'XB entonces
Parntesis Derivadas de vectores y
matrices.
3. Sea X un vector de px1, A una matriz simtrica de
orden p, y sea Z=X'AX, entonces
4. Sea X un vector de px1, A una matriz simtrica de

orden p tal que Z=X'AX entonces
Q( ) Y 'Y 2 ' X 'Y ' X ' X
As XX=XY se obtiene que

( X ' X ) X 'Y
1
Para k variables.
Resumen
H 0 : 1 2 ... k 0
H1: no todos los i son ceros, i=1,,k.
o al menos unos de los coeficientes es
distinto de cero.
El coeficiente de determinacin mltiple est
dado por:
SC R SCE
R
2
1
SCT SCT
Dado que este valor siempre aumenta cuando

ingresa una nueva variable al modelo se
considera un R cuadrado ajustado, que penaliza la
inclusin de una nueva variable en el modelo.
n 1 SCError
Raj 1
2

n (k 1) SCT
Se acostumbra a denominar coeficiente de

correlacin mltiple a la raz positiva de R 2.
INFOSTAT
|
Corr(Edad, Peso)=0,1548 valor-p=0,2040
Corr(Peso, Estatura)=0,7512, valor-

p=0,0000

Bioestadistica Clase 07 Correlacion y Regresion Lineal Simple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bioestadistica Clase 07 Correlacion y Regresion Lineal Simple

Uploaded by

Copyright:

Available Formats

Correlacin.

En el estudio de la relacin estadstica de

Para una muestra de tamao n, el

Observe y comente los siguientes

En que se debe poner atencin:

Y=salario-hora X=aos de estudio

Y=ventas X=gastos en publicidad

Y=gasto en un bien X=gasto total

Trmino de error o perturbacin inobservable.

Si Y=salario y X=aos-estudio, entonces el

Si Y=cosecha y X=abono, entonces el

describir, controlar, predecir y

Recordar que la existencia de una relacin

Lo anterior implica inmediatamente que Yi son variables

0 es el intercepto de la recta de regresin y tiene

Los datos pueden ser obtenidos a partir de estudios

Luego los estimadores de 0 y 1 son aquellos valores b0 y b1,

Antes de proseguir observemos que

La funcin de verosimilitud est dada por:

donde el es el valor de la funcin de regresin ajustada a

A E(Y) le llamaremos tambin respuesta media, as la respuesta

Del teorema de Gauss-Markov se sigue que es un estimador

el valor de en el i-simo ensayo o caso.

Observacin. Es importante distinguir entre el valor observado

Un estimador insesgado de la varianza del error, , est dado por el

Se puede verificar que Var(CME)= .

Es fcil verificar que:

SC totales SC residuales SC regresin o

Esto no aparece en las tablas de ANOVA que entregan los paquetes

requieren transformaciones de las variables.

lineal o presenta algn tipo de curvatura.

en el caso de que la variable predictora sea

Si mediante un determinado test se rechaza la

Donde es un parmetro tal que ||<1 y ut son

H0: =0 vs H1: >0

El modelo de regresin lineal mltiple

yi 0 1 xi1 2 xi 2 ... k xik i

Si tenemos X1, X2, ..., Xk posibles variables

4, 23=8, 24=16, 25=32, 26=64, 27=128,

El modelo de regresin lineal mltiple con p variables

para i=1,,n. Luego podemos escribirlo como

y1 1 x11 x12 x1k 0

Q( ) Y 'Y 2 ' X 'Y ' X ' X

Antes de proseguir haremos un pequeo

2. Sea A un vector de px1, B un vector de qx1 y X

4. Sea X un vector de px1, A una matriz simtrica de

As XX=XY se obtiene que

Dado que este valor siempre aumenta cuando

Se acostumbra a denominar coeficiente de

Corr(Peso, Estatura)=0,7512, valor-

You might also like