You are on page 1of 10

1.7 INFERENCIAS ACERCA DE LA PENDIENTE.

Relaciones entre dos os variables cuantitativas (Inferencia)


Ya revisamos la descripcin de variables cuantitativas ahora veremos la manera
de hacer inferencia a partir de los resultados muestrales.

Problema: Existe relacin entre las notas en la Prueba Final Acumulativa y las
notas de la Prueba 1 en cursos de Estadstica en la UTAL
7

2
Examen

1
1 2 3 4 5 6 7

Prueba 1

Inferencia en Regresin Lineal Simple

Modelo de regresin lineal simple:

Se tienen n observaciones de una variable explicativa x y de una variable


respuesta y,
x1 , y1 , x2 , y2 , ..., xn , yn
el modelo estadstico de regresin lineal simple es:

yi xi ei
donde

y E (Y ) x es la respuesta promedio para cada x.

representa el intercepto de la funcin lineal que usa todos los valores de la


poblacin y
representa la pendiente de la funcin lineal que usa todos los valores de la
poblacin. y son parmetros
El modelo estadstico de regresin lineal simple asume que para cada valor de x,
los valores de la respuesta y son normales con media (que depende de x) y
desviacin estndar que no depende de x. Esta desviacin estndar es la
desviacin estndar de todos los valores de y en la poblacin para un mismo valor
de x.

Estos supuestos se pueden resumir como: Para cada x, Y ~ N ( y , ) donde


y E (Y ) x

Podemos visualizar el modelo con la siguiente figura:

Los datos nos darn estimadores puntuales de los parmetros poblacionales.

Estimadores de los parmetros de regresin:

El estimador de la respuesta media est dado por E (Y ) y a bx


El estimador del intercepto es: a
El estimador de la pendiente es: b
El estimador de la desviacin estndar est dado por:

y y i =
SCRes
donde SCRes es la suma de cuadrados de los residuos
2

n2
i

ei
2

El coeficiente de correlacin muestral r es un estimador puntual de la


correlacin poblacional
Probando la hiptesis acerca de la existencia de relacin lineal

En el modelo de regresin lineal simple => E (Y ) x . Si 0 entonces las


variables x e y no estn asociadas linealmente y la respuesta es una constante
E(Y) = .

E(Y) =

Es decir, conocer el valor de x no nos va a ayudar a conocer y.

Para docimar la significancia de la relacin lineal realizamos el test de hiptesis:

Ho: = 0 (la pendiente de la recta de regresin en la poblacin es cero)


H1: 0

Existen hiptesis de una cola, donde H1: < 0 o H1: > 0, pero lo usual es
hacer el test bilateral.

Para docimar la hiptesis podemos usar el test t:

estimador puntual valor hipottico


t
error estndar del estimador

El estimador puntual de es b, y el valor hipottico es 0. El error estndar de b


es:

EE(b)
xi x
2

El estadstico para docimar la hiptesis acerca de la pendiente de la poblacin es:

b0
t ~ t (n 2)
EE(b)

Intervalo de confianza para la pendiente:


Un intervalo de confianza ( 1 )*100% para la pendiente est dado por:
b t1-n 2
[ EE(b)]
2
n 2
donde t1- es el percentil apropiado de la distribucin t con (n-2) grados de
2
libertad.

Suponga que se rechaza al 5% la hiptesis nula del test t:


Ho: = 0
H1: 0
El intervalo de 95% de confianza para la verdadera pendiente contiene el
cero?

Ejemplo: Test 1 versus Test 2 revisitado


Revisemos la salida de SPSS con lo que hemos visto hasta ahora:

Coeficientes(a)
Coeficiente
s Intervalo de
Coeficientes no estandariza confianza para B al
Modelo estandarizados dos t Sig. 95%
Error Lmite Lmite
B tp. Beta inferior superior
1 (Constan
.800 2.135 .375 .733 -5.996 7.596
te)
Test 1 1.100 .173 .965 6.351 .008 .549 1.651
a Variable dependiente: Test 2

Anlisis de varianza y regresin lineal*


El estimador de la varianza utilizado, se interpreta como la variabilidad residual
alrededor de la recta, vale decir, la variabilidad que queda despus de haber
sustrado la variabilidad de los valores observados de la variable respuesta (yi)
respecto de su promedio, que es la variacin que se puede explicar por la relacin
entre x e y. Se corrobora as que la descripcin de una variable gana en precisin
cuando existe una relacin con otra variable que explica parte de su
comportamiento.

yi
y - y
y-y
y y - y
y y y
*
Adaptado de captulo 21 del libro Bioestadstica de Erica Taucher
E (Y ) y a bx

xi X
En el grfico se muestran las fuentes de variacin mencionadas:
n
La variacin total est dada por SCT ( yi y ) 2 .
i 1

La variacin explicada por la inclinacin de la recta, o en otras palabras, explicada


por la relacin entre las variables y y x, es SC Re g ( y y ) 2 .
n
Por ltimo, la variacin no explicada, o residual es SC Re s ( y i y i ) 2 .
i 1

Podemos hacer una tabla, llamada tabla de anlisis de varianza, para la regresin
lineal simple y es la siguiente:
Fuente de gl SC CM
variacin Grados de Suma de Cuadrados Medios
libertad Cuadrados
SC Re g ( y y ) 2 SC Re g
Regresin 1

n
SC Re s
SC Re s ( y i y i ) 2
Residuo n2 i 1 n2

n
SCT y i y
2
Total n 1 i 1
Ejemplo: Test 1 versus Test 2 re-revisitado

ANOVA(b)
Suma de Media
cuadrado cuadrtic
Modelo s gl a F Sig.
1 Regresi
48.400 1 48.400 40.333 .008(a)
n

Residu 3.600 3 1.200


al
52.000 4
Total
a Variables predictoras: (Constante), Test 1
b Variable dependiente: Test 2

Coeficiente de determinacin o bondad de ajuste (r2)


La correlacin entre el test 1 y test 2 del ejemplo es de r 0,965 , este coeficiente de
correlacin cuantifica el grado de asociacin lineal y la direccin de la asociacin
entre dos variables cuantitativas x y y. Se puede demostrar que:

r
2 SCReg

( y y )2

y y
2
SCTotal i

este coeficiente se llama coeficiente de determinacin, y representa la proporcin


de la variacin total de y que es explicada por la relacin lineal entre x e y.
A este coeficiente se le usa entonces como medida de bondad de ajuste, es
decir que tan buena es la variable explicativa x para explicar la respuesta y. El
rango del coeficiente de determinacin es naturalmente entre cero y uno (
0 r 2 1 ), lo que nos indica que mientras ms cercano a uno sea el coeficiente
de determinacin (r2) mejor es el ajuste de la regresin.
En el caso del ejemplo del test 1 y test 2, el r 2 (0,965)2 0,931 , que nos indica que el
test 1 explica el 93,1% de la variacin total del test 2.

Verificando supuestos en la Regresin lineal simple

1. Examine el grfico de dispersin de y versus x para decidir si el modelo lineal


parece razonable.

2. Examine los residuos para verificar los supuestos acerca del trmino del error.
Los residuos deben ser una muestra aleatoria de una poblacin normal con
media 0 y desviacin estndar .

Cuando examine los residuos verifique:

a) que provienen de una muestra aleatoria:


Grafique los residuos versus x. El supuesto de que provienen de una muestra
aleatoria ser razonable si el grfico muestra los puntos al azar, sin una forma
definida.

A veces es posible detectar falta de independencia cuando los datos recogidos


en el tiempo. Para verificar este supuesto grafique los residuos versus el
tiempo y los puntos no deben mostrar una distribucin definida.

b) Normalidad
Para verificar normalidad haga el histograma de los residuos, este debera
aparecer como normal sin valores extremos si tenemos un nmero grande de
observaciones. En el caso de tener pocas observaciones puede hacer un
grfico de tallo y hoja y verificar que no haya observaciones extremas.

c) desviacin estndar comn (que no depende de x)


El grfico de los residuos versus x, debe tener aproximadamente una banda
del mismo ancho.

El grfico muestra evidencia de que la variabilidad en la respuesta tiende a


aumentar cuando x aumenta.
1.8 APLICACIONES.
Ejemplo:
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga
(en ml) est relacionada con el tiempo de reaccin a un estmulo en segundos.

Droga (ml) 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5
Tiempo (segs) 1,0 0,8 1,8 1,4 2,1 1,8 2,2 3,0 2,7 3,0 4,1 4,9
5

Grfico de dispersin del tiempo de reaccin a estmulo versus dosis de droga:


5

0 R = 0.8824
0 1 2 3 4 5 6 7

Dosis de droga (ml)

Estadsticos descriptivos

Desviacin
Media tp. N
Tiempo de reaccin (seg) 2.4042 1.21925 12
Dosis de droga (ml) 3.750 1.8028 12

Corre laci one s

Tiempo de
reaccin Dosis de
(seg) droga (ml)
Correlacin de Pearson Tiempo de reaccin (s eg) 1.000 .939
Dosis de droga (ml) .939 1.000
Sig. (unilateral) Tiempo de reaccin (s eg) . .000
Dosis de droga (ml) .000 .
N Tiempo de reaccin (s eg) 12 12
Dosis de droga (ml) 12 12
Coeficientesa

Coeficientes
Coeficientes no es tandarizad
es tandarizados os
Modelo B Error tp. Beta t Sig.
1 (Constante) 2.174E-02 .303 .072 .944
Dosis de droga (ml) .635 .073 .939 8.663 .000
a. Variable dependiente: Tiempo de reaccin (s eg)

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regres in 14.430 1 14.430 75.048 .000a
Residual 1.923 10 .192
Total 16.352 11
a. Variables predictoras: (Constante), Dosis de droga (ml)
b. Variable dependiente: Tiempo de reacc in (seg)

Grfico de residuos de la regresin versus dosis de droga:

.8

.6

.4

.2

-.0

-.2

-.4

-.6
0 1 2 3 4 5 6 7

Dosis de droga (ml)


Histograma
Variable dependiente: Tiempo de reaccin (seg)
5

2
Frecuencia

1 Desv. tp. = .95


Media = 0.00

0 N = 12.00
-1.00 -.50 0.00 .50 1.00 1.50

Regresin Residuo tipificado

Tallo y hoja de los residuos

Unstandardized Residual Stem-and-Leaf Plot

Frequency Stem & Leaf

1.00 -0 . 5
5.00 -0 . 12344
4.00 0. 1123
2.00 0. 57

Stem width: 1.00000

You might also like