You are on page 1of 8

4.1 Terminologa de la regresin.

Regresin lineal simple.


El termino regresin fue acuado por Sir Francis Galton (1822 1911), primo de Charles Darwin. Galton estudiaba la eugnica, trmino tambin introducido por s mismo para definir el estudio de la mejora de la raza humana a partir de las caractersticas hereditarias. Galton estudio la altura de los hijos con relacin a la altura de sus padres, y prob que la altura de hijos altos regresaba hacia la media de la altura de la poblacin a lo largo de sucesivas generaciones. En otras palabras, hijos de padres muy bajos tendan a ser en promedio ms altos que sus padres. En la actualidad, el trmino de regresin se utiliza siempre que se busca predecir una variable en funcin de otra, y no implica que se est estudiando si se est produciendo una regresin a la media. Anteriormente a Galton se debe mencionar a Legendre (1752 1833), quien introdujo el mtodo de los mnimos cuadrados utilizndolos para definir la longitud de 1 metro como una diez millonsima parte del arco meridional. Con posterioridad a Galton, las propiedades de las tcnicas de regresin fueron estudiadas por Edgeworth, Pearson y Yule. La tcnica de regresin lineal simple est indicada cuando se pretende explicar una variable respuesta cuantitativa en funcin de una variable explicativa cuantitativa tambin llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podra intentar explicar el peso en funcin de la altura. El modelo intentara aproximar la variable respuesta mediante una funcin lineal de la variable explicativa. Las suposiciones que se realizan al aplicar las tcnicas de regresin lineal son:

1. El modelo propuesto es lineal (es decir existe relacin entre la variable explicativa y la
variable explicada, y esta relacin es lineal). Es decir se asume que: , siendo el termino independiente (constante o intercept), el coeficiente b de regresin de la variable explicativa (pendiente o slope) y es una variable aleatoria que se llama error residual.

2. La variable explicativa se ha medido sin error. 3. El valor esperado de del modelo es cero. 4. La varianza de (y por lo tanto de la variable respuesta) es constante. 5. Los son independientes entre si. 6. Si se desean realizar contrastes de hiptesis sobre los parmetros (coeficientes) o sobre el
modelo, tambin es necesario que la distribucin de sea normal.

Para estudiar la validez del modelo es necesario confirmar estas hiptesis mediantes el estudio de los residuos (valores observados valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicacin es necesario realizar transformaciones a las variables, o bien para obtener una relacin lineal o bien para homogeneizar la varianza. Regresin lineal simple. Tiene como objeto estudiar como los cambios en una variable aleatoria, en el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal concierne el valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, segn lo establecido, se tendr: ( ) Donde a y son los coeficientes de regresin.

De manera equivalente, otra formulacin del modelo de regresin lineal simple seria: si X i es un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces: ( ) es el error o desviacin aleatoria de Definicin valor medio. Constante que representa el centro de gravedad de la ley de probabilidad de una variable aleatoria y que, en casos de notable simetra en la funcin de densidad, puede interpretarse que dicha constante nos seala la zona donde se sitan los valores de mxima probabilidad de la variable aleatoria. El valor medio o valor esperado de una variable aleatoria X se define como:

Siempre que dicho valor exista, donde f es la funcin de densidad de la variable.

Regresin lineal simple.


Mtodo estadstico que estudia la relacin lineal entre dos variables. Existe una relacin lineal entre las variables? Cun fuerte es esta relacin lineal entre las variables? Qu predicciones se pueden hacer basados en esta relacin lineal entre las variables?

Relacin lineal.

: Pendiente de la lnea. Por cada unidad que aumenta la , la : Intercepto en . Valor de cuando

cambia

unidades.

Modelo

variable independiente (imput). variable dependiente (output o respuesta). error relativo. intercepto en Y. pendiente.

4.2 Estimacin de Parmetros.


Suposiciones.
Los errores aleatorios ( ).

Son independientes. Tiene una media igual a 0. Tienen la misma varianza . Tienen una distribucin Normal (requerido para la prueba F). Por los tanto, para cada valor de X, existe una poblacin de Ys. Independientes unas de otras. Con una distribucin Normal con media Una misma varianza . ( )

Estimacin de regresin estimada.


Intercepto en Y ( ). Pendiente ( ). Valor estimado de Y

Valor observado en Y. Residuo ( ) (o error).

Mtodo de mnimo cuadrados.


Es un procedimiento para obtener la ecuacin de la lnea que mejor se ajusta a los datos de la muestra. Para obtener la ecuacin de la lnea hay que determinar y . La lnea de mejor ajuste es aquella que minimiza la suma e cuadrados de los residuos (distancia entre el valor observado, , y el valor estimado, . ( Los valores de y )

obtenidos mediante este mtodo son:

( )( ) ( )

Ejemplo:
Existe alguna relacin entre los gastos de una familia y sus ingresos? Para estudiar esta relacin se escogieron 10 familias y se obtuvo sus gastos anuales (en miles) y sus ingresos anuales (en miles). Ingresos (en miles) $30 35 28 42 32 50 45 36 48 40 Gastos (en miles) $40 44 36 56 41 63 55 48 58 50

)(

4.3 Prueba de hiptesis en la regresin lineal simple.


Prueba de hiptesis.
Es estadsticamente significativa la relacin lineal obtenida? Hay realmente una relacin lineal entre las dos variables? Si entonces entre X y Y. ( ) (una constante) y no dependera de X, o sea, no habra relacin

Para llevar a cabo la prueba de hiptesis utilizamos la tabla de ANOVA. Tenemos tres fuentes de variacin:

ANOVA Fuente de Variacin. gl SS MS F F(critica o P valu.

Regresin. 1 (SSR) (MSR)

Error. TOTAL

n 2. (SSE) n 1. (SST) ( )

( ) (MSE)

(de la tabla De F con 1, n 2 grados de libertad y nivel de significancia )

Ejemplo (seguimos con el ejemplo anterior)

( ( ANOVA Fuente. Regresin. Error. Total.

)( )

gl 1 8 9

SS 680.88 22.02 702.90

MS 680.88 275

F 247.40

F (crit) 5.32

Como F > F (critica) se rechaza nivel de significancia de .05.

. La relacin entre los ingresos y los gastos es significativa a un

You might also like