You are on page 1of 3

Introduccin a la regresin lineal

Anlisis de regresin Coeficientes Diagrama de dispersin Mnimos cuadrados Parmetros Recta de regresin Relacin estadstica Relacin funcional Relacin lineal Variables

El objeto de un anlisis de regresin es investigar la relacin estadstica que existe entre una variable dependiente (Y) y una o ms variables independientes ( X 1 , X 2 , X 3 , ... ). Para poder realizar esta investigacin, se debe postular una relacin funcional entre las

variables. Debido a su simplicidad analtica, la forma funcional que ms se utiliza en la prctica es la relacin lineal. Cuando solo existe una variable independiente, esto se reduce a una lnea recta:

Y b0 b1 X
donde los coeficientes b0 y b1 son parmetros que definen la posicin e
inclinacin de la recta. (Ntese que hemos usado el smbolo especial Y

para representar el valor de Y calculado por la recta. Como veremos, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta distincin.) El parmetro b0, conocido como la ordenada en el origen, nos indica cunto es Y cuando X = 0. El parmetro b1, conocido como la pendiente, nos indica cunto aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X. En el anlisis de regresin, estas estimaciones se obtienen por medio del mtodo de mnimos cuadrados.

Como ejemplo, consideremos las cifras del Cuadro 1, que muestra datos mensuales de produccin y costos de operacin para una empresa britnica de transporte de pasajeros por carretera durante los aos 1949-52 (la produccin se mide en trminos de miles de millas-vehculo recorridas por mes, y los costos se miden en trminos de miles de libras por mes). Para poder visualizar el grado de relacin que existe entre las variables, como primer paso en el anlisis es conveniente elaborar un diagrama de dispersin, que es una representacin en un sistema de coordenadas cartesianas de los datos numricos observados. En el diagrama resultante, en el eje X se miden las millas-vehculo recorridas, y en el eje Y se mide el costo de operacin mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehculo y costos de operacin) que corresponde a un mes determinado. Como era de esperarse, existe una relacin positiva entre estas variables: una mayor cantidad de millas-vehculo recorridas corresponde un mayor nivel de costos de operacin.

Cuadro 1. Operaciones Mensuales en una Empresa de Transporte de Pasajeros. Costos Totales Vehculo Mes N (miles) Y (miles) X Millas

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

213.9 212.6 215.3 215.3 215.4 228.2 245.6 259.9 250.9 234.5 205.9 202.7 198.5 195.6 200.4 200.1 201.5 213.2 219.5 243.7 262.3 252.3 224.4 215.3 202.5 200.7 201.8 202.1 200.4 209.3 213.9 227.0 246.4

3147 3160 3197 3173 3292 3561 4013 4244 4159 3776 3232 3141 2928 3063 3096 3096 3158 3338 3492 4019 4394 4251 3844 3276 3184 3037 3142 3159 3139 3203 3307 3585 4073

Fuente: J. Johnston, Anlisis Estadstico de los Costes (Barcelona: Sagitario, S. A., 1966), p. 118.

Diagrama de dispersin

Por otro lado, tambin se aprecia por qu este grfico se denomina un diagrama de dispersin: no existe una relacin matemticamente exacta entre las variables, ya que no toda la variacin en el costo de operacin puede ser explicada por la variacin en las millas-vehculo. Si entre estas variables existiera una relacin lineal perfecta, entonces todos los puntos caeran a lo largo de la recta de regresin, que tambin ha sido trazada y que muestra la relacin promedio que existe entre las dos variables. En la prctica, se observa que la mayora de los puntos no caen directamente sobre la recta, sino que estn dispersos en torno a ella. Esta dispersin representa la variacin en Y que no puede atribuirse a la variacin en X.

You might also like