You are on page 1of 3

Grado en Ingeniera Civil

EJEMPLO DE CORRELACIN LINEAL Y REGRESIN


Si disponemos de dos series de datos emparejadas, con frecuencia es til conocer si
ambas variables estn relacionadas, y, en caso afirmativo, encontrar la expresin que refleja
dicha relacin. Si la ecuacin que mejor relaciona dichas variables es la de una recta,
decimos que existe correlacin lineal.
Un ejemplo puede ser la pluviometra registrada en dos estaciones prximas (Tabla
adjunta). Si la pluviometra es similar en ambos puntos, sera de gran utilidad cuantificar esa
relacin, pues de ese modo podramos evaluar, aunque fuera de modo aproximado, la
pluviometra de un lugar a partir de la registrada en el otro.
x
y
estacin A Estacin B
321
408
548
529
460
433
712
643
602
712
282
356
529
610
408
536
501
628
299
510
720

800
y = 0,6449x + 235,86
R2 = 0,6323

700

Estacin B (mm)

600
500
400
300
200
100
0
0

100

200

300

400

500

600

700

800

Estacin A (mm)

En este ejemplo, la correlacin es: P (estacin B) =0.6449 P (estacin A) + 235.86


Supongamos que para un ao o mes conocemos el valor de P = 720 en el punto A, pero
no lo tenemos para el punto B. Se podr estimar mediante la relacin anterior:
P (estacin B) =0.6449 P (estacin A) + 235.86 = 700.188
La relacin entre dos variables (como las dos columnas de datos anteriores) puede ser
lineal, exponencial, polinmica, etc. Es decir: que aunque los puntos no estn alineados
puede que tengan una fuerte correlacin, pero no lineal (por ejemplo: y = x2 +2,3).

Grado en Ingeniera Civil

Recta de regresin
Se llama as a la recta que atraviesa la nube de puntos y que mejor se ajusta a ellos.
Supongamos que medimos la distancia vertical de cada punto a la recta (lneas de trazos en
la figura adjunta). La recta buscada sera aquella para la que la suma de estas distancias fuera
mnima.

La ecuacin de una recta es: y = a x + b


Si, por ejemplo, fuera: y =0.5 x + 12 la pendiente sera 0.5 y la ordenada en el origen (altura
a la que la recta corta el eje vertical) sera 12
Si llegamos a conocer esa ecuacin, podremos llegar a estimar valores de y desconocidos a
partir de valores de x conocidos.
Otro ejemplo: supongamos que x es la altitud de cada estacin pluviomtrica e y es su
pluviometra; si establecemos que ambas variables estn correlacionadas y obtenemos la
ecuacin de la recta de regresin, conociendo la cota del punto podremos estimar su
pluviometra.

Coeficiente de correlacin de Pearson (r)


Este coeficiente nos informa del grado de relacin entre dos variables. Si la relacin es
lineal perfecta, r ser 1 -1. El coeficiente r ser positivo si la relacin es positiva (al
aumentar x aumenta y), y r ser negativo en el caso contrario (si al aumentar x, disminuye
y).
En general, valores (absolutos) de r > 0,80 se consideran altos, aunque esto depende del
nmero de parejas de datos con las que hemos realizado el clculo y del nivel de seguridad
con el que queramos extraer nuestras conclusiones.
No vamos a entrar en el estudio del nivel de significacin del coeficiente r, pero como
indicacin: para 11 parejas de datos, y si admitimos un 5% de posibilidades de
equivocarnos, con r>0,553 ya podemos decir que ambas series de datos no son
independientes (parece que tienen algn tipo de relacin). Si tuviramos 50 parejas de
datos, nos bastara r>0,273 para sacar la misma conclusin (siempre considerando el valor
absoluto de r)
Si nos ponemos ms estrictos, y queremos sacar la conclusin de que las dos series no son
independientes con un 99% de seguridad (slo un 1% de posibilidad de error), con 11
parejas necesitamos que r>0,684 y con 50 parejas r>0,354

Grado en Ingeniera Civil

Precauciones:
1. El que estemos seguros de que ambas series estn relacionadas, no quiere decir que la
relacin sea tan estrecha como para estimar valores de y desconocidos a partir de valores de
x conocidos; eso depender del error de estimacin que aceptemos.
2. La existencia de una correlacin no indica relacin causa-efecto.
Clculo de la recta de regresin y del coeficiente r con Excel.
Vamos a elaborar el grfico de la primera figura, con la ecuacin y el coeficiente r. (puedes
copiar las parejas de valores del ejemplo inicial).
1. Seleccionar las dos columnas de datos
2. Insertar > Grfico (con el men Insertar o con el botn correspondiente de una de las
barras). Tipo de grfico: XY (dispersin)
3. Click con botn derecho sobre uno cualquiera de los puntos; en el men que surge,
elegir Agregar lnea de tendencia. Elegir Lineal
4. Sin cerrar el cuadro, en la pestaa Opciones, marcar los recuadros de:
Obtenemos un grfico como el que aparece en la pgina anterior.
Atencin: Excel calcula r2, no r. (r2 se llama coeficiente de determinacin).
El cuadro de Excel nos recuerda que quiz la correlacin lineal sea mala, pero otro tipo de
correlacin puede ser buena (logartmica, polinmica, potencial, exponencial,...)

Finalmente, con la ecuacin obtenida, rellenamos los datos que faltan.

You might also like