You are on page 1of 23

Estimacin puntual

Estimacin puntual. El valor, calculado a partir de la informacin de muestreo, que


se emplea para estimar el parmetro de poblacin.
La media muestral,

, es una estimacin puntual de la media poblacional, ,.

P es una estimacin puntual de p

y as mismo la desviacin estndar de la

muestra S es una estimacin puntual de la desviacin estndar de la poblacin .


Supngase que una empresa desea calcular la edad promedio de compradores de
equipos estreo. Se selecciona una muestra aleatoria de 50 adquirientes recientes,
se determina la edad de cada uno y se calcula la edad media de los seleccionados.
El valor medio de esta muestra es una estimacin puntual de la media poblacional.
Sin embargo, un valor estimado puntual representa slo una parte de la historia. Al tiempo
que se espera que la estimacin puntual se acerque al parmetro de la poblacin,
quisimos medir que tan cerca se encuentra. Un intervalo de confianza cumple con ste
propsito.
Intervalo de confianza para una proporcin de la poblacin.
Una estimacin puntual para una proporcin poblacional se obtiene dividiendo el nmero
de xitos en la muestra, entre el nmero total de muestreado.
Ejemplo:
Supngase que 100 de las 400 personas muestreadas afirman que prefieren un
nuevo refresco que probaron, en comparacin con el que consumen regularmente.
La mejor estimacin de la proporcin de la poblacin que est a favor de la nueva
bebida es 0.25, o sea 25% que se obtiene dividiendo 100/400. Observase que una
proporcin se basa en un conteo del nmero de xitos con relacin del nmero
total muestreado.
Cmo se estima el intervalo de confianza para una proporcin de poblacin?

Intervalo de confianza utilizando


Una proporcin de la poblacin

Donde p

p zp

es el error estndar de la proporcin.

Error estndar de la p =
proporcin muestral

p (1-p )

Por tanto, el intervalo de confianza se establece mediante:

Intervalo de confianza para


una proporcin muestral

pz

p - (1 - p)
n

Donde:
P = es la proporcin muestral.
Z = es el valor de z del grado de confianza seleccionado.
n = es el tamao de la muestra.
Ejemplo
Suponga que 1600 de 2000 trabajadores sindicalizados que se muestrean dijeron
que planean poner a votacin una propuesta para unirse a una federacin. Si se
utiliza un nivel de confianza de 0.95 Cul es la estimacin de intervalo para la
proporcin poblacional A que conclusin se llegara con base en el intervalo de
confianza?
Solucin:
Utilizando la formula anterior , el intervalo se calcula como sigue:
pz p (1-p)

= 0.801.96

0.80(1-0.80)

2 000
= 0.801.960.00008
= 0.782 y 0.818
0.782 P0.818

Los lmites de confianza 78.2 y 81.8%; supngase que por lo menos 75% de los
miembros del sindicato deben aprobar la fusin. Con base en los resultados de la
muestra, cuando votan todos los trabajadores sindicalizados, la propuesta
probablemente ser aceptada debido a que 0.75 est por debajo del intervalo 0.782
y 0.818

Tema: Estimacin por intervalos.


Estimacin por intervalo de confianza Una gama de valores obtenidos a partir de
datos de muestreo, de modo que el parmetro ocurre dentro de esa variedad a una
probabilidad especfica. La probabilidad especfica en cuestin se denomina nivel
de confianza.
Ejemplo
El gerente de puede decidir que la media poblacional est en algn sitio entre v $35
y $38. Tal intervalo con frecuencia va acompaado de una afirmacin sobre el nivel
de confianza que se da en su exactitud. Por tanto se llama intervalo de confianza
(I.C).
En realidad hay tres niveles de confianza relacionados comnmente con los
intervalos de confianza; 99%, 95% y 90%. No hay nada mgico sobre stos tres. Se
podra calcular un intervalo de confianza de 82% si se deseara. Estos tres niveles
de

confianza,

denominados

coeficientes

de

confianza,

son

simplemente

convencionales. El gerente mencionado anteriormente puede tener un 95% de


confianza en que la media poblacional est entre $35 y $38.
Las estimaciones por intervalo gozan de ciertas ventajas sobre las estimaciones
puntuales. Debido al error de muestreo, probablemente

no ser igual a . Sin

embargo, no hay manera de saber que tan grande es el error de muestreo.


El fundamento de un intervalo de confianza.
Intervalo de confianza tiene un lmite inferior de confianza (LIC) y un lmite superior de
confianza (LSC). Estos limites se hayan calculando primero la media muestral,
Luego se suma una cierta cantidad
resta de

para obtener el LSC, y la misma cantidad se

para obtener el LIC.

Cmo se puede construir un intervalo y luego argumentar que se puede tener un


95% de confianza en que contiene a , si incluso no se sabe cul es la media
poblacional? Vale la pena recordar de la discusin anterior sobre la Regla Emprica
que el 95.5% de todas las medias muestrales caen dentro de dos errores estndar
de la media poblacional. Entonces la media poblacional est mximo a dos errores

de 95.5% de todas las medias muestrales. Por tanto, al comenzar con cualquier
media muestral, si se pasa de dos errores estndar por encima de dicha media y
dos por debajo de ella, se puede tener un 95.5% de confianza en que el intervalo
resultante contenga la media poblacional desconocida.

95.5%

2x
Xs
-2 x
LIC1

=?
X1

+2 x
LSC1

La informacin desarrollada acerca de la forma de una distribucin de muestreo de


medias muestrales, lo cual significa una distribucin de muestreo de

permite

localizar un intervalo que contenga una probabilidad especfica de incluir a la media


de la poblacin, . Para muestras razonablemente mayores, se puede utilizar el
teorema del lmite central y afirmar lo siguiente.
1. Un 95% de las medias muestrales seleccionadas de una poblacin estar
dentro de 1.96 desviaciones estndares respecto de la media poblacional,.
La desviacin estndar mencionada aqu es la desviacin estndar de la
distribucin de muestreo de medias mustrales. Los intervalos calculados de sta
manera se denominan el intervalo de confianza de 95%Cmo se obtiene el valor
de 1.96? El 95% se refiere al porcentaje de tiempo del

intervalo construido

similarmente que incluye el parmetro que se estima. Por ejemplo, el 95% se refiere
al 95% central de las observaciones. Por tanto, el 5% restante se divide por igual
entre los dos extremos. Vase el diagrama siguiente:

1.5000

0.5000

1.4750
1.25

0.4750
0.025

-1.96

1.96

Escala de z

El teorema de lmite central afirma que la distribucin de muestreo de las medias


muestrales se aproxima a la normal. Por lo tanto, puede utilizarse la tabla del
apndice A, para determinar los valores de z adecuados. Localice 0.4750 en el
cuerpo de la tabla, y despus lase los valores correspondientes de columna e
hilera. As resulta 1.96. De modo que la probabilidad de encontrar un valor z entre 0
y 1.96 es o.4750. Del mismo modo, la probabilidad de que est en el intervalo -1.96 y
0, es tambin 0.4750. Cuando se combinan ambas, la probabilidad de encontrarse
en el intervalo de
-1.96 a 1.96 resulta ser 0.9500.
Error Estndar de la Media Muestral (x). Desviacin estndar de la distribucin de
muestreo de las medias muestrales.
El error estndar es una medida de la variabilidad de la distribucin de muestreo de
la media muestral. Se calcula mediante:

Error estndar de la media,


cuando se conoce la desviacin
estndar de la poblacin.

x =

Donde:

x es el error estndar de la media, tambin denominado desviacin estndar de la


distribucin de muestreo de la media.
es la desviacin estndar de la poblacin.
n es el tamao de la muestra.
En la mayora de los casos, se desconoce la desviacin estndar de la poblacin.
Por lo tanto, se reemplaza con la desviacin estndar de la muestra. Esto es, se
cambia por s. Despus se escribe la formula de la manera siguiente:
Error estndar de la media
con base en la desviacin
estndar de la poblacin

Sx =

s
n

Dos valores afectan el tamao del error estndar. El primero es la desviacin


estndar. Si sta es grande, entonces el error estndar tambin lo ser. Sin

embargo, el tamao de la muestra tambin afecta al error estndar. Al aumentar el


tamao de la muestra, el error estndar disminuye, indicando esto que hay menor
variabilidad en distribucin de las medias muestrales. Esta conclusin es lgica, ya
que una estimacin realizada de una muestra grande debe ser ms precisa que un
clculo hecho a partir de una muestra pequea.
Cuando el tamao de la muestra, n, es al menos igual a 30, generalmente se acepta
que el teorema de lmite central asegurar una distribucin normal de las medias
muestrales. Esta es una consideracin importante. Si las medias muestrales se
distribuyen en forma normal, en los clculos se puede utilizar la distribucin
estndar normal, esto es, z.
Los intervalos de confianza de 95% y de 99% se calculan como sigue, cuando n 30
Intervalo de confianza
X 1.96 s
De 95% para una media
n

Intervalo de confianza
De 99% para una media

X 2.58 s
n

Otros niveles de confianza pueden ser empleados. Para estos casos el valor z
cambia correspondientemente. En general, un intervalo de confianza para la media
se calcula por:
Intervalo de confianza
Para una media

Xz

s
n

Donde z es el nivel de confianza.


Ejemplo:
En un experimento se trata de seleccionar una muestra aleatoria de 256 gerentes de
nivel medio. Un elemento de inters es el ingreso anual. La media muestral vale $45
420 (dlares) y la desviacin estndar en la muestra, es $2 050.
Cul es el intervalo de confianza de 95% para la media de la poblacin
(redondeando a los $10 ms cercano)?
Solucin.
El intervalo de confianza est entre $45 170 y $45 670, que se obtiene mediante:

X 1.96 s
n

= $45 4201.96 $2 050


256
= $45 420251.125
= $45 168.875 y $45 671.125

Estos puntos extremos se redondean frecuentemente y, en este caso, se


registraran como $45 170 y $45 670.
45170 45 670

Tema: Determinacin del tamao de la muestra.


Una de las preocupaciones ms comunes cuando se disea un estudio estadstico
es: Cuntos elementos deben incluirse en la muestra? Si sta es demasiado
grande, se derrocha intilmente dinero en la recoleccin de datos. De forma
semejante, si la muestra es demasiado pequea, las conclusiones resultantes
podran ser incorrectas. El tamao correcto de la muestra depende de tres factores:
1. El nivel de confianza deseado.
2. El mximo error permisible por el investigador.
3. La variacin en la poblacin que se estudia.
Usted como investigador, selecciona el nivel de confianza. Como se observ en la
seccin anterior, los niveles de 95% y de 99% son los que se eligen con mayor
frecuencia. Un nivel de confianza de 95% corresponde a un valor z de 1.96, y uno
de 99% corresponde a un valor z de 2.58. Cuanto ms alto sea el nivel de
confianza, tanto mayor ser el tamao de la muestra.
El error mximo permisible, denotado como E, es la cantidad que se suma y resta
de la media muestral para determinar los puntos extremos del intervalo de
confianza. Es la cantidad de error que el investigador est dispuesto a tolerar.
Asimismo, corresponde a la mitad de la anchura del intervalo de confianza
correspondiente. Un pequeo error admisible requerir una muestra grande, y un
error grande de esa clase aceptar el uso de una muestra menor.
El tercer factor al determinar el tamao de una muestra es la desviacin estndar de
la poblacin. Si sta ltima est dispersa ampliamente, se requiere una muestra
grande. Por otra parte, si la poblacin est concentrada (es homognea), el tamao
requerido de la muestra ser menor. Sin embargo, es posible que sea necesario
encontrar una estimacin para la desviacin estndar poblacional. A continuacin
se expresan tres indicaciones:

Utilice el enfoque del estudio de comparabilidad cuando hay un estimado de la


dispersin disponible segn otro estudio. Supngase

que se desea estimar el

nmero de horas de trabajo a la semana por trabajares determinados. Quizs la


informacin procedente de ciertas agencias estatales o federales, que regularmente
toman muestras de la fuerza laboral, podra ser til para hacer un clculo de la
desviacin estndar. Si se considera que una desviacin estndar observada en un
anlisis anterior es confiable. Se puede usar en el estudio actual como ayuda para
obtener un tamao aproximado de la muestra.
Si no est disponible alguna estimacin de un estudio anterior, puede ser apropiado
emplear una aproximacin basada en un intervalo de variacin. Para aplicar este
enfoque se necesita conocer o tener una estimacin de los valores mas grandes y
los mas pequeos en la poblacin. Recurdese que se describi la regla emprica;
que se podra esperar

que casi todas las observaciones estuvieran entre 3

desviaciones estndares respecto de la media, dado que la distribucin fuese


aproximadamente acampanada, es decir, normal. Por tanto, la distancia entre el
valor ms grande y el valor ms pequeo, es 6. Se podra estimar la desviacin
estndar como un sexto de la amplitud de variacin. Por ejemplo, supngase que la
directora de operaciones de un banco desea una estimacin del nmero de retiros
que estudiantes de universidad hacen al mes. Que la distribucin se aproxima a la
normal, que el nmero mnimo de documentos presentados es 2 por mes, y que el
mximo es 50.El intervalo de variacin de la cantidad de retiros mensuales es 48,
obtenido por 50-2. Entonces, la estimacin de la desviacin estndar sera 8 retiros
por mes, de 48/6.
El tercer enfoque para evaluar la desviacin estndar es realizar un estudio piloto.
Este es el mtodo mas comnmente utilizado. Supngase que se desea obtener una
estimacin del nmero de horas de trabajo a la semana de estudiantes inscritos en
la Escuela de Administracin de la Universidad de Texas. Para probar la validez del
cuestionario, se aplica

en una pequea muestra de alumnos. A partir de sta, se

calcula la desviacin estndar del nmero de horas de labor, y se utiliza ste para
determinar el tamao adecuado de la muestra.
Puede expresarse la interaccin entre esto tres factores y el tamao de la muestra
con la frmula que sigue:

E=z

s
n

Despejando n en esta ecuacin, se tiene el tamao requerido de la muestra.

Tamao de muestra

z .s

Para estiman una media.

Donde:
n es el tamao de muestra.
z es el valor normal estndar correspondiente al nivel de confianza deseado.
s es un estimado de la desviacin estndar de la poblacin.
E es el mximo error permisible.
El resultado de ste calculo no siempre es un nmero entero, por lo que la prctica
usual es redondear cualquier nmero fraccionario. Por ejemplo, 201.22 se redondea
a 202.
Ejemplo
Un estudiante de administracin pblica desea determinar el ingreso medio de los
miembros de concejos urbanos. El error al estimar la media es menor que
$100(dlares)con un nivel de confianza de 95%. El estudiante encontr un informe
presentado por el Departamento del Trabajo que estimaba la desviacin estndar en
$1 000. Cul es el tamao de muestra requerido?
Solucin.
El mximo error permisible, E, es $100. El valor z para un nivel de confianza de 95%
es 1.96, y el estimado de la desviacin estndar es $1 000. Al introducir estos
valores en la formula anterior, se tiene el tamao requerido de la muestra:
n = ( 1.96) ($1 000)

$ 100
n = (19.6)2
n = 384.18 385
El valor calculado de 384.18 se redondea a 385. Se requiere una muestra de 385
para cumplir con las especificaciones.

El procedimiento que se acaba de describir se adapta para determinar el tamao de


la nuestra para una proporcin. Nuevamente,

se necesita especificar tres

conceptos:
1. El nivel de confianza deseado, generalmente 95%, o bien 99% .
2. El margen de error que se requiere en la proporcin de la poblacin.
3. Un estimado de la proporcin poblacional.
La formula para determinar el tamao de la nuestra de una proporcin es:

Tamao de muestra para


una proporcin.

n = p(1-p)( z / E )2

Es posible utilizar un clculo de si se encuentra disponible a partir de un estudio


piloto o alguna otra fuente. De otra manera, se utiliza 0.50, porque el trmino p(1-p)
nunca puede ser mayor que cuando p = 0.50. Por ejemplo, si p = 0.30, entonces p(1p) = 0.30(1 - 0.30) = 0.21, pero cuando p = 0.50, p(1-p) = 0.50(1 - 0.50) = 0.25.
Ejemplo
El estudio en el ejemplo anterior tambin estima la proporcin de ciudades que
cuentan con cobradores privados. El estudiante quiere que el clculo se halle
dentro de 0.10 de la proporcin de la poblacin, el nivel deseado de confianza es de
90%, y no hay alguna estimacin disponible para la proporcin de la poblacin.
Cul es el tamao requerido de la muestra?
Solucin
El valor estimado de la proporcin poblacional se encuentra dentro de 0.10, por lo
tanto E = 0.10. El nivel deseado de confianza es 0.90, lo cual corresponde a un valor
z de 1.65. Ya que no existe ningn clculo de la proporcin de poblacin, se utilizar
0.50. El tamao requerido de la muestra es:
n = (0.50)(0.50)(1.65/0.10)2
n = 68.0625
El estudiante necesita una muestra aleatoria de 69 ciudades.

Tema: Mnimos cuadrados.


Desarrollo:
La regresin y la correlacin son dos tcnicas estrechamente relacionadas que
comprenden una forma de estimacin. La diferencia entre estas tcnicas y el tipo de
estimacin estudiado anteriormente radica en que las tcnicas anteriores se utilizaron
para evaluar un parmetro de poblacin nica
En forma ms especifica, l anlisis de
correlacin y regresin comprende el anlisis de los datos mustrales para saber si y
como se relacionan entre s dos o ms variable de una poblacin.
Los datos necesarios para el anlisis de regresin y correlacin provienen de
observaciones de variables relacionadas. En el caso de un problema de dos variables,
esto significa que cada observacin proporciona dos valores, uno para cada variable. Por
ejemplo, un estudio que comprenda caractersticas fsicas puede interesarse por la edad y
la estatura de cada individuo del mismo. Las dos variables de inters, - la edad y la
estatura de cada persona seran las relacionadas. En el caso de un problema de tres
variables, cada observacin proporciona tres valores. Por ejemplo, adems de la edad y
la estatura de cada persona tal vez desearamos incluir en el anlisis, el peso de la
misma.

EL MTODO DE MNIMOS CUADRADOS:


Generalmente, ms de una curva de un tipo dado parece ajustar un conjunto de datos.
Para evitar el juicio individual en la construccin de rectas, parbolas, u otras curvas de
aproximacin, es necesario obtener una definicin de la mejor recta de ajuste , mejor
parbola de ajuste.
Para motivar una posible definicin considrese la figura.4.1 en la cul los puntos de
datos son (x1, y1)...,(xn, yn). Para un valor dado de x, por ejemplo x1, habr una diferencia
entre el valor de y1, y el valor correspondiente de la curva C. Denotamos sta diferencia
por d1, que algunas veces se le conoce como desviacin, error o residuo y puede ser
positivo, negativo o cero. Anlogamente, correspondiendo a los valores x2,...,xn obtenemos
las desviaciones d2, ....,dn.

y
dn

*
*(x ,y )
1

d1

*b(x2,y2)

d2

Fig. 4.1
Una medida de la bondad del ajuste de la curva C que al conjunto de datos la
suministra la cantidad d12 + d22+.....+dn2. Si la suma es pequea el ajuste es bueno si es
grande el ajuste es malo. Por tanto tomamos la siguiente:
Definicin. De todas las curvas de aproximacin de un conjunto de puntos de datos
dados, la curva que tenga la propiedad de que:
d12 +d22+..........+dn2 = un mnimo
es la mejor curva de ajuste.
Una curva con sta propiedad se dice que ajusta los datos en el sentido de mnimos
cuadrados y se llama curva de regresin de mnimos cuadrados o simplemente curva de
mnimos cuadrados. Por tanto una recta con sta propiedad se llama recta de mnimos
cuadrados, una parbola con sta propiedad se llama parbola de mnimos cuadrados,
etc.
Se acostumbra emplear la definicin anterior cuando x es la variable independiente y y
es la variable dependiente. Si x es la variable dependiente, la definicin se modifica al
considerar las desviaciones horizontales en cambio de las verticales, que se reduce a
intercambiar los ejes x, y. Estas dos definiciones conducen en general a dos curvas de
mnimos cuadrados diferentes. Al menos que se especifique lo contrario consideraremos a
y como la variable dependiente y a x como la independiente.
La recta resultante presenta dos caractersticas importantes:
es nula la suma de las desviaciones verticales de los puntos a partir de la recta y es
mnima la suma de los cuadrados de dichas desviaciones (es decir, ninguna otra recta
dara una suma menor de las desviaciones elevadas al cuadrado). Simblicamente, el
valor que se minimiza es
(yi yc)2
en el cual
yi = valor observado de y
yc = valor calculado de y utilizando la ecuacin de mnimos cuadrados con el valor
correspondiente de x para yi.
Los valores de a y b para la recta yc = a + bx que minimiza la suma de los cuadrados de
las desviaciones, son las soluciones a las llamadas ecuaciones normales.
y = na+b (x)
xy = a(x)+b(x2)
En las que n es el nmero de pares de observaciones. As, evaluando las cantidades
como x, xy, etc., se puede resolver estas dos ecuaciones simultneas para determinar
a y b. sin embargo, en las ecuaciones pueden despejarse a y b, y esto proporciona un
modo ms sencillo de clculo. Se obtienen dos formulas, una para a y otra para b:

b=

n(xy) (x) (y)


n(x2) (x)2

a = y b x
n

Es posible utilizar el mtodo de mnimos cuadrados para obtener una recta, en el caso del
kilometraje y el precio de venta. A partir de las ecuaciones anteriores, es evidente que,
para determinar la ecuacin lineal primero se debern calcular los valores de x, y, x2
y xy, los cuales se determinan a partir de los datos de la muestra. Una cantidad
adicional, y2, tambin deber calcularse para usos posteriores. Cabe observar que n =
14 partes de observaciones. Los valores respectivos se muestran en la tabla 4.1
IV.1.1 Tabla 4.1. Clculos para los datos

Observacin

Recorrido

Precio venta
xy

x2

y2

$ 1,000.00

40000

1600

1000000

30

1,500.00

45000

900

2250000

30

1,200.00

36000

900

1440000

25

1,800.00

45000

625

3240000

50

800.00

40000

2500

640000

60

1,000.00

60000

3600

1000000

65

500.00

32500

4225

250000

10

3,000.00

30000

100

9000000

15

2,500.00

37500

225

6250000

10

20

2,000.00

40000

400

4000000

11

55

800.00

44000

3025

640000

12

40

1,500.00

60000

1600

2250000

13

35

2,000.00

70000

1225

4000000

14

30

2,000.00

60000

900

4000000

x = 505

y = 21600

xy= 640000

x = 21825

y2 = 39960000

40

De dicha tabla se obtienen:


b = 14(640000) (505) (21600) = 8960000 10908000
14(21825) (5052)
305550 - 255025
= -1948000 = -38.56
50525
a = y b(x) = 21600 (-38.56) (505) = 40979.4 = 2934
n
14
14
la ecuacin resultante de regresin, y = a+bx, es entonces:
yc = 2934 38.56x

Tema: Estimacin mediante la lnea de regresin simple.


Desarrollo:
ESTIMACIN MEDIANTE LA LNEA DE REGRESIN SIMPLE
La regresin lineal simple comprende el intento de desarrollar una lnea recta o ecuacin
matemticas lineal que describa la relacin entre dos variables.
Las ecuaciones de regresin pueden ser utilizadas de diversas formas. Se emplean en
situaciones en las que dos variables miden aproximadamente lo mismo, pero en las que
una variable es relativamente costosa o, por el contrario, es poco interesante trabajar con
ella, mientras que con la otra variable no ocurre lo mismo. Por ejemplo, la resistencia y
dureza de un metal pueden estar relacionadas, de tal manera que si se conoce la dureza
del metal, se puede estimar fcilmente su resistencia. Si al probar la resistencia se
destruye el metal, y no sucede lo mismo en la prueba para la dureza, una persona
interesada en estimar la resistencia, obviamente podra preferir basarse en la prueba de la
dureza para estimar la resistencia. La finalidad de una ecuacin de regresin sera
estimar los valores de una variable con base en los valores conocidos de la otra.
Otra forma de emplear las ecuaciones de regresin es para explicar los valores de una
variable en trminos de la otra. Es decir, se puede intuir una relacin de causa y efecto
entre dos variables. Por ejemplo, una economista puede intentar explicarse los cambios

en la demanda de automviles usados, en trminos del nivel de desempleo. Un agricultor


puede creer que la cantidad de fertilizantes que utiliz influy en la cosecha lograda. La
velocidad de un automvil podra ser, un factor para determinar la distancia de frenado.
Sin embargo, se deber observar que, la lgica de una relacin causal, debe provenir de
teoras externas al campo de la estadstica. El anlisis de regresin nicamente indica
que relacin matemtica podra haber, de existir una. En otras palabras, ni con la
regresin ni con la correlacin se puede establecer si una variable tiende a causar
ciertos valores de otra variable.
Un tercer uso de la ecuacin de regresin es para predecir los valores futuros de una
variable. Por ejemplo, a menudo se llevan a cabo pruebas de seleccin para posibles
empleados o estudiantes para predecir la potencialidad de tener xito, en tanto en la
escuela como un empleo. Supuestamente existe una relacin matemtica entre la
calificacin obtenida en la prueba y el potencial futuro.
Aunque estas podran asumir una gran variedad de formas, muestra explicacin se
limitar a ecuaciones lineales. Esta ltima, o sea aquellas cuyas grficas es una lnea
recta, son importantes porque se aproximan estrechamente a muchas relaciones del
mundo real y adems porque es relativamente fcil trabajar con ellas e interpretarlas.
Otras formas de anlisis de regresin, tales como la regresin mltiple (ms de dos
variables) y la regresin curvilnea(para relaciones de forma no lineal) comprenden
extensiones de los mismos conceptos que se utilizan en el regresin lineal simple.
Dos caractersticas importantes de una ecuacin lineal son: 1) la pendiente de la recta y
2) la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma:
y = a + bx
En la que a y b son valores que se determinan a partir de los datos de la muestra; a indica
la altura de la recta en x = 0, y b seala su pendiente. La variable y es la que se habr de
predecir, y x es la variable predoctora.
En la figura 4.3 se ilustra la relacin entre la grfica de la recta y la ecuacin. La recta,
cuya ecuacin y = a + bx, corta al eje Y en el punto y = a. El punto se llama ordenada en
el origen(Intercepcin con el eje Y) La pendiente de la recta b, indica la intensidad de
cambio de y por unidad de cambio de x, o sea, y/x.

Pendiente = b =

y
x

y = a + bx
y
x = 1

Considrese la ecuacin lineal y =5 + 3x, que se representa en la Fig. 4.2 la recta corta al
eje Y en el punto donde y = 5. La pendiente de la recta es 3, lo cual indica que para todo

cambio de una unidad en x, habr en y un cambio correspondiente de tres unidades.


Como se muestra en la tabla que sigue, la ecuacin se puede utilizar a fin de determinar
valores de y para diversos valores de x. Este ltimo mtodo (es decir, sustituir valores de
x en la ecuacin y despejar y) generalmente es preferible a leer valores en la grfica, ya
que permite un grado de precisin mayor que el que es posible obtener al utilizar una
grfica ordinaria.

2
5
2
0
1
5
1
0
5
0

10

Sin embargo, estas representaciones son importantes, debido a que crean una imagen
mental de la relacin. As mismo, en la etapa inicial del anlisis de datos puede ser til
para decidir si una relacin lineal es apropiada.
y = 5+3x
Valor de x

Valor de calculado de y

5+3(2) = 11

3.1

5+3(3.1) = 14.3

7.2

5+3(7.2) = 26.6

Decisin acerca de un tipo de relacin.

Es importante darse cuenta de que no en todos los casos se puede obtener una
aproximacin mediante una ecuacin lineal. Debido a ello, suele ser necesario realizar un
trabajo preliminar a fin de determinar si un modelo lineal ser el adecuado. El
procedimiento ms simple es graficar los datos y determinar por examen si parece existir
una relacin lineal. Examine las grficas de la Fig. 4.4 y observe que los puntos en (b) y
en (c) parece seguir un alineamiento.
Cuando los datos no se pueden aproximar con un modelo, las alternativas son buscar un
modelo no lineal adecuado o bien, cambiar los datos a la forma lineal. Por ejemplo, si se
convierten una o ambas escalas en logartmicas pueden ligarse a un modelo lineal. Esto
probablemente producira una recta en el eso de la Fig. 4.4 (a)

*
*

*** *
* *

**
* *

* *

*
*

**

**

DETERMINACIN DE LA ECUACIN MATEMTICA.


Concentremos nuestra atencin en la forma de obtener la ecuacin de la recta que mejor
describa un conjunto de observaciones. Supngase como un ejemplo que se quiere
determinar si existe relacin entre el kilometraje de un automvil usado y su precio de
venta.
15
* * *
10
*
0-

* *
* *
*

* *
*

*
*

200

300

400

*
0 100

500

**

12
10
86-

* * *

*
4-

* *

2-

*
0 1

* * *
2

Es decir, se indaga si el precio depende del kilometraje del automvil. En termino de


regresin el kilometraje se designara como la variable independiente o explicativa, y el
precio de venta como la Variable dependiente o explicada. Es tradicional utilizar el
smbolo x para representar los valores de la variable independiente, el smbolo y para
valores de la variable dependiente.

En la regresin, los valores de y son predichos a partir de valores de x dados o conocidos. la


variable y recibe el nombre de variable dependiente y la variable x el de variable independiente.

Tema: Anlisis de correlacin.


Desarrollo:
Anlisis de correlacin .Conjunto de tcnicas estadsticas empleado para medir la
intensidad de la asociacin entre dos variables.
El principal objetivo del anlisis de correlacin consiste en determinar que tan intensa es
la relacin entre dos variables. Normalmente, el primer paso es mostrar los datos en un
diagrama de dispersin.
Diagrama de dispersin Grfica que representa la relacin entre dos variables.
Un ejemplo mostrar cmo se aplica el citado diagrama.

La empresa Copier Sales of Amrica, Inc., vende copiadoras a negociaciones


grandes, medianas y pequeas en Estados Unidos y Canad. La seorita Marcy
Bencer fue promovida recientemente al puesto de gerente nacional de ventas. A la

prxima junta de ventas asistirn los representantes de todo el pas. A ella le


gustara hacerles notar la importancia de hacer llamadas extra cada da. Decide
reunir alguna informacin acerca de la relacin entre el nmero de llamadas y el
nmero de productos vendidos. Seleccion al azar una muestra de 10
representantes y determino el nmero de llamadas que hicieron el ltimo mes, y el
de copiadoras que vendieron. La informacin muestral se tiene en tabla
4.2.Transfiera stos datos a un diagrama de dispersin Qu observaciones
pueden hacer usted acerca de la relacin entre el nmero de llamadas y la
cantidad de copiadoras vendida
Tabla 4.2. Llamadas y copiadoras vendidas por 10 representantes.
Representantes de ventas

No. de llamadas

No. De copiadoras vendidas

Tom Keller

20

30

Jeff Hall

40

60

Brian Virost

20

40

Juan Flores

30

60

Susan Welch

10

30

Carlos Ramrez

10

40

Rich Niles

20

40

Luis Kiel

20

50

Mark Reynolds

20

30

Soni Jones

30

70

Solucin.
En base en los datos presentados en la tabla 4-2, la seorita Bencer sospecha que existe
una relacin entre el nmero de llamadas hechas en un mes, y el nmero de copiadoras
que se vendieron. Soni Jones vendi el mayor nmero de unidades el mes anterior, y era
una de las tres representantes que hizo 30 o ms llamadas. Por otra parte, Susan Welch y
Carlos Ramrez hicieron 10 llamadas en el mismo mes. A la seorita Welch correspondi
el menor nmero de copiadoras vendidas entre los representantes de la muestra.
La deduccin es que el nmero de copiadoras vendidas tiene relacin con la cantidad de
llamadas realizadas. A medida que aumenta el nmero de telefonemas crece la cantidad
de unidades vendidas El nmero de llamadas de venta se denomina variable
independiente y el nmero de copiadoras vendidas, variable dependiente.
Variable dependiente La variable que se predice o calcula.
Variable independiente Una variable que proporciona las bases para el clculo,. Es la
variable de prediccin.
Es prctica comn marcar la variable dependiente ( en este ejemplo, copiadoras
vendidas) en el eje vertical, o eje Y, o la variable independiente ( nmero de llamadas a
clientes ) en el eje horizontal , o eje X. Para establecer el diagrama de dispersin para la
informacin de ventas de la empresa en cuestin, se comienza con el primer
representante, Tom Keller, quien hizo 20 telefonemas el mes anterior y vendi 30
copiadoras; as que X = 20 y Y = 30. Para ubicar el punto obviamente se va sobre el eje
horizontal hasta llegar a X = 20, despus se sube en direccin vertical hasta
Y = 3O, y se sita as el punto respectivo en el plano XY. Este proceso se contina hasta
situar todas las parejas de datos, como se muestra en el diagrama 5-2.

unidades

llamadas
Diagrama 5-2 Diagrama de dispersin que muestra las llamadas de ventas y
las copias vendidas.
El diagrama de dispersin indica que los representantes de ventas que hacen ms
llamadas telefnicas, tienden a vender ms copiadoras. Es razonable que la seora
Bencer, la gerente nacional de ventas de la empresa mencionada, diga a sus
representantes que cuanto mayor sea el numero de llamadas a clientes que hagan, mas
copiadoras podrn esperar vender. Obsrvese que aun parece haber una relacin positiva
entre las dos variables. No todos los puntos quedan en una misma lnea recta.
COEFICIENTE DE CORRELACIN
Originado por el investigador Karl Pearson aproximadamente ene el ao 1900. El
coeficiente de correlacin. Describe la intensidad de la relacin entre dos conjuntos
de variables escalizadas por intervalo o por relacin o razn. Ya que se le denota con r,
con frecuencia se menciona tambin como r de Pearson, o como coeficiente de
correlacin, puede tomar cualquier valor de 1.00 a +1.00, inclusive.
Un coeficiente de correlacin de 1.00 o de + 1.00 indica una correlacin perfecta, esto es
el numero de telefonemas y el de productos vendidos estn perfectamente relacionados
en un sentido lineal positivo. Un valor calculado de 1.00 indica que la variable
independiente X y la variable dependiente Y estn perfectamente relacionadas en forma
lineal negativa. La forma como quedara el diagrama de dispersin si la relacin entre los
dos conjuntos de datos fuera lineal y perfecta como se observa en el siguiente diagrama.

y
Correlacin negativa perfecta
Recta con pendiente
Negativa

Correlacin positiva perfecta


r = +1.00

r = -1.00

Recta con pendiente positiva

Diagrama 5-3 Diagrama de dispersin que ilustra una correlacin


negativa perfecta y una correlacin positiva perfecta.

El siguiente cuadro resume la intensidad y la direccin del coeficiente de


correlacin.

Correlacin
Correlacin
Negativa
Perfecta

Ninguna
Correlacin

Correlacin
Negativa
Intensa.
-1.00

Correlacin
Negativa
Moderada

Correlacin
negativa
dbil

-0.50
Correlacin negativa

Correlacin
Positiva
dbil
0

Positiva
Perfecta.
Cor5relacion Correlacion
Positiva
Positiva
Moderada
Intensa
0.50

1.00

Correlacin positiva

Coeficiente de correlacin Medida de la intensidad de la relacin lineal entre dos


variables.
Para determinar el valor numrico del coeficiente de correlacin, se utiliza la siguiente
expresin la frmula para r es :

n( xy) ( x ) (y )
Coeficiente de correlacin r =
[ n ( x2 ) (x )2 ] [ n (y2 ) - (y )2 ]
Donde:
n
X
Y

nmero de pares de observaciones.


suma de los valores de la variable X.
suma de los valores de la variable Y.

(x2)
(x)2
( y2)
( y)2

suma de los valores de X elevados al cuadrado.


cuadrado de la suma de los valores de X.
suma de los valores de Y elevados al cuadrado.
cuadrado de la suma de los valores de Y.

XY

suma de los productos de X y Y.

Ejemplo
Refirase al ejemplo anterior, donde se desarroll un diagrama de dispersin que ilustra la
relacin entre el nmero de telefonemas a clientes y la cantidad de copiadoras vendidas.
Determine el coeficiente de correlacin.
Tabla 4.2. Llamadas y copiadoras vendidas por 10 representantes.
x2

copiadoras

y2

Representantes de
ventas

Llamadas

xy

(x)

vendidas (y)

Tom Keller

20

30

4 00

9 00

6 00

Jeff Hall

40

60

1 600

3 600

2 400

Brian Virost

20

40

4 00

1 600

8 00

Juan Flores

30

60

9 00

3 600

1 800

Susan Welch

10

30

1 00

9 00

3 00

Carlos Ramrez

10

40

1 00

1 600

4 00

Rich Niles

20

40

4 00

1 600

8 00

Luis Kiel

20

50

4 00

2 500

1 000

Mark Reynolds

20

30

4 00

9 00

6 00

Soni Jones

30

70

9 00

4 900

2 100

Total

220

450

5 600

22 100

10 800

El coeficiente de correlacin es 0.759, que se evala por medio de la frmula:


r=

n XY x Y
[n (x2) (x)2] [n (y2) (y)2]
10 (10 800) (220) (450)

=
[10 (5 600)- (220)2] [10(22 100) - (450)2
= 0.759
Cmo se interpreta un correlacin de 0.759? Primero: es positiva, as que se ve que existe
una relacin directa entre el nmero de telefonemas y el nmero de copiadoras vendidas. Esto
confirma el razonamiento basado en el grfico de dispersin. El valor de 0.759 est muy cerca

de 1.00, as que se concluye que la asociacin es fuerte. Para expresarlo de otro modo, un 25%
de incremento en las llamadas probablemente conducir a un 25% de aumento en las ventas.
Coeficiente de determinacin
Una medida que tiene una aceptacin ms fcil de interpretar es el coeficiente de
determinacin. Se calcula elevando al cuadrado el coeficiente de correlacin. Para el
ejemplo, dicho coeficiente de determinacin, r2, vale 0.576, que proviene de (0.759). Esta
es una relacin proporcional o porcentaje; puede decirse que 57.6% de la variacin en el
nmero de copiadoras vendidas se explica por la variacin en el nmero de telefonemas.
Coeficiente de determinacin La porcin de la variacin total en la variable Y, que explica
por la variacin en la variable independientes X.