Professional Documents
Culture Documents
Donde p
p zp
Error estndar de la p =
proporcin muestral
p (1-p )
pz
p - (1 - p)
n
Donde:
P = es la proporcin muestral.
Z = es el valor de z del grado de confianza seleccionado.
n = es el tamao de la muestra.
Ejemplo
Suponga que 1600 de 2000 trabajadores sindicalizados que se muestrean dijeron
que planean poner a votacin una propuesta para unirse a una federacin. Si se
utiliza un nivel de confianza de 0.95 Cul es la estimacin de intervalo para la
proporcin poblacional A que conclusin se llegara con base en el intervalo de
confianza?
Solucin:
Utilizando la formula anterior , el intervalo se calcula como sigue:
pz p (1-p)
= 0.801.96
0.80(1-0.80)
2 000
= 0.801.960.00008
= 0.782 y 0.818
0.782 P0.818
Los lmites de confianza 78.2 y 81.8%; supngase que por lo menos 75% de los
miembros del sindicato deben aprobar la fusin. Con base en los resultados de la
muestra, cuando votan todos los trabajadores sindicalizados, la propuesta
probablemente ser aceptada debido a que 0.75 est por debajo del intervalo 0.782
y 0.818
confianza,
denominados
coeficientes
de
confianza,
son
simplemente
de 95.5% de todas las medias muestrales. Por tanto, al comenzar con cualquier
media muestral, si se pasa de dos errores estndar por encima de dicha media y
dos por debajo de ella, se puede tener un 95.5% de confianza en que el intervalo
resultante contenga la media poblacional desconocida.
95.5%
2x
Xs
-2 x
LIC1
=?
X1
+2 x
LSC1
permite
intervalo construido
similarmente que incluye el parmetro que se estima. Por ejemplo, el 95% se refiere
al 95% central de las observaciones. Por tanto, el 5% restante se divide por igual
entre los dos extremos. Vase el diagrama siguiente:
1.5000
0.5000
1.4750
1.25
0.4750
0.025
-1.96
1.96
Escala de z
x =
Donde:
Sx =
s
n
Intervalo de confianza
De 99% para una media
X 2.58 s
n
Otros niveles de confianza pueden ser empleados. Para estos casos el valor z
cambia correspondientemente. En general, un intervalo de confianza para la media
se calcula por:
Intervalo de confianza
Para una media
Xz
s
n
X 1.96 s
n
calcula la desviacin estndar del nmero de horas de labor, y se utiliza ste para
determinar el tamao adecuado de la muestra.
Puede expresarse la interaccin entre esto tres factores y el tamao de la muestra
con la frmula que sigue:
E=z
s
n
Tamao de muestra
z .s
Donde:
n es el tamao de muestra.
z es el valor normal estndar correspondiente al nivel de confianza deseado.
s es un estimado de la desviacin estndar de la poblacin.
E es el mximo error permisible.
El resultado de ste calculo no siempre es un nmero entero, por lo que la prctica
usual es redondear cualquier nmero fraccionario. Por ejemplo, 201.22 se redondea
a 202.
Ejemplo
Un estudiante de administracin pblica desea determinar el ingreso medio de los
miembros de concejos urbanos. El error al estimar la media es menor que
$100(dlares)con un nivel de confianza de 95%. El estudiante encontr un informe
presentado por el Departamento del Trabajo que estimaba la desviacin estndar en
$1 000. Cul es el tamao de muestra requerido?
Solucin.
El mximo error permisible, E, es $100. El valor z para un nivel de confianza de 95%
es 1.96, y el estimado de la desviacin estndar es $1 000. Al introducir estos
valores en la formula anterior, se tiene el tamao requerido de la muestra:
n = ( 1.96) ($1 000)
$ 100
n = (19.6)2
n = 384.18 385
El valor calculado de 384.18 se redondea a 385. Se requiere una muestra de 385
para cumplir con las especificaciones.
conceptos:
1. El nivel de confianza deseado, generalmente 95%, o bien 99% .
2. El margen de error que se requiere en la proporcin de la poblacin.
3. Un estimado de la proporcin poblacional.
La formula para determinar el tamao de la nuestra de una proporcin es:
n = p(1-p)( z / E )2
y
dn
*
*(x ,y )
1
d1
*b(x2,y2)
d2
Fig. 4.1
Una medida de la bondad del ajuste de la curva C que al conjunto de datos la
suministra la cantidad d12 + d22+.....+dn2. Si la suma es pequea el ajuste es bueno si es
grande el ajuste es malo. Por tanto tomamos la siguiente:
Definicin. De todas las curvas de aproximacin de un conjunto de puntos de datos
dados, la curva que tenga la propiedad de que:
d12 +d22+..........+dn2 = un mnimo
es la mejor curva de ajuste.
Una curva con sta propiedad se dice que ajusta los datos en el sentido de mnimos
cuadrados y se llama curva de regresin de mnimos cuadrados o simplemente curva de
mnimos cuadrados. Por tanto una recta con sta propiedad se llama recta de mnimos
cuadrados, una parbola con sta propiedad se llama parbola de mnimos cuadrados,
etc.
Se acostumbra emplear la definicin anterior cuando x es la variable independiente y y
es la variable dependiente. Si x es la variable dependiente, la definicin se modifica al
considerar las desviaciones horizontales en cambio de las verticales, que se reduce a
intercambiar los ejes x, y. Estas dos definiciones conducen en general a dos curvas de
mnimos cuadrados diferentes. Al menos que se especifique lo contrario consideraremos a
y como la variable dependiente y a x como la independiente.
La recta resultante presenta dos caractersticas importantes:
es nula la suma de las desviaciones verticales de los puntos a partir de la recta y es
mnima la suma de los cuadrados de dichas desviaciones (es decir, ninguna otra recta
dara una suma menor de las desviaciones elevadas al cuadrado). Simblicamente, el
valor que se minimiza es
(yi yc)2
en el cual
yi = valor observado de y
yc = valor calculado de y utilizando la ecuacin de mnimos cuadrados con el valor
correspondiente de x para yi.
Los valores de a y b para la recta yc = a + bx que minimiza la suma de los cuadrados de
las desviaciones, son las soluciones a las llamadas ecuaciones normales.
y = na+b (x)
xy = a(x)+b(x2)
En las que n es el nmero de pares de observaciones. As, evaluando las cantidades
como x, xy, etc., se puede resolver estas dos ecuaciones simultneas para determinar
a y b. sin embargo, en las ecuaciones pueden despejarse a y b, y esto proporciona un
modo ms sencillo de clculo. Se obtienen dos formulas, una para a y otra para b:
b=
a = y b x
n
Es posible utilizar el mtodo de mnimos cuadrados para obtener una recta, en el caso del
kilometraje y el precio de venta. A partir de las ecuaciones anteriores, es evidente que,
para determinar la ecuacin lineal primero se debern calcular los valores de x, y, x2
y xy, los cuales se determinan a partir de los datos de la muestra. Una cantidad
adicional, y2, tambin deber calcularse para usos posteriores. Cabe observar que n =
14 partes de observaciones. Los valores respectivos se muestran en la tabla 4.1
IV.1.1 Tabla 4.1. Clculos para los datos
Observacin
Recorrido
Precio venta
xy
x2
y2
$ 1,000.00
40000
1600
1000000
30
1,500.00
45000
900
2250000
30
1,200.00
36000
900
1440000
25
1,800.00
45000
625
3240000
50
800.00
40000
2500
640000
60
1,000.00
60000
3600
1000000
65
500.00
32500
4225
250000
10
3,000.00
30000
100
9000000
15
2,500.00
37500
225
6250000
10
20
2,000.00
40000
400
4000000
11
55
800.00
44000
3025
640000
12
40
1,500.00
60000
1600
2250000
13
35
2,000.00
70000
1225
4000000
14
30
2,000.00
60000
900
4000000
x = 505
y = 21600
xy= 640000
x = 21825
y2 = 39960000
40
Pendiente = b =
y
x
y = a + bx
y
x = 1
Considrese la ecuacin lineal y =5 + 3x, que se representa en la Fig. 4.2 la recta corta al
eje Y en el punto donde y = 5. La pendiente de la recta es 3, lo cual indica que para todo
2
5
2
0
1
5
1
0
5
0
10
Sin embargo, estas representaciones son importantes, debido a que crean una imagen
mental de la relacin. As mismo, en la etapa inicial del anlisis de datos puede ser til
para decidir si una relacin lineal es apropiada.
y = 5+3x
Valor de x
Valor de calculado de y
5+3(2) = 11
3.1
5+3(3.1) = 14.3
7.2
5+3(7.2) = 26.6
Es importante darse cuenta de que no en todos los casos se puede obtener una
aproximacin mediante una ecuacin lineal. Debido a ello, suele ser necesario realizar un
trabajo preliminar a fin de determinar si un modelo lineal ser el adecuado. El
procedimiento ms simple es graficar los datos y determinar por examen si parece existir
una relacin lineal. Examine las grficas de la Fig. 4.4 y observe que los puntos en (b) y
en (c) parece seguir un alineamiento.
Cuando los datos no se pueden aproximar con un modelo, las alternativas son buscar un
modelo no lineal adecuado o bien, cambiar los datos a la forma lineal. Por ejemplo, si se
convierten una o ambas escalas en logartmicas pueden ligarse a un modelo lineal. Esto
probablemente producira una recta en el eso de la Fig. 4.4 (a)
*
*
*** *
* *
**
* *
* *
*
*
**
**
* *
* *
*
* *
*
*
*
200
300
400
*
0 100
500
**
12
10
86-
* * *
*
4-
* *
2-
*
0 1
* * *
2
No. de llamadas
Tom Keller
20
30
Jeff Hall
40
60
Brian Virost
20
40
Juan Flores
30
60
Susan Welch
10
30
Carlos Ramrez
10
40
Rich Niles
20
40
Luis Kiel
20
50
Mark Reynolds
20
30
Soni Jones
30
70
Solucin.
En base en los datos presentados en la tabla 4-2, la seorita Bencer sospecha que existe
una relacin entre el nmero de llamadas hechas en un mes, y el nmero de copiadoras
que se vendieron. Soni Jones vendi el mayor nmero de unidades el mes anterior, y era
una de las tres representantes que hizo 30 o ms llamadas. Por otra parte, Susan Welch y
Carlos Ramrez hicieron 10 llamadas en el mismo mes. A la seorita Welch correspondi
el menor nmero de copiadoras vendidas entre los representantes de la muestra.
La deduccin es que el nmero de copiadoras vendidas tiene relacin con la cantidad de
llamadas realizadas. A medida que aumenta el nmero de telefonemas crece la cantidad
de unidades vendidas El nmero de llamadas de venta se denomina variable
independiente y el nmero de copiadoras vendidas, variable dependiente.
Variable dependiente La variable que se predice o calcula.
Variable independiente Una variable que proporciona las bases para el clculo,. Es la
variable de prediccin.
Es prctica comn marcar la variable dependiente ( en este ejemplo, copiadoras
vendidas) en el eje vertical, o eje Y, o la variable independiente ( nmero de llamadas a
clientes ) en el eje horizontal , o eje X. Para establecer el diagrama de dispersin para la
informacin de ventas de la empresa en cuestin, se comienza con el primer
representante, Tom Keller, quien hizo 20 telefonemas el mes anterior y vendi 30
copiadoras; as que X = 20 y Y = 30. Para ubicar el punto obviamente se va sobre el eje
horizontal hasta llegar a X = 20, despus se sube en direccin vertical hasta
Y = 3O, y se sita as el punto respectivo en el plano XY. Este proceso se contina hasta
situar todas las parejas de datos, como se muestra en el diagrama 5-2.
unidades
llamadas
Diagrama 5-2 Diagrama de dispersin que muestra las llamadas de ventas y
las copias vendidas.
El diagrama de dispersin indica que los representantes de ventas que hacen ms
llamadas telefnicas, tienden a vender ms copiadoras. Es razonable que la seora
Bencer, la gerente nacional de ventas de la empresa mencionada, diga a sus
representantes que cuanto mayor sea el numero de llamadas a clientes que hagan, mas
copiadoras podrn esperar vender. Obsrvese que aun parece haber una relacin positiva
entre las dos variables. No todos los puntos quedan en una misma lnea recta.
COEFICIENTE DE CORRELACIN
Originado por el investigador Karl Pearson aproximadamente ene el ao 1900. El
coeficiente de correlacin. Describe la intensidad de la relacin entre dos conjuntos
de variables escalizadas por intervalo o por relacin o razn. Ya que se le denota con r,
con frecuencia se menciona tambin como r de Pearson, o como coeficiente de
correlacin, puede tomar cualquier valor de 1.00 a +1.00, inclusive.
Un coeficiente de correlacin de 1.00 o de + 1.00 indica una correlacin perfecta, esto es
el numero de telefonemas y el de productos vendidos estn perfectamente relacionados
en un sentido lineal positivo. Un valor calculado de 1.00 indica que la variable
independiente X y la variable dependiente Y estn perfectamente relacionadas en forma
lineal negativa. La forma como quedara el diagrama de dispersin si la relacin entre los
dos conjuntos de datos fuera lineal y perfecta como se observa en el siguiente diagrama.
y
Correlacin negativa perfecta
Recta con pendiente
Negativa
r = -1.00
Correlacin
Correlacin
Negativa
Perfecta
Ninguna
Correlacin
Correlacin
Negativa
Intensa.
-1.00
Correlacin
Negativa
Moderada
Correlacin
negativa
dbil
-0.50
Correlacin negativa
Correlacin
Positiva
dbil
0
Positiva
Perfecta.
Cor5relacion Correlacion
Positiva
Positiva
Moderada
Intensa
0.50
1.00
Correlacin positiva
n( xy) ( x ) (y )
Coeficiente de correlacin r =
[ n ( x2 ) (x )2 ] [ n (y2 ) - (y )2 ]
Donde:
n
X
Y
(x2)
(x)2
( y2)
( y)2
XY
Ejemplo
Refirase al ejemplo anterior, donde se desarroll un diagrama de dispersin que ilustra la
relacin entre el nmero de telefonemas a clientes y la cantidad de copiadoras vendidas.
Determine el coeficiente de correlacin.
Tabla 4.2. Llamadas y copiadoras vendidas por 10 representantes.
x2
copiadoras
y2
Representantes de
ventas
Llamadas
xy
(x)
vendidas (y)
Tom Keller
20
30
4 00
9 00
6 00
Jeff Hall
40
60
1 600
3 600
2 400
Brian Virost
20
40
4 00
1 600
8 00
Juan Flores
30
60
9 00
3 600
1 800
Susan Welch
10
30
1 00
9 00
3 00
Carlos Ramrez
10
40
1 00
1 600
4 00
Rich Niles
20
40
4 00
1 600
8 00
Luis Kiel
20
50
4 00
2 500
1 000
Mark Reynolds
20
30
4 00
9 00
6 00
Soni Jones
30
70
9 00
4 900
2 100
Total
220
450
5 600
22 100
10 800
n XY x Y
[n (x2) (x)2] [n (y2) (y)2]
10 (10 800) (220) (450)
=
[10 (5 600)- (220)2] [10(22 100) - (450)2
= 0.759
Cmo se interpreta un correlacin de 0.759? Primero: es positiva, as que se ve que existe
una relacin directa entre el nmero de telefonemas y el nmero de copiadoras vendidas. Esto
confirma el razonamiento basado en el grfico de dispersin. El valor de 0.759 est muy cerca
de 1.00, as que se concluye que la asociacin es fuerte. Para expresarlo de otro modo, un 25%
de incremento en las llamadas probablemente conducir a un 25% de aumento en las ventas.
Coeficiente de determinacin
Una medida que tiene una aceptacin ms fcil de interpretar es el coeficiente de
determinacin. Se calcula elevando al cuadrado el coeficiente de correlacin. Para el
ejemplo, dicho coeficiente de determinacin, r2, vale 0.576, que proviene de (0.759). Esta
es una relacin proporcional o porcentaje; puede decirse que 57.6% de la variacin en el
nmero de copiadoras vendidas se explica por la variacin en el nmero de telefonemas.
Coeficiente de determinacin La porcin de la variacin total en la variable Y, que explica
por la variacin en la variable independientes X.