Professional Documents
Culture Documents
DISTRIBUCIONES MUESTRALES
Si las muestras obtenidas de una población son aleatorias, no se espera que dos
muestras aleatorias del mismo tamaño y tomadas de la misma población sean
completamente parecidas; puede esperarse que cualquier estadístico, como por ejemplo
la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su
valor de una muestra a otra. Por ello, lo que se busca es estudiar la distribución de todos
los valores posibles de un estadístico. Es decir, como los valores de un estadístico, tal
como x, varían de una muestra aleatoria a otra, se le puede considerar como una
variable aleatoria con su correspondiente distribución de frecuencias. La distribución de
frecuencias de un estadístico muestral se denomina distribución muestral. En general,
la distribución muestral de un estadístico es la de todos sus valores posibles
calculados a partir de muestras del mismo tamaño.
1
3. Se lista en una columna los distintos valores de la estadística, y en otra columna
las frecuencias correspondientes de cada valor observado.
Así, si se calcula la media muestral para cada muestra; la colección de todas estas
medias muestrales recibe el nombre de distribución muestral de medias. Si hacemos lo
mismo con las desviaciones estándares, la colección de todas estas desviaciones
estándar muestrales se llama distribución muestral de la desviación estándar.
Normalmente, para una distribución muestral, se tiene interés en conocer tres cosas:
media, varianza y forma funcional (apariencia gráfica).
ESTIMACION
Estimación Puntual
2
ser 0'90, 0'95 y 0'99. Tendremos que obtener dos estadísticos que nos darán los
valores extremos del intervalo, tales que
PRUEBA DE HIPOTESIS
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una
o más poblaciones.
3
Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales
desconocidos. Las hipótesis paramétricas se clasifican en:
H o : 0
I
H1 : 0
H o : 0
II
H1 : 0
H o : 0
III
H1 : 0
H o : 1 2
IV
H1 : 1 ó >2
Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres
maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,
entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha
cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el
proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales como
las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En
esta situación, el objetivo usual de la prueba de hipótesis es probar el
cumplimiento de las especificaciones.
4
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen
del empleo de la información contenida en la muestra aleatoria de la población de
interés. Si esta información es consistente con la hipótesis, se concluye que ésta es
verdadera; sin embargo si esta información es inconsistente con la hipótesis, se
concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una
hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda
examinarse a toda la población. Usualmente esto es imposible en muchas situaciones
prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis
teniendo en cuenta la probabilidad de llegar a una conclusión equivocada.
La región crítica está constituida por el conjunto de muestras para las cuales se rechaza
la hipótesis nula H0.
La región de aceptación está constituida por el conjunto de muestras para las cuales se
acepta la hipótesis nula H0.
El valor o valores que separan la región crítica de la región de aceptación reciben el
nombre de valor o valores críticos.
Cuando el contraste es de la forma I o IV, o sea, bilateral, estas regiones serán del tipo
de las indicadas en el siguiente gráfico:
Si el contraste es de forma II, es decir, unilateral a la izquierda, estas regiones serán del
tipo de las indicadas en el siguiente gráfico:
5
↑
Valor crítico
En todo problema de decisión, cuando tenemos que elegir entre varias alternativas o
decisiones existe la posibilidad o riesgo de equivocarnos cometiendo los
correspondientes errores. Así pues, en el contraste de hipótesis, basándonos en la
información proporcionada por la muestra, tenemos que decidir si aceptamos la hipótesis
nula H 0 o si la rechazamos. La decisión siempre la hacemos sobre la hipótesis nula,
existiendo un riesgo de equivocarnos que nos llevará a los errores de tipo I y de tipo II.
El error tipo II ó error se define como la aceptación de la hipótesis nula cuando ésta
es falsa.
Existen cuatro resultados posibles de nuestra decisión sobre la hipótesis nula, dos de
ellos no nos llevan a ningún tipo de error y los otros dos dan lugar a los errores de tipo I
y de tipo II. En efecto, la tabla siguiente nos muestra los cuatro posibles resultados:
Decisión correcta
Error de tipo I No hay error
Rechazamos H 0 1-
6
Si la hipótesis nula H0 es verdadera, podemos aceptar H0 o rechazar H0 basándonos en
la información proporcionada por la muestra. Si aceptamos H0 cuando es verdadera, la
decisión es correcta y no hay error. Si rechazamos H0 cuando es verdadera, hemos
cometido un error, que se llama error de tipo I.
Si la hipótesis nula H0 es falsa, podemos aceptar H0 o rechazar H0 basándonos en la
información muestral. Si aceptamos H0 cuando es falsa, hemos cometido un error, que
se llama error de tipo II. Si rechazamos la hipótesis nula H0 cuando es falsa, la decisión
es correcta y no hay error.
Es necesario dar una medida de la posibilidad o del riesgo de cometer estos dos tipos de
errores. Estas medidas son probabilidades y las notaremos por α y β, siendo:
Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno
por lo general tiene como resultado un aumento en la probabilidad del otro. El tamaño de
la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede
reducir al ajustar el o los valores críticos. Un aumento en el tamaño muestral n reducirá
la probabilidad de error. Si los errores de tipo I y de tipo II son nulos, α=β=0, entonces
decimos que el test o contraste es ideal.
Cuando estudiamos los intervalos de confianza, decimos que 1-α es el nivel de
confianza, y ahora podemos decir que representa el complemento de la P (error de tipo
I), siempre y cuando el test sea bilateral, es decir:
7
Contraste bilateral o contraste de dos colas: es el contraste de hipótesis cuya región de
rechazo está formada por las dos colas de la distribución del estadístico de contraste,
bajo H0. Es decir, la región de rechazo se divide en dos lados o colas de la distribución
de la estadística de prueba.
Estadística de prueba:
Se tiene una población de tamaño N=5, la cual se compone de las edades de cinco
niños que son pacientes externos de una clínica de salud mental. Las edades son las
siguientes: x1=6, x2=8, x3=10, x4=12, x5=14. La media para esta población es igual a
x / N =(6+8+10+12+14)/5 = 10. La varianza es
x 2
2=
40
= =8
N 5
2
S=
x 2
=
40
=10
N 1 4
8
Esta cantidad se utilizara en el los temas de inferencia estadística.
Siguiendo con el ejemplo, a partir de esta población se extraen todas las muestras
posibles de tamaño n=2. Se observa que cuando el muestreo se efectúa con
reemplazos, hay 25 muestras posibles, cada una con sus respectivas medias
muestrales. Para elaborar una distribución muestral para x se listan los diferentes
valores de x en una columna y sus frecuencias de ocurrencia en otra.
Como dijimos anteriormente, para una distribución muestral se tiene interés en la forma
funcional de la distribución, su media y su varianza.
Para el cálculo de la media muestral se suman las 25 medias de las muestras y se divide
entre el número de muestras. Es interesante destacar que la media de la distribución
muestral para x tiene el mismo valor que la media para la población original. El cálculo
de la varianza se calcula de la siguiente manera:
x x
2
100 8 2
2
x =
i
= =4= =
Nn 25 2 n
9
/ n . (N-n)/(N-1)
x
z=
10
centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta
población, determine:
a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
b. El número de medias muestrales que caen por debajo de 172 centímetros.
Solución: Como se puede observar en este ejercicio se cuenta con una población finita y
un muestreo sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se
procederá a calcular el denominador de Z para sólo sustituirlo en cada inciso.
a.
b.
11
Estimación para la Media
12
El intervalo de confianza al nivel de1- para la esperanza de una normal de varianza
conocida es el comprendido entre los valores
De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z
se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel
de confianza establecido. Este valor de Z se conoce como coeficiente de confiabilidad,
que indica en cuantos errores estándar están aproximadamente el 95% de los valores
posibles de x (siempre que 1- =0.95). El otro componente conocido es el error
estándar o desviación estándar de la distribución muestral de x .
Cuando 1- = 0.95, el intervalo recibe el nombre de confianza del 95% para . Se dice
que se tiene el 95 por ciento de confianza de que la media de la población esté dentro
del intervalo calculado.
Como vemos, conociendo la ley de distribución, la media muestral y la varianza,
podemos estimar el valor de la media poblacional.
13
error estándar es de x=12/ 15 = 3.10. Por lo tanto el intervalo de confianza del 99%
para es:
84.3 2.58(3.10)
84.3 8.0
(76.3 ; 92.3)
Se dice que se tiene el 99% de confianza de que la media de la población esta entre
76.3 y 92.3 ya que, al repetir el muestreo, el 99% de todos los intervalos que podrían ser
construidos de esta forma, incluirían a la media de la población.
En los casos en los que se desconoce pero la población de donde provienen los datos
es normal, lo correcto es utilizar otra distribución llamada "t" de student, que no depende
de (desconocido) sino de su estimación puntual insesgada, es decir la cuasivarianza
típica. Esta distribución se aplicara siempre que no sean conocidos la media y varianza
de la población. El calculo de la media y el intervalo de confianza al nivel 1- cuando los
parámetros son desconocidos es:
14
El procedimiento es básicamente el mismo, lo que es diferente es el origen del
coeficiente de confiabilidad. Este se obtiene a partir de la tabla de distribución t.
96 2.1448(9.04)
96 19
( 77 ; 15 )
Este intervalo se puede interpretar desde dos puntos de vista, probabilístico y práctico.
Se dice que se tiene el 95% de confianza de que la media real de la población está
entre 77 y 115 ya que con muestreos repetidos, el 95% de los intervalos construidos de
una forma semejante incluyen a .
Los contrastes para la media son muy importantes. Cuando analizamos un carácter
dentro de una población, una de las primeras cosas que hacemos es calcular la media
para dicho carácter. Muchas veces tenemos un valor a priori de la media poblacional y
es necesario determinar si coincide o se aproxima al valor real en la población. Los
contrastes de hipótesis para la media nos permiten comprobar si el valor fijado a priori
de la media coincide con el de la población. Cuando el muestreo se realiza a partir de
una población normal y se conoce la varianza de la población, la estadística de prueba
para H0 : = 0 es:
Este contraste se aplica cuando tenemos una población que se distribuye normalmente
N(μ,σ), en donde la varianza 2 es conocida, y mediante una muestra aleatoria simple
de tamaño n, ( x1 , x2 , x3 ,..., xn ) , y un nivel de significación α dado, queremos realizar los
siguientes contrastes:
15
H 0 : 0
1.
H1 : 0
H 0 : 0
2.
H1 : 0
H 0 : 0
3.
H1 : 0
La técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con
los datos muestrales si es verdaderamente cierta o no. Para dar una forma homogénea
a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del
contraste calculado sobre la muestra como valor experimental y a los extremos de la
región crítica, como valores teóricos. Definiendo entonces para cada caso un valor
teórico y uno experimental.
H 0 : 0
1. Contraste de De dos colas
H1 : 0
Sabemos que la población se distribuye normalmente, por lo que
Si x 0 z / 2 , 0 z / 2 rechazamos H 0 .
n n
Por lo tanto, se rechaza la hipótesis nula si el valor calculado de la estadística de prueba
cae en la región de rechazo y no se rechaza si cae en la región de aceptación.
16
H 0 : 0
2. Contraste de De una cola
H1 : 0
y como región crítica consideraremos aquella formada por los valores extremadamente
bajos de Zexp, con probabilidad , es decir
x 0
- Aceptamos H 0 si: zexp - z / 2
n
H 0 : 0
3. Contraste de
H1 : 0
17
Si observamos el caso anterior, podemos ver que aquí tomamos como hipótesis
alternativa su contraria. Por simetría con respecto al caso anterior, la región donde no se
rechaza la hipótesis nula es
x 0
- Aceptamos H 0 si: zexp z / 2
n
Solución: H0: = 25
H1: ≠ 25
Primero, es necesario especificar las regiones de rechazo y aceptación. Para ello
definimos un nivel de significación , que es la probabilidad de cometer un error de tipo
I. Supongamos que queremos que la probabilidad de rechazar una hipótesis nula
verdadera es =0.05. Al estar la región de rechazo formada por dos partes (contraste
bilateral), parece lógico que se pueda dividir a en partes iguales siendo /2=0.025.
La región de aceptación será 1- /2= 0.975. Este valor nos ayudara a encontrar el valor
de z en la tabla de distribución normal. El valor z para 1- /2=0.975 es 1.96. Como el
contraste es bilateral, la región de rechazo consiste en todos los valores de la estadística
18
de prueba mayores o iguales que 1.96 o menores o iguales que -1.96. Entonces, se
rechaza H0 si el valor calculado es ≥1.96 o ≤-1.96. De otra manera no se rechaza.
El valor de y la regla de decisión deben ser establecidos antes de reunir los datos, lo
cual evita que los resultados de la muestra influyan en la decisión.
Calculo de la estadística de prueba:
zexp= 22 25 =
3
= -1.41
45 / 10 2.1213
22 1.96 45 / 10
22 1.96 (2.1213)
22 4.16
(17.84 ; 26.16)
Dado que este intervalo incluye a 25, se dice que 25 es un candidato para la media y por
lo tanto, puede ser igual a 25. H0 no se rechaza.
Este contraste es aplicable cuando se tiene una muestra aleatoria simple ( x1 , x2 , x3 ,..., xn )
procedente de una población N (μ,σ), en donde ni la media ni la varianza 2 son
conocidos y, con un nivel de significación α dado, queremos realizar los siguientes
contrastes:
H 0 : 0
1.
H1 : 0
H 0 : 0
2.
H1 : 0
H 0 : 0
3.
H1 : 0
19
x 0
texp Se tendrán los siguientes contrastes.
s
n
H 0 : 0
1. Contraste de o Test de dos colas
1
H : 0
Definimos al valor del estadístico del contraste calculado sobre la muestra como valor
experimental y a los extremos de la región crítica, como valores teóricos:
Entonces:
- Se rechaza H 0 si: texp t / 2 ó texp t / 2
- Se acepta H 0 si: t / 2 texp t / 2
Ejemplo: Conocemos que las alturas X de los individuos de una ciudad, se distribuyen
de modo gaussiano. Deseamos contrastar con un nivel de significación de =0.05 si la
altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con
una muestra de n=25 personas se obtuvo:
20
Solución:
El contraste que se plantea es: H0: = 174cm
H1: ≠ 174cm
La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el
estadístico
H 0 : 0
2. Contraste de Tests de una cola
H1 : 0
21
Entonces:
H 0 : 0
3. Contraste de
H1 : 0
22
Ejemplo: Consideramos el mismo ejemplo de antes. Visto que no hemos podido
rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el
contraste sobre si la altura media es menor de 174 cm.
De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadístico
es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la
hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si
Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que
174 cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en
versión unilateral nos conduce a rechazar de modo significativo que =174 y aceptamos
que <174 cm. Es por ello que podemos decir que no sólo H0' es rechazada, sino
23
también H0. Es en este sentido en el que los tests con H0 y H0' los consideramos
equivalentes:
p̂ = p
p̂ =
pq
= 2
p̂ =
pq
n n
24
Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la
proporción en la muestra.
pˆ p
z=
pq
n
Ejemplo 1: Supóngase que en una población de seres humanos, el 0.8 son daltónicos. Si
se eligen aleatoriamente 150 individuos de esta población, ¿Cuál es la probabilidad de
que una proporción de individuos daltónicos tenga un tamaño del 0.15?
Datos:
25
p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que
al extraer una muestra de 150 personas, más de 6 presentarán una reacción
adversa.
Datos:
Observe que este valor es igual al obtenido y la interpretación es: existe una
probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una
proporción mayor de 0.04 presentando una reacción adversa.
26
Muchas preguntas de interés para los profesionales tienen relación con las proporciones
de la población. Por ejemplo ¿Qué proporción de alguna población tienen cierta
enfermedad? o ¿Qué proporción es inmune a cierta enfermedad?
Para estimar la proporción de una población se procede de la misma manera que
cuando se estima la media de una población. Se extrae una muestra de la población de
interés y se calcula la proporción p̂ . Esta se utiliza como el estimador puntual para la
proporción de la población.
Un estimador puntual de la proporción P en un experimento binomial está dado por la
estadística P =X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la
proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P.
Como vimos anteriormente, cuando np y n(1-p) son mayores que 5, se puede considerar
que la distribución muestral de p̂ se aproxima bastante a una distribución normal. En
estos casos, el coeficiente de confiabilidad es algún valor de Z de la distribución normal
estándar. El error estándar es igual pˆ (1 pˆ ) / n . Como P es el parámetro que se tarta
de calcular, se desconoce, se debe utilizar p̂ como estimación.
Podemos establecer un intervalo de confianza para P al considerar la distribución
muestral de proporciones.
27
Ejemplo: Se llevo a cabo una encuesta para estudiar los hábitos y actitud hacia la salud
mental de cierta población urbana de adultos. De los 300 entrevistados, 123 de ellos
dijeron que se sometían regularmente a una revisión dental dos veces por año. Se
desea construir un intervalo de confianza de 95% para la proporción de individuos de la
población muestreada que se somete a la revisión dental dos veces al año.
0.41 1.96(0.28)
0.41 0.05
(0.36 ; 0.46)
Se puede decir que se tiene el 95% de confianza de que la proporción real p está entre
0.36 y 0.46 ya que, al repetir el muestreo, el 95% de los intervalos construidos de esta
forma incluyen a la proporción p real.
Este test se utiliza para contrastar la igualdad o desigualdad de proporciones que han
sido estimadas y las proporciones reales. Supongamos que tenemos una sucesión de
observaciones independientes, de modo que cada una de ellas se comporta como una
distribución de Bernoulli de parámetro p. La v.a. X, definida como el número de éxitos
obtenidos en una muestra de tamaño n es por definición una v.a. de distribución
binomial:
frente a otras hipótesis alternativas. Para ello nos basamos en un estadístico (de
contraste) que ya fue considerado anteriormente en la construcción de intervalos de
confianza para proporciones y que sigue una distribución aproximadamente normal para
tamaños muestrales suficientemente grandes:
28
Entonces, si la hipótesis H0 es cierta se tiene
H 0 : p p0
2. Contraste de: Contrastes unilaterales
H1 : p p0
El criterio de aceptación o rechazo a seguir es:
29
Se acepta H 0 si: zexp z
Siendo z P Z z ó P Z z 1
H 0 : p p0
3. Contraste de:
H1 : p p0
Este es el test unilateral contrario, se tiene la expresión simétrica
30
Ejemplo: Suponer que hay interés por saber que proporción de la población de
conductores de automóviles utilizan con regularidad el cinturón de seguridad del asiento.
En una encuesta de 300 conductores adultos de automóviles, 123 de ello dijeron que
regularmente utilizaban el cinturón de seguridad. ¿Es posible concluir a partir de estos
datos que, en la población muestreada, la proporción de quienes utilizan regularmente el
cinturón de seguridad no es del 50?
A partir de los datos se tiene que p̂ =0.41 y el error estándar es (0.5)(0.5) / 300 .
El cálculo de la estadística de prueba es:
Con frecuencia, el interés se centra en dos poblaciones. Puede ser que un investigador
desee saber algo acerca de las diferencias entre las medias de dos poblaciones. Para
este y otros casos, el conocimiento acerca de la distribución muestral de la diferencia
entre dos medias es muy útil.
Se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1,
y la segunda con media 2 y desviación estándar 2. Se elige una muestra aleatoria de
tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n 2
de la segunda población; se calcula la media muestral para cada muestra y la diferencia
entre dichas medias. La colección de todas esas diferencias junto con sus frecuencias,
se llama distribución muestral de las diferencias entre medias o la distribución muestral
del estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son
normales, entonces la distribución muestral de medias es normal sin importar los
tamaños de las muestras. Sabemos que cuando n es
grande, la distribución muestral de medias tendrá aproximadamente una distribución
normal con una media igual a (la media de la población) y una desviación estándar de
/ n . Con esto podemos deducir que la media para esta distribución muestral de
diferencia de medias es igual a las diferencia entre las medias reales de las poblaciones
1- 2. La varianza es igual a ( 21/n1) + ( 22/n2). Y el error estándar de la diferencia
entre las medias muestrales es:
31
.
Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto
grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25
niñas. Se sabe que tanto para niños como para niñas los pesos siguen una distribución
normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es
de 100 libras y su desviación estándar es de 14.142, mientras que el promedio de los
pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su desviación
estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y
es el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de
que el promedio de los pesos de los 20 niños sea al menos 20 libras más grande que el
de las 25 niñas.
Solución: Datos:
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea
al menos 20 libras más grande que el de la muestra de las niñas es 0.1056.
32
Estimación de la Diferencia entre dos Medias
En ciertos casos, se desea estimar la diferencia entre las medias de dos poblaciones.
Teniendo dos poblaciones donde el carácter que estudiamos en ambas (X1 y X2) son v.a.
distribuidas según leyes gaussianas, podemos realizar una estimación de la diferencia
entre dos medias. A partir de cada población se
extrae una muestra aleatoria independiente y de los datos de cada una se calculan las
medias muestrales x 1 y x 2. Sabemos que el estimador x 1- x 2 proporciona una
estimación insesgada de 1 - 2, que es la diferencia entre las medias de las
poblaciones. La varianza del estimador es ( 12/n1) + ( 22/n2).
Por tanto, para obtener una estimación puntual de
1- 2, se seleccionan dos muestras aleatorias independientes que no tienen por qué
ser necesariamente del mismo tamaño, una de cada población, de tamaño n1 y n2, se
calcula la diferencia , de las medias muestrales.
33
distribución normal y sus varianzas son iguales a 1, calcular el intervalo de confianza del
95% para 1- 2.
1 1
= 0.39
12 15
Se dice que se tiene una confianza del 95% de que la diferencia real 1- 2, está entre
0.3 y 1.9 debido a que en muestreos repetidos el 95% de los intervalos construidos de
esa manera incluiría la diferencia entre las medias reales.
Si suponemos que las varianzas de dos poblaciones son iguales, las dos varianzas de
las muestras calculadas a partir de las muestras independientes pueden construirse
como estimaciones de una sola cosa, la varianza común. Esta varianza se obtiene
calculando el promedio ponderado de las dos varianzas de las muestras. Cada varianza
de las muestras es ponderada en base a sus grados de libertad. La estimación conjunta
se obtiene con la formula:
34
Ejemplo: Se efectuaron estudios sobre la concentración media de amilasa en suero de
una población sana. Las mediciones se efectuaron en una muestra de 15 individuos
aparentemente saludables. La muestra proporcionó una media de 96 unidades/100ml y
una desviación estándar de 35 unidades/100ml. Se hicieron también las determinaciones
de amilasa en el suero de 22 individuos hospitalizados que forman una muestra
independiente. La media y la desviación estándar de esta muestra son 120 y 40
unidades/ml, respectivamente. La estimación puntual de 1- 2 es de 120 – 96 =24. Se
desea construir un intervalo de confianza para la diferencia entre las concentraciones
medias de amilasa del suero en individuos aparentemente sanos y la media para los
pacientes hospitalizados.
Solución: Suponemos que las dos poblaciones en estudio tienen una distribución normal
y que sus varianzas son iguales. Primero, buscamos la estimación conjunta de la
varianza común como sigue:
1450 1450
(120-96) 2.0301
15 22
24 (2.0301)(12.75)
24 26
(-2 ; 50)
Se dice que se tiene un 95% de confianza de que la diferencia real 1- 2 esta entre -2
y 50 ya que, al muestrear varias veces, el 95% de los intervalos así construidos incluyen
a 1- 2.
Ejemplo: Queremos estudiar la influencia que puede tener el tabaco con el peso de los
niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que
fuman un paquete al día y otras que no) y se obtienen los siguientes datos sobre el peso
X, de sus hijos:
En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones
normales de medias desconocidas, y con varianzas que si bien son desconocidas,
podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea
fumadora en el peso de su hijo.
35
la diferencia de peso esperado entre un niño del primer grupo y otro del segundo. El
estadístico que se ha de aplicar para esta cuestión es:
donde
Consideramos un nivel de significación que nos parezca aceptable, por ejemplo =0.05,
y el intervalo buscado se obtiene a partir de
95%
Con lo cual se puede decir que un intervalo de confianza para el peso esperado en que
supera un hijo de madre no fumadora al de otro de madre fumadora está comprendido
con un nivel de confianza del 95% entre los 0,068 Kg y los 0,731 Kg.
36
ejemplo de observaciones apareadas consiste en considerar a un conjunto de n
personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de
insulina en la sangre antes (X) y después del mismo (Y). No es posible considerar a X e
Y como variables independientes ya que va a existir una dependencia clara entre las dos
variables. Si queremos contrastar el que los pacientes han experimentado o no una
mejoría con el tratamiento, llamemos di a la diferencia entre las observaciones antes y
después del tratamiento
di = xi-yi
En el caso en que H0 fuese cierta tendríamos que el estadístico de contraste que nos
conviene es:
Entonces se define
37
y se rechaza la hipótesis nula cuando:
ó .
Si el contraste es
entonces:
Se rechaza H0 si: .
Este tipo de contraste también es aplicado para diferencia de medias, pero en los casos
en los que se comparan medias poblacionales para un carácter determinado en dos
poblaciones distintas. Sean dos poblaciones normales N x , x y N y , y con x y
y conocidas, de las cuales se extraen dos muestras aleatorias e independientes de
tamaño nx y ny respectivamente. Con un nivel de significación α dado, queremos realizar
los siguientes contrastes:
H 0 : x y d0
1.
H1 : x y d 0
38
H 0 : x y d0
2.
H1 : x y d 0
H 0 : x y d0
3.
H1 : x y d 0
El caso más frecuente es cuando d0=0. Sin embrago, es posible probar la hipótesis de
que la diferencia es igual que, mayor o igual que, menor o igual que algún valor distinto
de cero.
x y d0
Utilizando el estadístico zexp se tienen los siguientes contrastes.
2
y2
x
nx ny
De manera similar al caso del contraste para una media, queremos en esta ocasión
contrastar la hipótesis de que las dos poblaciones (cuyas varianzas suponemos
conocidas) sólo difieren en una cantidad
39
Se define entonces
Para el test
40
Se acepta H 0 si: zexp z
Ejemplo: Un equipo de investigadores desea saber si los datos que han recolectado
proporcionan la evidencia suficiente para indicar una diferencia entre las
concentraciones medias de ácido úrico en el suero de individuos normales e individuos
con síndrome de Down. Los datos presentan las concentraciones de acido úrico en el
suero de 12 individuos con síndrome de Down y 15 individuos sanos. Las medias son
x 1=4.5mg/100ml y x 2=3.4mg/100ml.
Como 2.82 es mayor que 1.96 se rechaza la hipótesis nula. Se concluye que, de
acuerdo con estos datos, hay indicios de que las medias de las poblaciones son
diferentes.
1. Contraste bilateral
41
Para el contraste de significación
2. Contrastes unilaterales
42
Desean saber si es posible concluir que las medias de las poblaciones son distintas. Los
datos son las mediciones de amilasa en suero de n 2= 15 individuos sanos y n1= 22
individuos hospitalizados. Las medias muestrales y sus desviaciones estándar son las
siguientes:
x 1=120 unidades/ml s1=40 unidades/ml
x 2=96 unidades/ml s2=35 unidades/ml
21(1600) 14(1225)
Ŝ 2= =1450
21 14
(120 96) 0 24
t= = =1.88
1450 1450 12.75
15 22
Es un tipo de contraste que se aplica en el caso más problemático, es decir cuando sólo
conocemos de las dos poblaciones que su distribución es normal, y que sus varianzas
no son conocidas y significativamente diferentes. El contraste es:
En este caso el estadístico de contraste tendrá una ley de distribución muy particular.
Consistirá en una distribución t de Student, con un número de grados de libertad que en
lugar de depender de modo determinista de la muestra (a través de su tamaño),
depende de un modo aleatorio mediante las varianzas muestrales. Concretamente, el
estadístico que nos interesa es
43
No desarrollamos en detalle los cálculos a realizar, pues la técnica para efectuar los
contrastes es análoga a las vistas anteriormente cuando las varianzas son desconocidas
e iguales.
Nota
que p̂ =
pq
por lo que se puede deducir que:
n
p̂ 1 - p̂ 2 = p1-p2 y que .
44
frecuencias de ocurrencias. La fórmula que se utilizará para el cálculo de probabilidad
del estadístico de diferencia de proporciones es:
Ejemplo: Los hombres y mujeres adultos de una ciudad grande en sus opiniones sobre
la promulgación de la pena de muerte para personas culpables de asesinato. Se cree
que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que
sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de
100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte,
determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3%
mayor que el de las mujeres.
Solución: Datos:
PH = 0.12
PM = 0.10
nH = 100
nM = 100
p(pH-pM 0.03) = ?
Hay que tener en cuanta que debe incluirse el factor de corrección de 0.5 por ser una
distribución binomial y que se está utilizando la distribución normal.
45
Un estimador puntual insesgado de la diferencia de proporciones de las poblaciones se
obtiene al calcular las diferencias de las proporciones de las muestras p̂ 1 - p̂ 2. Cuando
n1 y n2 son de gran tamaño y las proporciones de la población no están muy cerca de 0 o
de 1, es posible aplicar el teorema del límite central y utilizar la teoría de la distribución
normal para obtener los intervalos de confianza.
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada
población vamos a extraer muestras de tamaño n1 y n2
Si las muestras son suficientemente grandes ocurre que
Ejemplo: Un artículo relacionado con la salud, reporta los siguientes datos sobre la
incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de
marihuana y de madres que no la fumaban:
Usuaria No Usuaria
46
Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones
entre todas las madres que fuman marihuana y definamos P2, de manera similar, para
las no fumadoras. El valor de z para un 99% de confianza es de 2.58.
-0.0064<P1-P2<0.0212
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de
manera precisa.
47
Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus
estimadores, lo que da lugar a un error que es pequeño cuando los tamaños muestrales
son importantes:
La prueba que se utiliza con más frecuencia con relación a la diferencia entre las
proporciones de dos poblaciones es aquella en la que su diferencia es cero. Sin
embargo, es posible probar que dicha diferencia es igual a algún otro valor. Se pueden
hacer pruebas unilaterales y bilaterales.
Siempre que la hipótesis nula sea p1-p2=0, se supone que las proporciones de las dos
poblaciones son iguales. Esto permite combinar los resultados de las dos muestras y
obtener una estimación ponderada de la proporción común supuesta:
p = x1+x2 / n1+n2
Donde x1 y x2 son el número de la primera y segunda muestra que poseen la
característica de interés. Esta estimación ponderada se utiliza para calcular el error
estándar estimado para el estimador como sigue:
p(1 p) p(1 p)
ˆ
n n
( pˆ pˆ ) ( p p)
Z=
̂
1. Contraste bilateral
Entonces se define
2. Contrastes unilaterales
48
En el contraste
Se rechaza H0 si Zexp> -z 1- .
90 78
p= =0.84
100 100
Como 2.32>1-645, se rechaza H0. Estos datos sugieren que el tratamiento es más
efectivo que el habitual
49
Población 1: 2
1=19.600
Población 2: 2
2=8100
a. Mayor que 6
b. Menor que 5.2
c. Entre 5 y 6
4. En una población de niños con retardo mental, se sabe que la proporción de los que
son hiperactivos es de 0.40. Se extrajo una muestra aleatoria de tamaño 120 de esa
población y otra de tamaño 100 a partir de otra población con el mismo problema. Si la
proporción de niños hiperactivos es la misma en ambas poblaciones, ¿Cuál es la
probabilidad de que la muestra proporcione una diferencia p̂ 1- p̂ 2 de 0.16 o mas?
5. Supóngase que una población se compone de los siguientes valores: 1, 3, 5, 7, 9.
Construir la distribución muestral de x a partir de muestras de tamaño 2 seleccionadas
sin reemplazo. Calcular la media y la varianza.
6. Para una población de hombres jóvenes de 17 años y otra población de mujeres de
17 años, las medias y desviaciones estándar respectivamente del grosor del pliegue
subescapular son: para los varones 9.7 y 6.0; y para las mujeres 15.6 y 9.5. Si se
obtiene una muestra aleatoria simple de 40 varones y otra de 35 mujeres a partir de
dicha población, ¿Cuál es la probabilidad de que la diferencia entre las medias de las
muestras (xchicas - xchicos) sea mayor que 10?
7. El resultado de una investigación sanitaria revela que el 55% de los individuos de la
población A y el 35% de los de la población B no padecen enfermedades
cardiovasculares. Suponer que se extrae una muestra aleatoria de tamaño 120 a partir
de la población A, y una muestra aleatoria independiente de tamaño 130 de la población
B. ¿Cuál es la probabilidad de que las diferencias entre las proporciones de la muestras
p̂ A - p̂ B esté entre 0.30 y 0.40)?
8. En una muestra al azar de 75 adultos, 35 de ellos consideran que el cáncer de
mamas es curable. Si en la población de la cual se extrajo la muestra, la probabilidad
real de quienes piensan que dicho tipo de cáncer es curable es de 0.55, ¿Cuál es la
probabilidad de obtener una proporción muestral menor o igual que la obtenida en esta
muestra?
EJERCICIOS DE ESTIMACION:
50
1. En cierta comunidad se efectuó un análisis neurológico a 110 empleados de una
fábrica de herbicidas, el cual mostró que 44 tenían anormalidades neurológicas. En una
muestra de 150 residentes que no eran empleados de la fábrica, 16 individuos mostraron
anormalidades neurológicas. Construir un intervalo de confianza del 95% para la
diferencia entre las proporciones de las poblaciones.
2. En un experimento diseñado para estimar el número promedio de latidos del corazón
por minuto para cierta población, se encontró que el número promedio de latidos por
minutos para 49 personas era de 90. Si resulta lógico suponer que esos 49 pacientes
constituyen una muestra aleatoria y que la población sigue una distribución normal, con
una desviación estándar de 10, calcular el intervalo de confianza de 90% y 95% para .
3. Se llevo a cabo un estudio para comparar las concentraciones de lipo-proteína de
alta densidad en hombres adultos con trabajos sedentarios y con trabajos manuales. Los
datos de la muestra proporcionaron los siguientes resultados:
Construir un intervalo de confianza del 95% para la diferencia entre las medias de las
poblaciones.
4. A nueve pacientes que sufren la misma incapacidad física, y por lo tanto son
comparables, se les pidió que llevaran a cabo cierta tarea como parte de un
experimento. El tiempo promedio necesario para realizar la tarea fue de siete minutos
con una desviación estándar de dos minutos. Suponiendo que la distribución de datos es
normal, construir intervalos de confianza del 90% y 95% para el tiempo medio real
necesario para que este tipo de pacientes efectúe la tarea.
5. En un estudio diseñado para establecer la relación entre un medicamento y cierta
anomalía en los embriones de pollo, se inyectaron con el medicamento 50 huevos
fecundados al cuarto día de incubación. En el vigésimo día de incubación se examinaron
los embriones y se observó la presencia de la anomalía en 12 de ellos. Encontrar los
intervalos de confianza del 95% y 99% para p.
6. Veinticuatro animales de laboratorio con deficiencia de vitamina D fueron divididos en
dos grupos iguales. El grupo 1 recibió un tratamiento consistente en una dieta que
proporcionaba la vitamina D. El segundo grupo no fue tratado. Al término del período
experimental, se midieron las concentraciones de calcio en suero, obteniéndose los
siguientes resultados:
Suponer que las poblaciones siguen una distribución normal con varianzas iguales y
calcular los intervalos de confianza del 95% para la diferencia entre las medias de las
poblaciones.
7. Algunos estudios acerca de la enfermedad Alzheimer han demostrado un incremento
en la producción de 14CO2 en pacientes con este padecimiento. Durante un estudio, se
obtuvieron los siguientes valores de a partir de 16 biopsias de neocorteza de pacientes
con la enfermedad:
1009, 1280, 1180, 1255, 1547, 2352, 1956, 1080
1776, 1767, 1680, 2050, 1452, 2857, 3100, 1621
51
Suponer que la población de tales valores presenta una distribución normal con una
desviación estándar de 350 y construir intervalos de confianza al 95% para la media de
la población.
1. ¿Es posible concluir que los niños crónicamente enfermos tienden, en promedio, a
tener menos confianza en sí mismos que los niños sanos? Se aplicó una prueba
diseñada para estimar la confianza en sí mismos de 16 niños crónicamente enfermos y a
21 niños sanos. Los puntajes medios y desviaciones estándar fueron:
¿Proporcionan estos datos la suficiente evidencia para indicar una diferencia entre las
dos poblaciones con respecto a la proporción de anémicos? Sea =0.05.
6. Una muestra de 100 empleados de un hospital, los cuales habían estado en contacto
con sangre o sus derivados, fue examinada para averiguar si presentaban evidencia
serológica de hepatitis B. Se encontró que 23 de ellos presentaron resultados positivos.
¿Es posible concluir a partir de estos datos que la proporción de la población de
52
individuos que presentaron resultados positivos en la población muestreada es mayor
que 0.15? Sea =0.05
7. Se desea saber si es posible concluir que el consumo medio diario de calorías de la
población rural de un país en desarrollo es de menos de 2000. Una muestra de 500
individuos produjo un consumo medio de 1985 y una desviación estándar de 210. Sea
=0.05.
53