You are on page 1of 53

Tema 1 : ESTADISTICA INFERENCIAL

Uno de los propósitos de la estadística es extraer conclusiones acerca de la naturaleza


de una población. Como las poblaciones son grandes y no puede ser estudiada en su
totalidad, generalmente el estudio se basa en el examen de solo una parte de esta. La
estadística inferencial nos permite estimar las características poblacionales
desconocidas, examinando la información obtenida de una muestra, de una población.
Una muestra es un subconjunto de observaciones seleccionadas de una población.
Esta muestra debe ser representativa de la población objeto de estudio. La teoría del
muestreo estudia las relaciones que existen entre la distribución de un carácter en una
población y la distribución del mismo carácter en todas las muestras que tomemos de la
misma. El muestreo más importante es el muestreo aleatorio, en el que todos los
elementos de la población tienen la misma probabilidad de ser extraídos e incluidos en la
muestra. Existen otros tipos de muestreo como el muestreo por conglomerados,
sistemático y estratificado.

Cuando contamos con una muestra, la aplicación de los principios de la estadística


inferencial puede hacerse en forma sistemática, dividiendo el estudio en tres partes.
Estas tres áreas de la Estadística Inferencial son las distribuciones muestrales, la
estimación y el contraste de hipótesis.
Este apunte está organizado de manera que para cada caso, sean tratados los tres
aspectos estadísticos.
Es importante recordar que los parámetros que se estimarán serán la media de la
población , la proporción de la población , diferencia de medias y diferencia de las
proporciones siempre poblacionales . Por consiguiente se utilizaran los correspondientes
estimadores : la media muestral, la proporción muestral y las diferencias de medias y
proporciones

DISTRIBUCIONES MUESTRALES

Si las muestras obtenidas de una población son aleatorias, no se espera que dos
muestras aleatorias del mismo tamaño y tomadas de la misma población sean
completamente parecidas; puede esperarse que cualquier estadístico, como por ejemplo
la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su
valor de una muestra a otra. Por ello, lo que se busca es estudiar la distribución de todos
los valores posibles de un estadístico. Es decir, como los valores de un estadístico, tal
como x, varían de una muestra aleatoria a otra, se le puede considerar como una
variable aleatoria con su correspondiente distribución de frecuencias. La distribución de
frecuencias de un estadístico muestral se denomina distribución muestral. En general,
la distribución muestral de un estadístico es la de todos sus valores posibles
calculados a partir de muestras del mismo tamaño.

Las distribuciones muestrales pueden construirse experimentalmente a partir de


poblaciones finitas y discretas de la siguiente manera:

1. De una población finita de tamaño N, se extraen de manera aleatoria todas las


muestras posibles de tamaño n.
2. Se calcula la estadística de interés para cada muestra.

1
3. Se lista en una columna los distintos valores de la estadística, y en otra columna
las frecuencias correspondientes de cada valor observado.

Así, si se calcula la media muestral para cada muestra; la colección de todas estas
medias muestrales recibe el nombre de distribución muestral de medias. Si hacemos lo
mismo con las desviaciones estándares, la colección de todas estas desviaciones
estándar muestrales se llama distribución muestral de la desviación estándar.
Normalmente, para una distribución muestral, se tiene interés en conocer tres cosas:
media, varianza y forma funcional (apariencia gráfica).

ESTIMACION

El objetivo principal de la estadística inferencial es la estimación, esto es que mediante


el estudio de una muestra de una población se quiere generalizar las conclusiones al
total de la misma. Existen dos tipos de estimaciones para parámetros; puntuales y por
intervalo. Una estimación puntual es un único valor estadístico y se usa para estimar
un parámetro. El estadístico usado se denomina estimador. Una estimación por
intervalo es un rango, generalmente de ancho finito, que se espera que contenga el
parámetro.

Estimación Puntual

La inferencia estadística está casi siempre concentrada en obtener algún tipo de


conclusión acerca de uno o más parámetros (características poblacionales). Para ello se
requiere datos muestrales de cada una de las poblaciones en estudio. De esta manera,
las conclusiones pueden estar basadas en los valores calculados de varias cantidades
muestrales. Por ejemplo, si deseamos conocer el verdadero valor de la media
poblacional para un cierto carácter  , se puede tomar muestras de la población y
usando las medias muestrales X estimar la media poblacional. De forma similar, si  2
es la varianza de la distribución de del parámetro en la población, el valor de la varianza
muestral s2 se podría utilizar para inferir algo acerca de  2.
Una estimación puntual de un parámetro es un sólo número que se puede considerar
como el valor más razonable de . La estimación puntual se obtiene al seleccionar una
estadística apropiada y calcular su valor a partir de datos de la muestra dada. La
estadística seleccionada se llama estimador puntual de .

Estimación por Intervalos

Debido a la variabilidad de la muestra, nunca se tendrá el caso de que =  . El


estimador puntual nada dice sobre lo cercano que esta de  . Una
alternativa para obtener un solo valor del parámetro que se esté estimando es calcular e
informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de
confianza (IC), en el que pueda precisarse, con una cierta probabilidad, que el verdadero
valor del parámetro se encuentre dentro de esos límites. Elegiremos probabilidades
cercanas a la unidad, que se representan por 1-α y cuyos valores más frecuentes suelen

2
ser 0'90, 0'95 y 0'99. Tendremos que obtener dos estadísticos que nos darán los
valores extremos del intervalo, tales que

Al valor 1-α se le llama coeficiente de confianza, y

Al valor 100 (1-α) % se le llama nivel de confianza.

Se denomina estimación confidencial o intervalo de confianza para un nivel de confianza


1-α dado, a un intervalo que ha sido construido de tal manera que con frecuencia 1-
α realmente contiene el parámetro

Un intervalo de confianza se calcula siempre seleccionando primero un nivel de


confianza, que es una medida del grado de fiabilidad en el intervalo. La probabilidad de
error (no contener el parámetro) es α y la probabilidad de acierto (contener el parámetro)
es 1-α. Un intervalo de confianza con un
nivel de confianza de 95% podría tener un límite inferior de 9162.5 y uno superior de
9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de
 entre 9162.5 y 9482.9. Un nivel de confianza de 95% (1-α= 0.95) implica que 95% de
todas las muestras daría lugar a un intervalo que incluye  o cualquier otro parámetro
que se esté estimando, y sólo 5% (α = 0,05) de las muestras producirá un intervalo
erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del
parámetro que se estima está dentro del intervalo.

Se denomina coeficiente de confianza a la probabilidad de que un estimador por


intervalos cubra el verdadero valor del parámetro que se pretende estimar, se lo
representa por 1-α.

PRUEBA DE HIPOTESIS

Otra rama de la estadística inferencial recibe el nombre de Contraste de Hipótesis. En la


práctica, muchas veces nos encontramos con casos en los que existe una teoría
preconcebida relativa a la característica de la población en estudio. El Contraste de
Hipótesis, en toda investigación, implica la existencia de dos teorías o hipótesis
implícitas, que reflejan esta idea a priori que tenemos y que pretendemos contrastar con
la realidad.. Este es uno de los aspectos más útiles de la inferencia estadística, puesto
que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el
mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una
o más poblaciones.

Un contraste o test de hipótesis es una técnica de Inferencia Estadística que permite


comprobar si la información que proporciona una muestra observada concuerda (o no)
con la hipótesis estadística formulada sobre el modelo de probabilidad en estudio y, por
tanto, se puede aceptar (o no) la hipótesis formulada.

Una hipótesis estadística puede ser:

3
Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales
desconocidos. Las hipótesis paramétricas se clasifican en:

 Simple: si la hipótesis asigna valores únicos a los parámetros ( = 1'5, = 10, X =


Y ,...).
 Compuesta: si la hipótesis asigna un rango de valores a los parámetros
poblacionales desconocidos ( > 1'5, 5 < < 10, X < Y ,...).

No Paramétrica: es una afirmación sobre alguna característica estadística de la


población en estudio. Por ejemplo, las observaciones son independientes, la distribución
de la variable en estudio es normal, la distribución es simétrica,...

En el contraste de hipótesis estadísticas siempre se acepta, provisionalmente, una


hipótesis como verdadera, que es la hipótesis nula H0, y que es sometida a
comprobación experimental frente a otra hipótesis complementaria que llamaremos
hipótesis alternativa H1. Como consecuencia de la comprobación experimental, la
hipótesis nula H0 podrá seguir siendo aceptada como verdadera o, por el contrario,
tendremos que rechazarla y aceptar como verdadera la hipótesis alternativa H1. Las
hipótesis deben ser formuladas de tal manera que sean mutuamente excluyentes y
complementarias.
La especificación apropiada de la hipótesis nula y alternativa depende de la naturaleza
propia del problema en cuestión. Las formas básicas de establecer las hipótesis sobre el
parámetro θ son las siguientes:

H o :   0
I
H1 :   0
H o :   0
II
H1 :   0
H o :   0
III
H1 :   0
H o : 1    2
IV
H1 :   1 ó  >2

Es importante recordar que las hipótesis siempre son proposiciones sobre la población o
distribución bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parámetro de la población especificado en la hipótesis nula se determina en una de tres
maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,
entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha
cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el
proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo.
3. Cuando el valor del parámetro proviene de consideraciones externas, tales como
las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En
esta situación, el objetivo usual de la prueba de hipótesis es probar el
cumplimiento de las especificaciones.

4
Un procedimiento que conduce a una decisión sobre una hipótesis en particular recibe el
nombre de prueba de hipótesis. Los procedimientos de prueba de hipótesis dependen
del empleo de la información contenida en la muestra aleatoria de la población de
interés. Si esta información es consistente con la hipótesis, se concluye que ésta es
verdadera; sin embargo si esta información es inconsistente con la hipótesis, se
concluye que esta es falsa. Debe hacerse hincapié en que la verdad o falsedad de una
hipótesis en particular nunca puede conocerse con certidumbre, a menos que pueda
examinarse a toda la población. Usualmente esto es imposible en muchas situaciones
prácticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hipótesis
teniendo en cuenta la probabilidad de llegar a una conclusión equivocada.

La hipótesis nula, representada por Ho, es la afirmación sobre una o más


características de poblaciones que al inicio se supone cierta (es decir, la "creencia a
priori").

La hipótesis alternativa, representada por H1, es la afirmación contradictoria a Ho, y


ésta es la hipótesis del investigador.

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia


muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se
continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones
posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.

Región crítica y región de aceptación

La región crítica está constituida por el conjunto de muestras para las cuales se rechaza
la hipótesis nula H0.
La región de aceptación está constituida por el conjunto de muestras para las cuales se
acepta la hipótesis nula H0.
El valor o valores que separan la región crítica de la región de aceptación reciben el
nombre de valor o valores críticos.
Cuando el contraste es de la forma I o IV, o sea, bilateral, estas regiones serán del tipo
de las indicadas en el siguiente gráfico:

Región crítica Región de aceptación Región crítica


(Rechazar H 0 ) (Aceptar H 0 ) (Rechazar H 0 )
C C C
|-----------------------|-----------------------------------------------------|-----------------------|
↑ ↑
|----- - - - - --Valores críticos---------------|

Si el contraste es de forma II, es decir, unilateral a la izquierda, estas regiones serán del
tipo de las indicadas en el siguiente gráfico:

Región crítica Región de aceptación


(Rechazar H 0 ) (Aceptar H 0 )
C C
← |-------------------------------------|-------------------------------------------------------| →

5

Valor crítico

Análogamente, si el contraste es de forma III, es decir, unilateral a la derecha, entonces


las regiones son del tipo a las indicadas en el gráfico siguiente:

Región de aceptación Región crítica


(Aceptar H 0 ) (Rechazar H 0 )
C C
←|-----------------------------------------------------------------|---------------------------------|→

Valor crítico

Errores de Tipo I y de Tipo II

En todo problema de decisión, cuando tenemos que elegir entre varias alternativas o
decisiones existe la posibilidad o riesgo de equivocarnos cometiendo los
correspondientes errores. Así pues, en el contraste de hipótesis, basándonos en la
información proporcionada por la muestra, tenemos que decidir si aceptamos la hipótesis
nula H 0 o si la rechazamos. La decisión siempre la hacemos sobre la hipótesis nula,
existiendo un riesgo de equivocarnos que nos llevará a los errores de tipo I y de tipo II.

El error tipo I se define como el rechazo de la hipótesis nula H o cuando ésta es


verdadera. También es conocido como  ó nivel de significancia. Si tuviéramos un
nivel de confianza del 95% entonces el nivel de significancia sería del 5%.
Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de
significancia sería del 10%.

El error tipo II ó error  se define como la aceptación de la hipótesis nula cuando ésta
es falsa.

Existen cuatro resultados posibles de nuestra decisión sobre la hipótesis nula, dos de
ellos no nos llevan a ningún tipo de error y los otros dos dan lugar a los errores de tipo I
y de tipo II. En efecto, la tabla siguiente nos muestra los cuatro posibles resultados:

Decisión H 0 es verdadera H 0 es falsa


Decisión correcta
No hay error
Error de tipo II
Aceptamos H 0 1- 

Nivel de confianza

Decisión correcta
Error de tipo I No hay error
Rechazamos H 0 1- 

6
Si la hipótesis nula H0 es verdadera, podemos aceptar H0 o rechazar H0 basándonos en
la información proporcionada por la muestra. Si aceptamos H0 cuando es verdadera, la
decisión es correcta y no hay error. Si rechazamos H0 cuando es verdadera, hemos
cometido un error, que se llama error de tipo I.
Si la hipótesis nula H0 es falsa, podemos aceptar H0 o rechazar H0 basándonos en la
información muestral. Si aceptamos H0 cuando es falsa, hemos cometido un error, que
se llama error de tipo II. Si rechazamos la hipótesis nula H0 cuando es falsa, la decisión
es correcta y no hay error.
Es necesario dar una medida de la posibilidad o del riesgo de cometer estos dos tipos de
errores. Estas medidas son probabilidades y las notaremos por α y β, siendo:

 = Riesgo de error de tipo I = P (Error de tipo I) = P (Rechazar H 0 / H 0 es cierta).


 = Riesgo de error de tipo II = P (Error de tipo II)= P (Aceptar H 0 / H 0 es falsa)

Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno
por lo general tiene como resultado un aumento en la probabilidad del otro. El tamaño de
la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede
reducir al ajustar el o los valores críticos. Un aumento en el tamaño muestral n reducirá
la probabilidad de error. Si los errores de tipo I y de tipo II son nulos, α=β=0, entonces
decimos que el test o contraste es ideal.
Cuando estudiamos los intervalos de confianza, decimos que 1-α es el nivel de
confianza, y ahora podemos decir que representa el complemento de la P (error de tipo
I), siempre y cuando el test sea bilateral, es decir:

Nivel de confianza = 1-α


=1-P(error de tipo I)= P(aceptar H 0 / H 0 es cierta)

Se denomina nivel de significación de un contraste a la probabilidad de cometer un error


tipo I. Fijar el nivel de significación equivale a decidir de antemano la probabilidad
máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es cierta.
El nivel de significación lo elige el experimentador y tiene por ello la ventaja de tomarlo
tan pequeño como desee (normalmente se toma = 0'05, 0'01 o 0'001).
La selección de un nivel de significación conduce a dividir en dos regiones el conjunto
de posibles valores del estadístico de contraste:

La región de Rechazo, con probabilidad α, bajo H0.

La región de Aceptación, con probabilidad 1 - α, bajo H0.

Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se


denomina:

Contraste unilateral o contraste de una cola: es el contraste de hipótesis cuya región de


rechazo está formada por una cola de la distribución del estadístico de contraste, bajo
H0.

7
Contraste bilateral o contraste de dos colas: es el contraste de hipótesis cuya región de
rechazo está formada por las dos colas de la distribución del estadístico de contraste,
bajo H0. Es decir, la región de rechazo se divide en dos lados o colas de la distribución
de la estadística de prueba.

Estadística de prueba:

La estadística de prueba es alguna estadística que se puede calcular a partir de los


datos de la muestra. Sirve como un productor de decisiones, ya que la decisión de
rechazar o no la hipótesis nula depende de la magnitud de la estadística de prueba. La
fórmula para la estadística de prueba que se aplica en muchas de las pruebas de
hipótesis es:

Estadística de prueba = estadística relevante – parámetro supuesto / error estándar

La calve para la inferencia estadística es la distribución muestral. Es necesario recordar


esto en los casos en los que se deba especificar la distribución de probabilidad de la
estadística de prueba.

A continuación, se analizaran las distribuciones muestrales, estimación y prueba de


hipótesis para: la media, una proporción, la diferencia de medias y la diferencia de
proporciones. Se recomienda hacer un estudio completo de cada tema, y al final de cada
uno hacer un resumen integratorio.

Distribución Muestral de Medias

El conocimiento y comprensión de las distribuciones muestrales son necesarios para


entender los conceptos de la estadística inferencial. Una de las distribuciones
muestrales más importantes es la distribución de la media de la muestra. La aplicación
mas sencilla de la distribución muestral de la media de la muestra es el cálculo de la
probabilidad de obtener una muestra con una media de alguna magnitud especifica. Este
es un ejemplo de cómo elaborar esta distribución.

Se tiene una población de tamaño N=5, la cual se compone de las edades de cinco
niños que son pacientes externos de una clínica de salud mental. Las edades son las
siguientes: x1=6, x2=8, x3=10, x4=12, x5=14. La media para esta población es igual a
 x / N =(6+8+10+12+14)/5 = 10. La varianza es
x   2
 2= 
40
= =8
N 5

Otra medida de dispersión que se puede calcular es:

2
S=
 x   2

=
40
=10
N 1 4

8
Esta cantidad se utilizara en el los temas de inferencia estadística.
Siguiendo con el ejemplo, a partir de esta población se extraen todas las muestras
posibles de tamaño n=2. Se observa que cuando el muestreo se efectúa con
reemplazos, hay 25 muestras posibles, cada una con sus respectivas medias
muestrales. Para elaborar una distribución muestral para x se listan los diferentes
valores de x en una columna y sus frecuencias de ocurrencia en otra.
Como dijimos anteriormente, para una distribución muestral se tiene interés en la forma
funcional de la distribución, su media y su varianza.
Para el cálculo de la media muestral se suman las 25 medias de las muestras y se divide
entre el número de muestras. Es interesante destacar que la media de la distribución
muestral para x tiene el mismo valor que la media para la población original. El cálculo
de la varianza se calcula de la siguiente manera:

 x  x 
2
100 8 2
 2
x =
i
= =4= =
Nn 25 2 n

Se puede advertir que la varianza de la distribución muestral no es igual a la varianza de


la población. Sin embargo, la varianza de la distribución muestral es igual a la varianza
de la población dividida por el tamaño de la muestra utilizada para obtener la distribución
muestral. La raíz cuadrada de la varianza de la distribución muestral se llama error
estándar y es igual a  / n .
Se puede distinguir dos situaciones: muestreo a partir de una población que sigue una
distribución normal y muestreo a partir de una que no sigue una distribución normal. Si la
población es normal se cumplen las propiedades enunciadas anteriormente. Si la
población no es normal, se utiliza un teorema conocido como el teorema del límite
central.

Teorema del límite central

Si se seleccionan muestras aleatorias de una población con media  y desviación


estándar  , entonces, cuando n es grande, la distribución maestral de medias tendrá
aproximadamente una distribución normal con una media igual a  y una desviación
estándar de  / n . La aproximación será cada vez más exacta a medida de que n sea
cada vez mayor. Aplicando este teorema,
cuando el tamaño de la muestra es grande, el muestro de x tendrá una distribución
aproximadamente normal.
Si la población de la que se extraen las muestras es normal, la distribución muestral de
medias será normal sin importar el tamaño de la muestra. Si la
población de donde se extraen las muestras no es normal, entonces el tamaño de la
muestra debe ser mayor o igual a 30, para que la distribución muestral tenga una forma
acampanada. Mientras mayor sea el tamaño de la muestra, más cerca estará la
distribución muestral de ser normal. Para muchos propósitos, la aproximación normal se
considera buena si se cumple n=30

Cuando el muestreo se realiza sin reemplazos, la varianza de la distribución muestral no


es igual a la varianza poblacional dividida entre el tamaño de la muestra. Sin embargo
existe una relación que se obtiene al multiplicar:

9
 / n . (N-n)/(N-1)

Esta es la varianza de la distribución maestral de x cuando el muestreo es sin


reemplazos. El factor (N-n)/(N-1) se llama corrección por población finita y se puede
omitir cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la
población. Es decir, la corrección de población finita generalmente se ignora cuando
n/N  0.5

La distribución normal es una distribución continua, en forma de campana en donde la


media, la mediana y la moda tienen un mismo valor. Con esta distribución podíamos
calcular la probabilidad de algún evento relacionado con la variable aleatoria, mediante
la siguiente fórmula:

x
z=

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier


tamaño de una población normal, la distribución muestral de medias tiene un
comportamiento aproximadamente normal. Teniendo en cuanta esto y sabiendo que la
desviación estándar es  / n , se hacen los reemplazos correspondientes. Así la
formula para calcular la probabilidad del comportamiento del estadístico, en este caso la
media de la muestra, quedaría de la siguiente manera:

y para poblaciones finitas y muestro con reemplazo:

Ejemplo 1: Si la media y la desviación estándar de la concentración en suero en


hombres sanos es de 120 15mg por cada 100 ml, respectivamente, ¿Cuál es la
probabilidad de que una muestra aleatoria de 50 hombres normales tenga una media
entre 115 y 125mg/100ml?

Solución: No se especifica la forma funcional de la población de valores de las


concentraciones de hierro en el suero, pero como el tamaño de la muestra es mayor a
30, se puede utilizar el teorema del limite central para transformar la distribución
muestral de x en aproximadamente normal con media de 120 y una desviación estándar
de 15/ 50 =2.12. La probabilidad buscada es:

 115  120 125  120 


P (115  x  125) = P   z  
 2.12 2.12 
=P (-2.36  z  2.36
= 0.9909 – 0.0091
=0.9818

Ejemplo 2: Las estaturas de 1000 estudiantes están distribuidas aproximadamente en


forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9

10
centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta
población, determine:

a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
b. El número de medias muestrales que caen por debajo de 172 centímetros.

Solución: Como se puede observar en este ejercicio se cuenta con una población finita y
un muestreo sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se
procederá a calcular el denominador de Z para sólo sustituirlo en cada inciso.

a.

(0.7607)(200)=152 medias muestrales

b.

(0.0336)(200)= 7 medias muestrales

11
Estimación para la Media

Supongamos que un grupo de investigadores quiere estimar la media de una población


que sigue una distribución normal y que, para ello, extraen una muestra aleatoria de
tamaño n de la población y calculan el valor de x , el cual utilizan como una estimación
puntual de  . Aunque este estimador posee todas las cualidades de un buen estimador,
no se puede esperar que x sea igual a  . Por lo tanto, es mucho más significativo
estimar  mediante un intervalo que de alguna forma muestre el valor de  .
Para realizar esa estimación por intervalos, aprovechamos las distribuciones muestrales.
En este caso, como el interés está en la media de la muestra como estimador de la
media de una población, es necesario tener en cuenta la distribución muestral de la
media.
En base a la distribución muestral de medias, la fórmula para el cálculo de probabilidad
es la siguiente:

Cuando se desconoce el valor de la media poblacional lo podemos estimar por medio de


la media de la muestra, para ello sólo se despejará  de la formula anterior, quedando lo
siguiente:

Tomamos un intervalo que contenga una masa de probabilidad de1-  . La cantidad 1- 


se conoce como coeficiente de confianza y designa el área total dentro del intervalo en
el que puede hallarse el valor real de  . Este intervalo lo queremos tan pequeño como
sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí
es donde se acumula más masa. Así las dos colas de la distribución (zonas más
alejadas de la media) se repartirán a partes iguales el resto de la masa de
probabilidad, .

12
El intervalo de confianza al nivel de1-  para la esperanza de una normal de varianza
conocida es el comprendido entre los valores

La forma habitual de escribir este intervalo es:

De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z
se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel
de confianza establecido. Este valor de Z se conoce como coeficiente de confiabilidad,
que indica en  cuantos errores estándar están aproximadamente el 95% de los valores
posibles de x (siempre que 1-  =0.95). El otro componente conocido  es el error
estándar o desviación estándar de la distribución muestral de x .
Cuando 1-  = 0.95, el intervalo recibe el nombre de confianza del 95% para  . Se dice
que se tiene el 95 por ciento de confianza de que la media de la población esté dentro
del intervalo calculado.
Como vemos, conociendo la ley de distribución, la media muestral y la varianza,
podemos estimar el valor de la media poblacional.

Ejemplo: Un fisioterapista desea estimar, con el 99% de confianza, la media de fuerza


máxima de un músculo particular en cierto grupo de individuos. Se inclina a suponer que
los valores de dicha fuerza muestran una distribución aproximadamente normal con una
varianza de 144. Una muestra de 15 individuos que participaron en el experimento
proporcionó una media de 94.3.

Solución: En la tabla de distribución normal, el valor de Z que corresponde a un


coeficiente de confianza de .99 es de 2.58. Este es el coeficiente de confiabilidad. El

13
error estándar es de  x=12/ 15 = 3.10. Por lo tanto el intervalo de confianza del 99%
para  es:

84.3  2.58(3.10)
84.3  8.0
(76.3 ; 92.3)

Se dice que se tiene el 99% de confianza de que la media de la población esta entre
76.3 y 92.3 ya que, al repetir el muestreo, el 99% de todos los intervalos que podrían ser
construidos de esta forma, incluirían a la media de la población.

Este procedimiento para obtener un intervalo de confianza para la media de la población,


requiere el conocimiento de la varianza de la población de la que se extrae la muestra.
Sin embrago, la situación más común es aquella en donde no se conoce el valor de la
media ni el valor de la varianza. Esto impide que podamos utilizar el estadístico Z para la
construcción de intervalos. Aunque la estadística Z tiene una distribución normal cuando
la población es normal o aproximadamente normal cuando n es muy grande, no se
puede utilizar porque se desconoce  . En estos casos se puede utilizar una estimación
puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra
a la de la población (s=  ). Sin
embargo, en estadística inferencial, los estadísticos para medir la dispersión más
convenientes son los insesgados como la cuasivarianza típica. Según el caso se utilizará
la cuasivarianza típica o la desviación típica. Por ejemplo si tomamos
una muestra de tamaño 25 y desviación típica igual a 10, la cuasivarianza típica será:

En los casos en los que se desconoce  pero la población de donde provienen los datos
es normal, lo correcto es utilizar otra distribución llamada "t" de student, que no depende
de  (desconocido) sino de su estimación puntual insesgada, es decir la cuasivarianza
típica. Esta distribución se aplicara siempre que no sean conocidos la media y varianza
de la población. El calculo de la media y el intervalo de confianza al nivel 1-  cuando los
parámetros son desconocidos es:

Y se tomara como intervalo de confianza aquella región en la que

En este caso se usa la notación:

14
El procedimiento es básicamente el mismo, lo que es diferente es el origen del
coeficiente de confiabilidad. Este se obtiene a partir de la tabla de distribución t.

Ejemplo: Se desea estimar la concentración media de amilasa en suero de una


población sana. Las mediciones se efectuaron en una muestra de 15 individuos
aparentemente saludables. La muestra proporcionó una media de 96 unidades/100ml y
una desviación estándar de 35 unidades/100ml. La varianza se desconoce.

Solución: Podemos utilizar la media de la muestra 96 como una estimación puntual de la


media de la población. Pero al no conocer la desviación estándar, podemos suponer que
la población sigue una distribución aproximadamente normal antes de construir un
intervalo de confianza para  . Si suponemos que esta hipótesis es razonable, podemos
buscar un intervalo de confianza del 95%. Se tiene el estimador x y el error estándar es
s/ n = 35 / 15 = 9.04. Buscamos el coeficiente de confiabilidad, es decir, el valor de t
asociado a un coeficiente de confianza de .95 y n – 1 =14 grados de libertad. Se
encuentra que el valor de t, que es el coeficiente de confiabilidad, es de 2.1448. Ahora
se construye el intervalo de confianza al 95 por ciento:

96  2.1448(9.04)
96  19
( 77 ; 15 )

Este intervalo se puede interpretar desde dos puntos de vista, probabilístico y práctico.
Se dice que se tiene el 95% de confianza de que la media real de la población  está
entre 77 y 115 ya que con muestreos repetidos, el 95% de los intervalos construidos de
una forma semejante incluyen a  .

Contrastes para la media

Los contrastes para la media son muy importantes. Cuando analizamos un carácter
dentro de una población, una de las primeras cosas que hacemos es calcular la media
para dicho carácter. Muchas veces tenemos un valor a priori de la media poblacional y
es necesario determinar si coincide o se aproxima al valor real en la población. Los
contrastes de hipótesis para la media nos permiten comprobar si el valor fijado a priori
de la media coincide con el de la población. Cuando el muestreo se realiza a partir de
una población normal y se conoce la varianza de la población, la estadística de prueba
para H0 :  =  0 es:

Contrastes sobre la media de una población N(μ,σ) con σ conocida:

Este contraste se aplica cuando tenemos una población que se distribuye normalmente
N(μ,σ), en donde la varianza  2 es conocida, y mediante una muestra aleatoria simple
de tamaño n, ( x1 , x2 , x3 ,..., xn ) , y un nivel de significación α dado, queremos realizar los
siguientes contrastes:

15
 H 0 :   0 
1.  
 H1 :    0 
 H 0 :   0 
2.  
 H1 :    0 
 H 0 :   0 
3.  
 H1 :    0 

La técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con
los datos muestrales si es verdaderamente cierta o no. Para dar una forma homogénea
a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del
contraste calculado sobre la muestra como valor experimental y a los extremos de la
región crítica, como valores teóricos. Definiendo entonces para cada caso un valor
teórico y uno experimental.

 H 0 :   0 
1. Contraste de   De dos colas
 H1 :    0 
Sabemos que la población se distribuye normalmente, por lo que

El valor teórico se obtiene de la tabla de distribución normal. Si H0 es cierta, entonces


esperamos que el valor zexp obtenido sobre la muestra esté cercano a cero con una gran
probabilidad. La regla de decisión será:
x  0 x  0
- Rechazamos H 0 si: zexp  <  z / 2 ó zexp  >  z / 2
 
n n

- Aceptamos H 0 si:  z / 2  zexp  z / 2

La regla de decisión también la podemos formular en función de la región crítica o de la


región de aceptación, así pues, si calculamos la media x (media muestral)
correspondiente a la muestra aleatoria de tamaño n, entonces:
   
Si x   0  z / 2 , 0  z / 2  aceptamos H 0 .
 n n

   
Si x   0  z / 2 , 0  z / 2  rechazamos H 0 .
 n n
Por lo tanto, se rechaza la hipótesis nula si el valor calculado de la estadística de prueba
cae en la región de rechazo y no se rechaza si cae en la región de aceptación.

16
 H 0 :   0 
2. Contraste de   De una cola
 H1 :    0 

Bajo la hipótesis nula la distribución de la media muestral es

y como región crítica consideraremos aquella formada por los valores extremadamente
bajos de Zexp, con probabilidad , es decir

Entonces la región de aceptación, o de modo más correcto, de no rechazo de la


hipótesis nula es:

La regla de decisión será:


x  0
- Rechazamos H 0 si: zexp  <- z / 2

n

x  0
- Aceptamos H 0 si: zexp   - z / 2

n

Se rechaza la hipótesis nula, cuando uno de los estadístico Z o toma un valor en la


zona sombreada de sus gráficas respectivas.

 H 0 :   0 
3. Contraste de  
 H1 :    0 

17
Si observamos el caso anterior, podemos ver que aquí tomamos como hipótesis
alternativa su contraria. Por simetría con respecto al caso anterior, la región donde no se
rechaza la hipótesis nula es

La regla de decisión será:


x  0
- Rechazamos H 0 si: zexp  > z / 2

n

x  0
- Aceptamos H 0 si: zexp   z / 2

n

Regiones de aceptación y rechazo para el test unilateral contrario

Ejemplo: Supóngase que un investigador está estudiando el nivel promedio de alguna


enzima en cierta población de seres humanos. El investigador toma una muestra de 10
individuos, determina el nivel de la enzima en cada uno de ellos y calcula la media
muestral igual a 22. La variable de interés sigue una distribución aproximadamente
normal con una varianza de 45. Con estos datos y los procedimientos de prueba de
hipótesis, ¿es posible concluir que el nivel medio de la enzima en esta población es
diferente de 25?

Solución: H0:  = 25
H1:  ≠ 25
Primero, es necesario especificar las regiones de rechazo y aceptación. Para ello
definimos un nivel de significación  , que es la probabilidad de cometer un error de tipo
I. Supongamos que queremos que la probabilidad de rechazar una hipótesis nula
verdadera es  =0.05. Al estar la región de rechazo formada por dos partes (contraste
bilateral), parece lógico que se pueda dividir a  en partes iguales siendo  /2=0.025.
La región de aceptación será 1-  /2= 0.975. Este valor nos ayudara a encontrar el valor
de z en la tabla de distribución normal. El valor z para 1-  /2=0.975 es 1.96. Como el
contraste es bilateral, la región de rechazo consiste en todos los valores de la estadística

18
de prueba mayores o iguales que 1.96 o menores o iguales que -1.96. Entonces, se
rechaza H0 si el valor calculado es ≥1.96 o ≤-1.96. De otra manera no se rechaza.
El valor de  y la regla de decisión deben ser establecidos antes de reunir los datos, lo
cual evita que los resultados de la muestra influyan en la decisión.
Calculo de la estadística de prueba:

zexp= 22  25 =
3
= -1.41
45 / 10 2.1213

Como -1.41 no está en la región de rechazo, no se puede rechazar la hipótesis nula. Se


puede concluir que  puede ser igual a 25 y que las acciones del administrador o
medico deben estar de acuerdo con esta conclusión. También se puede llegar a
esta misma conclusión mediante el uso de un intervalo confianza del 10(1-  ) por ciento.
El intervalo de confianza de 95% para  es:

22  1.96 45 / 10
22  1.96 (2.1213)
22  4.16
(17.84 ; 26.16)

Dado que este intervalo incluye a 25, se dice que 25 es un candidato para la media y por
lo tanto,  puede ser igual a 25. H0 no se rechaza.

Contrastes sobre la media de una población N (μ,σ) con σ desconocida

Este contraste es aplicable cuando se tiene una muestra aleatoria simple ( x1 , x2 , x3 ,..., xn )
procedente de una población N (μ,σ), en donde ni la media  ni la varianza  2 son
conocidos y, con un nivel de significación α dado, queremos realizar los siguientes
contrastes:

 H 0 :   0 
1.  
 H1 :    0 
 H 0 :   0 
2.  
 H1 :    0 
 H 0 :   0 
3.  
 H1 :    0 

Es decir nuevamente queremos ver si el valor fijado a priori de la media poblacional es o


no el real. Utilizando el estadístico de prueba:

19
x  0
texp  Se tendrán los siguientes contrastes.
s
n

 H 0 :   0 
1. Contraste de   o Test de dos colas
 1
H :    0

Al no conocer  2 va a ser necesario estimarlo a partir de su estimador insesgado: la


cuasivarianza muestral, Ŝ 2. Por ello la distribución del estimador del contraste será una t
de Student, que ha perdido un grado de libertad, y según la definición de la distribución
de Student:

Definimos al valor del estadístico del contraste calculado sobre la muestra como valor
experimental y a los extremos de la región crítica, como valores teóricos:

Entonces:
- Se rechaza H 0 si: texp  t / 2 ó texp  t / 2
- Se acepta H 0 si: t / 2  texp  t / 2

Región crítica para el contraste bilateral de una media

Ejemplo: Conocemos que las alturas X de los individuos de una ciudad, se distribuyen
de modo gaussiano. Deseamos contrastar con un nivel de significación de  =0.05 si la
altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con
una muestra de n=25 personas se obtuvo:

20
Solución:
El contraste que se plantea es: H0:  = 174cm
H1:  ≠ 174cm

La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el
estadístico

es ``razonable" o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos


la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si

Para ello procedemos al cálculo de Texp:

Luego, aunque podamos pensar que ciertamente el verdadero valor de  no es 174, no


hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95%.
Es decir, no se rechaza H0.

 H 0 :   0 
2. Contraste de   Tests de una cola
 H1 :    0 

Por analogía con el contraste bilateral, definiremos

21
Entonces:

- Se rechaza H 0 si: texp  t

- Se acepta H 0 si: texp  t

Región crítica para uno de los contrastes unilaterales de una media.

 H 0 :   0 
3. Contraste de  
 H1 :    0 

En este caso también definimos Texp y Tteo

- Se rechaza H 0 si: texp  t


- Se acepta H 0 si: texp  t

Región crítica para el contraste unilateral de una media contrario al anterior.

22
Ejemplo: Consideramos el mismo ejemplo de antes. Visto que no hemos podido
rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el
contraste sobre si la altura media es menor de 174 cm.

Solución: Ahora el contraste es H0:  ≥ 174cm


H1:  < 174cm

Para realizar este contraste, consideramos el caso límite y observamos si la hipótesis


nula debe ser rechazada o no. Este es:

De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadístico

es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la
hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si

El valor de Texp obtenido fue de


Texp= -1.959< t24,0.05= -t24,0.95 = -1.71

Por ello hemos de aceptar la hipótesis alternativa

Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que
  174 cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en
versión unilateral nos conduce a rechazar de modo significativo que  =174 y aceptamos
que  <174 cm. Es por ello que podemos decir que no sólo H0' es rechazada, sino

23
también H0. Es en este sentido en el que los tests con H0 y H0' los consideramos
equivalentes:

Distribución muestral de Proporciones

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino


que queremos investigar la proporción de artículos defectuosos o la proporción de
alumnos reprobados en la muestra. La distribución muestral de proporciones es la
adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual
manera que la distribución muestral de medias, a excepción de que al extraer las
muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el
número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del
estadístico media.
Una población binomial está estrechamente relacionada con la distribución muestral de
proporciones; una población binomial es una colección de éxitos y fracasos, mientras
que una distribución muestral de proporciones contiene las posibilidades o proporciones
de todos los números posibles de éxitos en un experimento binomial, y como
consecuencia de esta relación, las afirmaciones probabilísticas referentes a la
proporción muestral pueden evaluarse usando la aproximación normal a la binomial,
siempre que np 5 y
n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número
obtenido entre el número de intentos.
La distribución muestral de proporciones se puede obtener experimentalmente. A partir
de la población, que se supone es finita, se toman todas las muestras posibles de un
tamaño dado, y para cada muestra se calcula la proporción de la muestra p̂ . Después,
se elabora una distribución de frecuencias de p̂ , numerando los distintos valores
de p̂ junto con sus frecuencias de ocurrencias. Esta distribución de frecuencias
constituye la distribución muestral de p̂ .
La media de la distribución muestral de proporciones es el promedio de todas las
proporciones posibles de la muestra y es igual a la proporción en la población de un
cierto evento p:

 p̂ = p

La varianza de la distribución binomial es  2= npq, por lo que la varianza de la


distribución muestral de proporciones es:

 p̂ =
pq
=  2
p̂ =
pq
n n

La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral


de proporciones está basada en la aproximación de la distribución normal a la binomial.

24
Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la
proporción en la muestra.

pˆ  p
z=
pq
n

Ejemplo 1: Supóngase que en una población de seres humanos, el 0.8 son daltónicos. Si
se eligen aleatoriamente 150 individuos de esta población, ¿Cuál es la probabilidad de
que una proporción de individuos daltónicos tenga un tamaño del 0.15?

Solución: Si la proporción de la población se designa como p, se puede decir que p=0.8.


Como np y n(1-p) son mayores que 5 (150x0.8=12 y 150x0.92=138), se puede decir que,
en este caso p sigue una distribución aproximadamente normal, con una media  p̂ = p=
0.8 y una varianza igual a p(1-p)/n = (0.8).(0.92)/150=0.00049. La probabilidad buscada
es el área bajo la curva de p̂ a la derecha de 0.15. Esta área es igual al área bajo la
curva normal estándar a la derecha de:

pˆ  p 0.15  0.8 0.07


z= = = =3.15
pq 0.00049 0.0222
n

Al utilizar la tabla de distribución normal estándar se tiene que el área a la derecha de


z=3.15 es 1-0.9992=0.0008. Se puede decir que la probabilidad de observar p̂  0.15 en
una muestra aleatoria de tamaño n=150 de una población en la que p=0.08 es 0.0008. Si
se extrajera una muestra de este tipo, seria un evento muy extraño.

Ejemplo 2: Un medicamento para malestar estomacal tiene la advertencia de que


algunos usuarios pueden presentar una reacción adversa a él, más aún, se piensa que
alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de 150
personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que
la proporción de la muestra de los usuarios que realmente presentan una reacción
adversa, exceda el 4%.

a. Resolverlo mediante la aproximación de la normal a la binomial


b. Resolverlo con la distribución muestral de proporciones

a. Aproximación de la distribución normal a la binomial:

Datos:

n=150 personas p=0.03


x= (0.04)(150) = 6 personas
p(x>6) = ?
Media = np= (150)(0.03)= 4.5

25
p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que
al extraer una muestra de 150 personas, más de 6 presentarán una reacción
adversa.

b. Distribución Muestral de Proporciones

Datos:

n=150 personas P=0.03


p= 0.04 p(p>0.04)
=?

Observe que este valor es igual al obtenido y la interpretación es: existe una
probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una
proporción mayor de 0.04 presentando una reacción adversa.

Estimación de una Proporción

26
Muchas preguntas de interés para los profesionales tienen relación con las proporciones
de la población. Por ejemplo ¿Qué proporción de alguna población tienen cierta
enfermedad? o ¿Qué proporción es inmune a cierta enfermedad?
Para estimar la proporción de una población se procede de la misma manera que
cuando se estima la media de una población. Se extrae una muestra de la población de
interés y se calcula la proporción p̂ . Esta se utiliza como el estimador puntual para la
proporción de la población.
Un estimador puntual de la proporción P en un experimento binomial está dado por la
estadística P =X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la
proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P.
Como vimos anteriormente, cuando np y n(1-p) son mayores que 5, se puede considerar
que la distribución muestral de p̂ se aproxima bastante a una distribución normal. En
estos casos, el coeficiente de confiabilidad es algún valor de Z de la distribución normal
estándar. El error estándar es igual pˆ (1  pˆ ) / n . Como P es el parámetro que se tarta
de calcular, se desconoce, se debe utilizar p̂ como estimación.
Podemos establecer un intervalo de confianza para P al considerar la distribución
muestral de proporciones.

Al despejar P de esta ecuación nos queda:

En este despeje podemos observar que se necesita el valor del parámetro P y es


precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción de
la muestra p siempre y cuando el tamaño de muestra no sea pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el


procedimiento del intervalo de confianza que se establece aquí no es confiable, por
tanto, no se debe utilizar. El error de estimación será la diferencia absoluta entre p y P.
Para encontrar el intervalo de confianza al nivel de significación  para p se considera el
intervalo que hace que la distribución de Z~N(0,1) deje la probabilidad fuera del
mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles  2 y 1-  2 .
Así se puede afirmar con una confianza de 1-  que:

27
Ejemplo: Se llevo a cabo una encuesta para estudiar los hábitos y actitud hacia la salud
mental de cierta población urbana de adultos. De los 300 entrevistados, 123 de ellos
dijeron que se sometían regularmente a una revisión dental dos veces por año. Se
desea construir un intervalo de confianza de 95% para la proporción de individuos de la
población muestreada que se somete a la revisión dental dos veces al año.

Solución: La mejor estimación puntual de la proporción de la población es p̂ =123/300 =


0.41. El tamaño de la muestra y la estimación de p son suficientes como para justificar el
uso de la distribución normal estándar para construir el intervalo de confianza. El
coeficiente de confiabilidad que corresponde a un nivel de confianza de .95 es de 1.96 y
la estimación del error estándar  p̂ es pˆ (1  pˆ ) / n = 0.41(0.59) / 300 =0.28. El intervalo
de confianza del 95% para p, con base en estos datos, es

0.41  1.96(0.28)
0.41  0.05
(0.36 ; 0.46)

Se puede decir que se tiene el 95% de confianza de que la proporción real p está entre
0.36 y 0.46 ya que, al repetir el muestreo, el 95% de los intervalos construidos de esta
forma incluyen a la proporción p real.

Contrastes de una proporción

Este test se utiliza para contrastar la igualdad o desigualdad de proporciones que han
sido estimadas y las proporciones reales. Supongamos que tenemos una sucesión de
observaciones independientes, de modo que cada una de ellas se comporta como una
distribución de Bernoulli de parámetro p. La v.a. X, definida como el número de éxitos
obtenidos en una muestra de tamaño n es por definición una v.a. de distribución
binomial:

La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es:

Nuestro contraste de significación es:

frente a otras hipótesis alternativas. Para ello nos basamos en un estadístico (de
contraste) que ya fue considerado anteriormente en la construcción de intervalos de
confianza para proporciones y que sigue una distribución aproximadamente normal para
tamaños muestrales suficientemente grandes:

28
Entonces, si la hipótesis H0 es cierta se tiene

Se pueden hacer pruebas unilaterales y bilaterales para rechazar o no la hipótesis nula.


 H 0 : p  p0 
1. Contraste de   Contraste bilateral
 H1 : p  p0 
x
Extraemos una muestra y observamos el valor X=x = p̂ = .
n
Entonces se define

Se acepta H 0 si:  z / 2  zexp  z / 2

Siendo el criterio de aceptación o rechazo de la hipótesis nula el que refleja la figura


para el contraste bilateral de una proporción

 H 0 : p  p0 
2. Contraste de:   Contrastes unilaterales
 H1 : p  p0 
El criterio de aceptación o rechazo a seguir es:

29
Se acepta H 0 si: zexp  z

Siendo z P  Z  z    ó P  Z  z   1 

Entonces para un contraste unilateral cuando H0: p  p0

 H 0 : p  p0 
3. Contraste de:  
 H1 : p  p0 
Este es el test unilateral contrario, se tiene la expresión simétrica

Se acepta H 0 si: zexp   z

Contraste unilateral cuando se tiene H0: p  p0

30
Ejemplo: Suponer que hay interés por saber que proporción de la población de
conductores de automóviles utilizan con regularidad el cinturón de seguridad del asiento.
En una encuesta de 300 conductores adultos de automóviles, 123 de ello dijeron que
regularmente utilizaban el cinturón de seguridad. ¿Es posible concluir a partir de estos
datos que, en la población muestreada, la proporción de quienes utilizan regularmente el
cinturón de seguridad no es del 50?

Solución: H0: p = 0.5


H1: p ≠ 0.5

A partir de los datos se tiene que p̂ =0.41 y el error estándar es (0.5)(0.5) / 300 .
El cálculo de la estadística de prueba es:

0.41  0.5  0.9


Z= = = - 3.11
(0.5)(0.5) 0.0289
300

Si  =0.05, los valores críticos son ± 1.96. Se rechaza H0 a menos que -


1.96<zcalculada<1.96.
Como -3.11< -1.96 se rechaza la hipótesis nula. Se concluye que la proporción de la
población que usa regularmente el cinturón de seguridad no es de 0.5.

Distribución muestral de diferencia de medias

Con frecuencia, el interés se centra en dos poblaciones. Puede ser que un investigador
desee saber algo acerca de las diferencias entre las medias de dos poblaciones. Para
este y otros casos, el conocimiento acerca de la distribución muestral de la diferencia
entre dos medias es muy útil.
Se tienen dos poblaciones distintas, la primera con media  1 y desviación estándar  1,
y la segunda con media  2 y desviación estándar  2. Se elige una muestra aleatoria de
tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n 2
de la segunda población; se calcula la media muestral para cada muestra y la diferencia
entre dichas medias. La colección de todas esas diferencias junto con sus frecuencias,
se llama distribución muestral de las diferencias entre medias o la distribución muestral
del estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son
normales, entonces la distribución muestral de medias es normal sin importar los
tamaños de las muestras. Sabemos que cuando n es
grande, la distribución muestral de medias tendrá aproximadamente una distribución
normal con una media igual a  (la media de la población) y una desviación estándar de
 / n . Con esto podemos deducir que la media para esta distribución muestral de
diferencia de medias es igual a las diferencia entre las medias reales de las poblaciones
 1-  2. La varianza es igual a (  21/n1) + (  22/n2). Y el error estándar de la diferencia
entre las medias muestrales es:

31
.

La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia


de medias es:

Este procedimiento es válido incluso cuando el tamaño de las muestras es diferente y


cuando las varianzas tienen valores diferentes.

Ejemplo: En un estudio para comparar los pesos promedio de niños y niñas de sexto
grado en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25
niñas. Se sabe que tanto para niños como para niñas los pesos siguen una distribución
normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es
de 100 libras y su desviación estándar es de 14.142, mientras que el promedio de los
pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su desviación
estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y
es el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de
que el promedio de los pesos de los 20 niños sea al menos 20 libras más grande que el
de las 25 niñas.

Solución: Datos:

 1 = 100 libras 2=


85 libras
 1 = 14.142 libras
 2 = 12.247 libras
n1 = 20 niños
n2 = 25 niñas
=?

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea
al menos 20 libras más grande que el de la muestra de las niñas es 0.1056.

32
Estimación de la Diferencia entre dos Medias

En ciertos casos, se desea estimar la diferencia entre las medias de dos poblaciones.
Teniendo dos poblaciones donde el carácter que estudiamos en ambas (X1 y X2) son v.a.
distribuidas según leyes gaussianas, podemos realizar una estimación de la diferencia
entre dos medias. A partir de cada población se
extrae una muestra aleatoria independiente y de los datos de cada una se calculan las
medias muestrales x 1 y x 2. Sabemos que el estimador x 1- x 2 proporciona una
estimación insesgada de  1 -  2, que es la diferencia entre las medias de las
poblaciones. La varianza del estimador es (  12/n1) + (  22/n2).
Por tanto, para obtener una estimación puntual de
 1-  2, se seleccionan dos muestras aleatorias independientes que no tienen por qué
ser necesariamente del mismo tamaño, una de cada población, de tamaño n1 y n2, se
calcula la diferencia , de las medias muestrales.

Intervalo para la diferencia de medias cuando se conoce la varianza:

Recordando a la distribución muestral de diferencia de medias:

Al despejar de esta ecuación  1 -  2 se tiene:

En el caso en que se desconozcan las varianzas de la población y los tamaños de


muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una
estimación puntual.

Ejemplo: A un equipo de investigación le interesa conocer la diferencia entre las


concentraciones de acido úrico en pacientes con y sin mongolismo. En una hospital para
el tratamiento del retardo mental, una muestra de 12 individuos con mongolismo
proporciona una media de x 1= 4.5mg/100ml. En un hospital general se encontró que
una muestra de 15 individuos normales de la misma edad y sexo presenta un nivel
medio de x 2= 3.4. Si suponemos que las dos poblaciones de valores muestran una

33
distribución normal y sus varianzas son iguales a 1, calcular el intervalo de confianza del
95% para  1-  2.

Solución: Para una estimación puntual de  1-  2 se utiliza = 4.5 - 3.4=1.1. El


coeficiente de confiabilidad correspondiente al .95, que se halla en la tabla normal, es
1.96. El error estándar es:

1 1
 = 0.39
12 15

Por lo tanto el intervalo de confianza del 95% es:

1.1  1.96 (0.39)


1.1  0.8
(0.3 ; 1.9)

Se dice que se tiene una confianza del 95% de que la diferencia real  1-  2, está entre
0.3 y 1.9 debido a que en muestreos repetidos el 95% de los intervalos construidos de
esa manera incluiría la diferencia entre las medias reales.

Intervalo para la diferencia de medias cuando se desconoce la varianza

Cuando se desconocen las varianzas de la población y se requiere estimar la diferencia


entre las medias de dos poblaciones con un intervalo de confianza, se puede utilizar la
distribución t para extraer el factor de confiabilidad, siempre que las poblaciones sean
normales o supongamos que lo son.

1. Intervalo para la diferencia de medias homocedáticas:

Si suponemos que las varianzas de dos poblaciones son iguales, las dos varianzas de
las muestras calculadas a partir de las muestras independientes pueden construirse
como estimaciones de una sola cosa, la varianza común. Esta varianza se obtiene
calculando el promedio ponderado de las dos varianzas de las muestras. Cada varianza
de las muestras es ponderada en base a sus grados de libertad. La estimación conjunta
se obtiene con la formula:

Donde se ha definido a como la cuasivarianza muestral ponderada de Ŝ 21 y Ŝ 22.


Las varianzas se desconocen, el intervalo se distribuye entonces como una de Student
con n1+n2-2 grados de libertad
Si 1-  es el nivel de significación con el que deseamos establecer el intervalo para la
diferencia de las dos medias, calculamos el valor t n1+n2-1,1-  /2 que deja por encima de si
 /2 de la masa de probabilidad de Tn1+n2-2. El
intervalo de confianza al nivel 1-  para la diferencia de esperanzas de dos poblaciones
con la misma varianza (aunque esta sea desconocida) es:

34
Ejemplo: Se efectuaron estudios sobre la concentración media de amilasa en suero de
una población sana. Las mediciones se efectuaron en una muestra de 15 individuos
aparentemente saludables. La muestra proporcionó una media de 96 unidades/100ml y
una desviación estándar de 35 unidades/100ml. Se hicieron también las determinaciones
de amilasa en el suero de 22 individuos hospitalizados que forman una muestra
independiente. La media y la desviación estándar de esta muestra son 120 y 40
unidades/ml, respectivamente. La estimación puntual de  1-  2 es de 120 – 96 =24. Se
desea construir un intervalo de confianza para la diferencia entre las concentraciones
medias de amilasa del suero en individuos aparentemente sanos y la media para los
pacientes hospitalizados.

Solución: Suponemos que las dos poblaciones en estudio tienen una distribución normal
y que sus varianzas son iguales. Primero, buscamos la estimación conjunta de la
varianza común como sigue:

Ŝ 2 = 14(35)2 + 21(40)2 / 15 + 22 – 2 = 1450

El intervalo de confianza del 95% para  1-  2 es:

1450 1450
(120-96)  2.0301 
15 22
24  (2.0301)(12.75)
24  26
(-2 ; 50)

Se dice que se tiene un 95% de confianza de que la diferencia real  1-  2 esta entre -2
y 50 ya que, al muestrear varias veces, el 95% de los intervalos así construidos incluyen
a  1-  2.

Ejemplo: Queremos estudiar la influencia que puede tener el tabaco con el peso de los
niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que
fuman un paquete al día y otras que no) y se obtienen los siguientes datos sobre el peso
X, de sus hijos:

En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones
normales de medias desconocidas, y con varianzas que si bien son desconocidas,
podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea
fumadora en el peso de su hijo.

Solución: Si queremos estimar en cuanto influye el que la madre sea fumadora en el


peso de su hijo, podemos estimar un intervalo de confianza para  1-  2, lo que nos dará

35
la diferencia de peso esperado entre un niño del primer grupo y otro del segundo. El
estadístico que se ha de aplicar para esta cuestión es:

donde

Consideramos un nivel de significación que nos parezca aceptable, por ejemplo  =0.05,
y el intervalo buscado se obtiene a partir de

95%

Con lo cual se puede decir que un intervalo de confianza para el peso esperado en que
supera un hijo de madre no fumadora al de otro de madre fumadora está comprendido
con un nivel de confianza del 95% entre los 0,068 Kg y los 0,731 Kg.

Contrastes para la diferencia de medias apareadas

En el análisis de la diferencia de medias de dos poblaciones, se supone que las


muestras son independientes. Un método que se utiliza con frecuencia para averiguar la
efectividad de un tratamiento o procedimiento experimental es aquel que hace uso de
observaciones relacionadas que resultan de muestras no independientes. Una prueba
de hipótesis que se basa en este tipo de datos se conoce como prueba de
comparaciones por parejas o para muestras apareadas. Las muestras apareadas
aparecen como distintas observaciones realizadas sobre los mismos individuos. Un

36
ejemplo de observaciones apareadas consiste en considerar a un conjunto de n
personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de
insulina en la sangre antes (X) y después del mismo (Y). No es posible considerar a X e
Y como variables independientes ya que va a existir una dependencia clara entre las dos
variables. Si queremos contrastar el que los pacientes han experimentado o no una
mejoría con el tratamiento, llamemos di a la diferencia entre las observaciones antes y
después del tratamiento

di = xi-yi

El objetivo de la prueba de comparaciones por pares es eliminar al máximo las fuentes


de variación por medio de la formación de parejas similares respecto a tantas variables
como sea posible. En estos casos, en lugar de llevar a cabo el análisis con
observaciones individuales, se puede utilizar como variable de interés la diferencia entre
los pares individuales de observación.
Supongamos que la v.a. que define la diferencia entre el antes y después del tratamiento
es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son
desconocidas.

Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto efecto

En el caso en que H0 fuese cierta tendríamos que el estadístico de contraste que nos
conviene es:

Donde es la media muestral de las diferencias di y Ŝ d es la cuasivarianza muestral de


las mismas. El tipo de contraste sería entonces del mismo tipo que el realizado para la
media con varianza desconocida.
Cuando H0 es verdadera la estadística de prueba sigue una distribución t de Student con
n-1 grados de libertad.

1. Contraste bilateral: Consideramos el contraste de tipo

Entonces se define

37
y se rechaza la hipótesis nula cuando:

ó .

2. Contrastes unilaterales: En los dos tipos de contrastes unilaterales o de una cola se


utiliza el mismo estadístico:

Si el contraste es

entonces:

Se rechaza H0 si: .

Para el test contrario

Se rechaza H0 si: Texp > t n-1 ,1-  .


Si el contraste se realiza cuando  2
d es conocida, entonces el estadístico del contraste
es:

y el tratamiento es análogo en los tres casos.

Contrastes de diferencia entre medias poblacionales independientes

Este tipo de contraste también es aplicado para diferencia de medias, pero en los casos
en los que se comparan medias poblacionales para un carácter determinado en dos
poblaciones distintas. Sean dos poblaciones normales N   x ,  x  y N   y ,  y  con  x y
 y conocidas, de las cuales se extraen dos muestras aleatorias e independientes de
tamaño nx y ny respectivamente. Con un nivel de significación α dado, queremos realizar
los siguientes contrastes:

 H 0 :  x   y  d0 
 
1.  
 H1 :  x   y  d 0 
 

38
 H 0 :  x   y  d0 
 
2.  
 H1 :  x   y  d 0 
 

 H 0 :  x   y  d0 
 
3.  
 H1 :  x   y  d 0 
 

El caso más frecuente es cuando d0=0. Sin embrago, es posible probar la hipótesis de
que la diferencia es igual que, mayor o igual que, menor o igual que algún valor distinto
de cero.

x  y  d0
Utilizando el estadístico zexp  se tienen los siguientes contrastes.
 2
 y2
x

nx ny

Contraste de medias con varianzas conocidas:

De manera similar al caso del contraste para una media, queremos en esta ocasión
contrastar la hipótesis de que las dos poblaciones (cuyas varianzas suponemos
conocidas) sólo difieren en una cantidad

frente a hipótesis alternativas que darán lugar a contrastes unilaterales o bilaterales.


Para ello nos basamos en la distribución del siguiente estadístico de contraste:

1. Contraste bilateral o de dos colas:

39
Se define entonces

Se acepta H 0 si:  z / 2  zexp  z / 2

y el test consiste en:

2. Contrastes unilaterales o de una cola

Se utiliza en ambos caso el mismo estadístico utilizado para el contraste bilateral:

Para el test

Se acepta H 0 si: zexp   z

y para el contraste de significación contrario:

40
Se acepta H 0 si: zexp  z

Ejemplo: Un equipo de investigadores desea saber si los datos que han recolectado
proporcionan la evidencia suficiente para indicar una diferencia entre las
concentraciones medias de ácido úrico en el suero de individuos normales e individuos
con síndrome de Down. Los datos presentan las concentraciones de acido úrico en el
suero de 12 individuos con síndrome de Down y 15 individuos sanos. Las medias son
x 1=4.5mg/100ml y x 2=3.4mg/100ml.

Solución: El contraste es H0:  1-  2 = 0 o  1=  2


H1:  1-  2 ≠ 0 o  1≠  2

Si  =0.05, los valores críticos de z son ± 1.96. Se rechaza H0 a menos que -


1.96<zcalculada<1.96.
Cálculo de la estadística de prueba:

(4.5  3.4)  0 1.1


Z= = =2.82
1 / 12  1 / 15 0.39

Como 2.82 es mayor que 1.96 se rechaza la hipótesis nula. Se concluye que, de
acuerdo con estos datos, hay indicios de que las medias de las poblaciones son
diferentes.

Contraste de medias homocedáticas

Aplicable al caso en el que deseamos contrastar la diferencia de medias de dos


poblaciones independientes cuando sólo conocemos que las varianzas de ambas
poblaciones son iguales, pero desconocidas. El problema a contrastar es:

El estadístico que usaremos para el contraste ya lo hemos visto. Si suponemos que H0


es cierta se tiene

Donde es la cuasivarianza muestral ponderada de Ŝ 21 y Ŝ 22.

Se han perdido dos grados de libertad a causa de la estimación de  2


1=  2
2
mediante
Ŝ 21 y Ŝ 22.

1. Contraste bilateral

41
Para el contraste de significación

Se tiene como en casos anteriores que el contraste adecuado consiste en definir

Y rechazar o admitir la hipótesis nula siguiendo el criterio

2. Contrastes unilaterales

Cuando el contraste es unilateral del modo

El contraste se realiza siguiendo el mismo proceso que en otros realizados


anteriormente y utilizando el mismo estadístico, lo que nos lleva a

Y cuando el contraste de significación es el contrario

Del mismo modo

Ejemplo: Un grupo de investigadores colecto datos acerca de las concentraciones de


amilasa en el suero de muestras de individuos sanos y de individuos hospitalizados.

42
Desean saber si es posible concluir que las medias de las poblaciones son distintas. Los
datos son las mediciones de amilasa en suero de n 2= 15 individuos sanos y n1= 22
individuos hospitalizados. Las medias muestrales y sus desviaciones estándar son las
siguientes:
x 1=120 unidades/ml s1=40 unidades/ml
x 2=96 unidades/ml s2=35 unidades/ml

Solución: El contraste es: H0:  1-  2 = 0


H1:  1-  2 ≠ 0

Si definimos a  =0.05, los valores críticos de t son ± 2.0301. Se rechaza H 0 a menos


que -2.0301<tcalculada<2.0301.
El cálculo de la estadística de prueba es:

21(1600)  14(1225)
Ŝ 2= =1450
21  14

(120  96)  0 24
t= = =1.88
1450 1450 12.75

15 22

No es posible rechazar H0 porque -2.0301<1.88<2.0301. Es decir, 1.88 cae dentro de la


región de aceptación. Con base a estos datos no es posible concluir que las dos medias
de la población son diferentes.

Contraste de medias no homocedáticas

Es un tipo de contraste que se aplica en el caso más problemático, es decir cuando sólo
conocemos de las dos poblaciones que su distribución es normal, y que sus varianzas
no son conocidas y significativamente diferentes. El contraste es:

En este caso el estadístico de contraste tendrá una ley de distribución muy particular.
Consistirá en una distribución t de Student, con un número de grados de libertad que en
lugar de depender de modo determinista de la muestra (a través de su tamaño),
depende de un modo aleatorio mediante las varianzas muestrales. Concretamente, el
estadístico que nos interesa es

donde f es el número de grados de libertad que se calcula mediante la fórmula de


Welch

43
No desarrollamos en detalle los cálculos a realizar, pues la técnica para efectuar los
contrastes es análoga a las vistas anteriormente cuando las varianzas son desconocidas
e iguales.

Nota

Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras


independientes obtenidas de poblaciones normales son idénticas, esto se reduce a los
casos anteriores tomando , es decir, realizando el contraste:

Distribución Muestral de Diferencia de Proporciones

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben


compararse utilizando proporciones o porcentajes. Cuando el
muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones
muestrales, la distribución muestral de diferencia de proporciones es aproximadamente
normal para tamaños de muestra grande (n1p1 5, n1q1 5, n2p2 5 y n2q2 5). Entonces
p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su
diferencia p1-p2 también tiene una distribución muestral aproximadamente normal.
Cuando se estudió la distribución muestral de proporciones se comprobó que  p̂ = p y

que  p̂ =
pq
por lo que se puede deducir que:
n

 p̂ 1 -  p̂ 2 = p1-p2 y que .

Si tenemos dos poblaciones suficientemente pequeñas, podemos extraer de la población


1 todas las muestras aleatorias posibles de tamaño n1 y calcular a partir de cada
conjunto de datos de la muestra la proporción de la muestra p̂ 1. Lo mismo podemos
hacer con la población 2. Luego es posible calcular las diferencias entre todos los pares
posibles de proporciones muestrales, donde un miembro de cada par tiene un valor p̂ 1 y
el otro un valor p̂ 2. La distribución muestral de la diferencia ente las dos porciones de
las muestras consiste en todas las diferencias existentes acompañadas de sus

44
frecuencias de ocurrencias. La fórmula que se utilizará para el cálculo de probabilidad
del estadístico de diferencia de proporciones es:

Ejemplo: Los hombres y mujeres adultos de una ciudad grande en sus opiniones sobre
la promulgación de la pena de muerte para personas culpables de asesinato. Se cree
que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que
sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de
100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte,
determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3%
mayor que el de las mujeres.

Solución: Datos:

PH = 0.12
PM = 0.10
nH = 100
nM = 100
p(pH-pM 0.03) = ?

Hay que tener en cuanta que debe incluirse el factor de corrección de 0.5 por ser una
distribución binomial y que se está utilizando la distribución normal.

Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de


muerte, al menos 3% mayor que el de mujeres es de 0.4562.

Estimación de la Diferencia de dos Proporciones

Muchas veces se tiene interés en conocer la magnitud de la diferencia entre dos


poblaciones, podemos comparar por ejemplo, entre hombres y mujeres, dos grupos de
edades, dos grupos socioeconómicos.

45
Un estimador puntual insesgado de la diferencia de proporciones de las poblaciones se
obtiene al calcular las diferencias de las proporciones de las muestras p̂ 1 - p̂ 2. Cuando
n1 y n2 son de gran tamaño y las proporciones de la población no están muy cerca de 0 o
de 1, es posible aplicar el teorema del límite central y utilizar la teoría de la distribución
normal para obtener los intervalos de confianza.
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas
estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada
población vamos a extraer muestras de tamaño n1 y n2
Si las muestras son suficientemente grandes ocurre que

Anteriormente, se vio el tema de la generación de las distribuciones muestrales, en


donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos
calcular la probabilidad del comportamiento de los estadísticos. Para este caso en
particular se utilizará la distribución muestral de diferencia de proporciones para la
estimación de la misma. Recordando la formula:

Despejando P1-P2 de esta ecuación obtenemos un intervalo de confianza del 100(1 -  )


para P1-P2 :

Donde Z se obtiene de la tabla de distribución normal al nivel 1-α/2.


Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que
queremos estimar, por lo que se utilizarán las proporciones de la muestra como
estimadores puntuales:

Ejemplo: Un artículo relacionado con la salud, reporta los siguientes datos sobre la
incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de
marihuana y de madres que no la fumaban:

Usuaria No Usuaria

Tamaño Muestral 1246 11178

Número de disfunciones 42 294

Proporción muestral 0.0337 0.0263

Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.

46
Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones
entre todas las madres que fuman marihuana y definamos P2, de manera similar, para
las no fumadoras. El valor de z para un 99% de confianza es de 2.58.

-0.0064<P1-P2<0.0212

Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de
manera precisa.

Contrastes sobre la diferencia de proporciones

Supongamos que tenemos dos muestras independientes tomadas sobre dos


poblaciones, en la que estudiamos una variable de tipo dicotómico (Bernoulli):

Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se tiene que


cada una de ellas se distribuye como una variable aleatoria binomial,
de modo que los estimadores de las proporciones en cada población tienen
distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante
grandes)

El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en


cada población es una cantidad conocida

Si H0 fuese cierta se tendría que:

47
Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus
estimadores, lo que da lugar a un error que es pequeño cuando los tamaños muestrales
son importantes:

La prueba que se utiliza con más frecuencia con relación a la diferencia entre las
proporciones de dos poblaciones es aquella en la que su diferencia es cero. Sin
embargo, es posible probar que dicha diferencia es igual a algún otro valor. Se pueden
hacer pruebas unilaterales y bilaterales.
Siempre que la hipótesis nula sea p1-p2=0, se supone que las proporciones de las dos
poblaciones son iguales. Esto permite combinar los resultados de las dos muestras y
obtener una estimación ponderada de la proporción común supuesta:
p = x1+x2 / n1+n2
Donde x1 y x2 son el número de la primera y segunda muestra que poseen la
característica de interés. Esta estimación ponderada se utiliza para calcular el error
estándar estimado para el estimador como sigue:

p(1  p) p(1  p)
ˆ  
n n

El estadístico de contraste se convierte en:

( pˆ  pˆ )  ( p  p)
Z=
̂

1. Contraste bilateral

El contraste bilateral sobre la diferencia de proporciones es

Entonces se define

y se rechaza la hipótesis nula si Zexp<-z1-  /2 o si Zexp>-z1-  /2

2. Contrastes unilaterales

48
En el contraste

Se rechazará H0 si Zexp< -z1-  .

Para el test contrario

Se rechaza H0 si Zexp> -z 1-  .

Ejemplo: En un estudio para comparar un nuevo tratamiento para la migraña con el


tratamiento habitual, 78 de los 100 individuos que recibieron el tratamiento habitual
respondieron favorablemente. De los 100 individuos que recibieron el nuevo tratamiento,
90 respondieron satisfactoriamente. ¿Proporcionan estos datos la evidencia suficiente
para afirmar que el nuevo tratamiento es más efectivo que el habitual?

Solución: Se calculan: p̂ 1= 78/100=0.78 p̂ 2=90/100=0.90

90  78
p= =0.84
100  100

Las hipótesis son: H0=p2-p1  0


H1= p2-p1>0
Sea  =0.05. El valor crítico de z es 1.645. Se rechaza H0 si el valor de z es mayor que
1.645.
El cálculo del estadístico de prueba es:

(0.90  0.78) 0.12


z=  =2.32
(0.84)(0.16) (0.84)(0.16) 0.0518

100 100

Como 2.32>1-645, se rechaza H0. Estos datos sugieren que el tratamiento es más
efectivo que el habitual

EJERCICIOS DE DISTRIBUCION MUESTRAL:

1. Un investigador se siente inclinado a creer que los niveles de vitamina A en el hígado


de dos poblaciones de seres humanos tiene, cada una, una distribución normal. Se
supone que las varianzas de las dos poblaciones son las siguientes:

49
Población 1:  2
1=19.600

Población 2:  2
2=8100

¿Cuál es la probabilidad de que una muestra aleatoria de tamaño 15 de la primer


población y otra de tamaño 10 de la segunda población proporcionen un valor de
mayor o igual a 50, si no hay diferencia entre las dos medias de la población?
2. Se cree que en una ciudad el 20% de las familias tiene por lo menos un miembro que
sufre de algún malestar debido a la contaminación atmosférica. Una muestra aleatoria
de 150 familias produjo un valor de p̂ =0.27. Si el valor del 20% es correcto, ¿Cuál es la
probabilidad de obtener una proporción muestral mayor o igual de la muestra?
3. Si las concentraciones de acido úrico en hombres adultos normales siguen una
distribución aproximadamente normal, con una media y desviación estándar de 5.7 y 1
mg por ciento, respectivamente, encontrar la probabilidad de que una muestra aleatoria
de tamaño 9 proporcione una media:

a. Mayor que 6
b. Menor que 5.2
c. Entre 5 y 6

4. En una población de niños con retardo mental, se sabe que la proporción de los que
son hiperactivos es de 0.40. Se extrajo una muestra aleatoria de tamaño 120 de esa
población y otra de tamaño 100 a partir de otra población con el mismo problema. Si la
proporción de niños hiperactivos es la misma en ambas poblaciones, ¿Cuál es la
probabilidad de que la muestra proporcione una diferencia p̂ 1- p̂ 2 de 0.16 o mas?
5. Supóngase que una población se compone de los siguientes valores: 1, 3, 5, 7, 9.
Construir la distribución muestral de x a partir de muestras de tamaño 2 seleccionadas
sin reemplazo. Calcular la media y la varianza.
6. Para una población de hombres jóvenes de 17 años y otra población de mujeres de
17 años, las medias y desviaciones estándar respectivamente del grosor del pliegue
subescapular son: para los varones 9.7 y 6.0; y para las mujeres 15.6 y 9.5. Si se
obtiene una muestra aleatoria simple de 40 varones y otra de 35 mujeres a partir de
dicha población, ¿Cuál es la probabilidad de que la diferencia entre las medias de las
muestras (xchicas - xchicos) sea mayor que 10?
7. El resultado de una investigación sanitaria revela que el 55% de los individuos de la
población A y el 35% de los de la población B no padecen enfermedades
cardiovasculares. Suponer que se extrae una muestra aleatoria de tamaño 120 a partir
de la población A, y una muestra aleatoria independiente de tamaño 130 de la población
B. ¿Cuál es la probabilidad de que las diferencias entre las proporciones de la muestras
p̂ A - p̂ B esté entre 0.30 y 0.40)?
8. En una muestra al azar de 75 adultos, 35 de ellos consideran que el cáncer de
mamas es curable. Si en la población de la cual se extrajo la muestra, la probabilidad
real de quienes piensan que dicho tipo de cáncer es curable es de 0.55, ¿Cuál es la
probabilidad de obtener una proporción muestral menor o igual que la obtenida en esta
muestra?

EJERCICIOS DE ESTIMACION:

50
1. En cierta comunidad se efectuó un análisis neurológico a 110 empleados de una
fábrica de herbicidas, el cual mostró que 44 tenían anormalidades neurológicas. En una
muestra de 150 residentes que no eran empleados de la fábrica, 16 individuos mostraron
anormalidades neurológicas. Construir un intervalo de confianza del 95% para la
diferencia entre las proporciones de las poblaciones.
2. En un experimento diseñado para estimar el número promedio de latidos del corazón
por minuto para cierta población, se encontró que el número promedio de latidos por
minutos para 49 personas era de 90. Si resulta lógico suponer que esos 49 pacientes
constituyen una muestra aleatoria y que la población sigue una distribución normal, con
una desviación estándar de 10, calcular el intervalo de confianza de 90% y 95% para  .
3. Se llevo a cabo un estudio para comparar las concentraciones de lipo-proteína de
alta densidad en hombres adultos con trabajos sedentarios y con trabajos manuales. Los
datos de la muestra proporcionaron los siguientes resultados:

Trabajadores sedentarios: x = 56.5, s =14.1, n=55


Trabajadores manuales: x = 51.3, s =13.5, n=50

Construir un intervalo de confianza del 95% para la diferencia entre las medias de las
poblaciones.
4. A nueve pacientes que sufren la misma incapacidad física, y por lo tanto son
comparables, se les pidió que llevaran a cabo cierta tarea como parte de un
experimento. El tiempo promedio necesario para realizar la tarea fue de siete minutos
con una desviación estándar de dos minutos. Suponiendo que la distribución de datos es
normal, construir intervalos de confianza del 90% y 95% para el tiempo medio real
necesario para que este tipo de pacientes efectúe la tarea.
5. En un estudio diseñado para establecer la relación entre un medicamento y cierta
anomalía en los embriones de pollo, se inyectaron con el medicamento 50 huevos
fecundados al cuarto día de incubación. En el vigésimo día de incubación se examinaron
los embriones y se observó la presencia de la anomalía en 12 de ellos. Encontrar los
intervalos de confianza del 95% y 99% para p.
6. Veinticuatro animales de laboratorio con deficiencia de vitamina D fueron divididos en
dos grupos iguales. El grupo 1 recibió un tratamiento consistente en una dieta que
proporcionaba la vitamina D. El segundo grupo no fue tratado. Al término del período
experimental, se midieron las concentraciones de calcio en suero, obteniéndose los
siguientes resultados:

Grupo tratado: x = 11.1mg/100ml, s = 1.5


Grupo sin tratamiento: x = 7.8mg/100ml, s = 2.0

Suponer que las poblaciones siguen una distribución normal con varianzas iguales y
calcular los intervalos de confianza del 95% para la diferencia entre las medias de las
poblaciones.
7. Algunos estudios acerca de la enfermedad Alzheimer han demostrado un incremento
en la producción de 14CO2 en pacientes con este padecimiento. Durante un estudio, se
obtuvieron los siguientes valores de a partir de 16 biopsias de neocorteza de pacientes
con la enfermedad:
1009, 1280, 1180, 1255, 1547, 2352, 1956, 1080
1776, 1767, 1680, 2050, 1452, 2857, 3100, 1621

51
Suponer que la población de tales valores presenta una distribución normal con una
desviación estándar de 350 y construir intervalos de confianza al 95% para la media de
la población.

EJERCICIOS DE CONTRASTE DE HIPOTESIS:

1. ¿Es posible concluir que los niños crónicamente enfermos tienden, en promedio, a
tener menos confianza en sí mismos que los niños sanos? Se aplicó una prueba
diseñada para estimar la confianza en sí mismos de 16 niños crónicamente enfermos y a
21 niños sanos. Los puntajes medios y desviaciones estándar fueron:

Niños enfermos: x =22.5 s=4.1


Niños sanos: x =26.9 s=3.2
Sea  =0.05

2. En una muestra de 1500 residentes de un barrio de la ciudad, quienes participaron


en un programa selectivo de salud, 125 pruebas proporcionaron resultados positivos en
cuanto a la anemia de células falciformes. ¿Proporcionan estos datos la evidencia
suficiente para indicar que la proporción de individuos con anemia de células falciformes
en la población muestreada es mayor que 0.06? Sea  =0.05.
3. Setenta pacientes que sufren de epilepsia se dividieron al azar en dos grupos iguales.
El grupo A recibió un tratamiento que incluía dosis diarias de vitamina D. El grupo B
recibió el mismo tratamiento con la excepción de que a este grupo se le dio un placebo
en lugar de la vitamina D. El número medio de ataques convulsivos observados durante
el periodo de tratamiento en los grupos fue x A=15 y x B=24. Las varianzas de las
muestras fueron S2A=8 y S2B=12. ¿Estos datos proporcionan evidencia suficiente para
indicar que la vitamina D es efectiva para disminuir el número de ataques convulsivos?
Sea  =0.05
4. En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio
inmunológico, una variable de interés fue la prueba del diámetro de reacción de la piel a
un antígeno. La media de la muestra y la desviación estándar fueron 21 y 11 mm de
eritema, respectivamente. ¿Es posible concluir a partir de estos datos que la media de la
población es menor que 30? Sea  =0.05.
5. Se desea saber si los niños de dos grupos étnicos difieren con respecto a la
proporción de anémicos. De cada grupo se extrajo una muestra de niños de un año de
edad atendidos en cierto grupo de departamentos de salud locales en un periodo de un
año. Se obtuvo la siguiente información respecto a la anemia:

Grupo étnico Número de elementos Número de anémicos


1 450 105
2 375 120

¿Proporcionan estos datos la suficiente evidencia para indicar una diferencia entre las
dos poblaciones con respecto a la proporción de anémicos? Sea  =0.05.
6. Una muestra de 100 empleados de un hospital, los cuales habían estado en contacto
con sangre o sus derivados, fue examinada para averiguar si presentaban evidencia
serológica de hepatitis B. Se encontró que 23 de ellos presentaron resultados positivos.
¿Es posible concluir a partir de estos datos que la proporción de la población de

52
individuos que presentaron resultados positivos en la población muestreada es mayor
que 0.15? Sea  =0.05
7. Se desea saber si es posible concluir que el consumo medio diario de calorías de la
población rural de un país en desarrollo es de menos de 2000. Una muestra de 500
individuos produjo un consumo medio de 1985 y una desviación estándar de 210. Sea
 =0.05.

53

You might also like