3 Inferencia Estadística

Módulo de Estadística básica
Tema 3:
Inferencia estadística
- Estimar parámetros desconocidos
- Realizar Pruebas de hipótesis
Supuestos
Ideas básicas
A partir de una muestra, se construyen estimadores

y con ellos sus respectivos intervalos de confianza.
Métodos de estimación:
Estimación puntual: Estimación de intervalo:

utilización de datos de ofrece un intervalo de
la muestra para calcular valores razonables dentro
un solo número para del cual se pretende que
estimar el parámetro de esté el parámetro de
interés. Los métodos interés, en este caso la
más usuales son media poblacional, con un
Momentos, Máxima cierto grado de confianza
verosimilitud, Mínimos
Cuadrados.
Descripción
POBLACIÓN PARÁMETROS
Muestreo Inferencias
aleatorio
MUESTRA ESTIMADORES ESTIMACIONES
(x1, x2,…..,xn) (Estadísticos) (Valores

concretos)
ESTIMADORES

  xi
n
2

  
   X i    n 1
 
ESTIMACIONES
_
X S2
Valores concretos
Ejemplo: distribución de tallas de neonatos

Valores desconocidos de los
 2 parámetros media y variancia

de la talla de la población
2 Estimadores
    X i   
  
  xi n  1
n  
Muestra
46;48;51;52;52
46  49  51  52  52 Estimación puntual de
x  50
5 
s2 
46  50 2
 .......  52  50 
2
 6,5
Estimación puntual de
5 1 2
Intervalos de confianza bilaterales:
Dada una variable aleatoria X con media 

y desviación estándar ,
el teorema del límite central afirma que posee una distribución
normal estándar si X :
- se encuentra distribuida normalmente,
- no se encuentra distribuida normalmente y n sea
suficientemente grande

x 
Z

n
Para una variable normal estándar, 95% de las observaciones se ubican
entre -1,96 y +1,96.
En otras palabras, la probabilidad de que Z tome un valor entre -1,96 y
+1,96 es:
P1,96  Z  1,96  0,95

Al sustituir el valor de Z:
 

 x  
P  1,96   1,96   0,95
 / n 
 
Multiplicamos los tres términos de la
desigualdad por el error estándar 
n
Por tanto,
    
P  1,96  x   1,96   0,95
 n n
Restamos la media de cada término de tal manera
que:
    
P  1,96  x    1,96  x   0,95
 n n 
Multiplicamos por -1, invirtiendo el sentido de la

desigualdad:
    
P  1,96  x    1,96  x   0,95
 n n 
Al reordenar términos:
    
P x1,96    x 1,96   0,95
 n n

La x ya no se localiza en el centro de la
desigualdad; en lugar de eso, la afirmación de
probabilística indica algo sobre 
Intervalos de Confianza
Importante:
Cuando las muestras aleatorias son cada
vez más grandes, la variabilidad de X se
torna más pequeña.
También la variabilidad inherente de la
población estudiada, medida por , siempre
se encuentra presente.
Ejemplo :
Distribución de los niveles de colesterol en
sangre de todos los varones que son
hipertensos y que fuman.
Esta distribución es:
aproximadamente normal,
con una media desconocida:  = ?,
y una desviación estándar
 = 46 mg / 100 ml.
Interesa calcular el nivel medio de colesterol en
sangre. Antes de elegir una muestra aleatoria, la
probabilidad de que el intervalo
 46  46
( X  1 .96 , X  1 .96 )
n n)
contenga la verdadera media poblacional es de 
= 0,95.
En el caso de tomar una muestra tamaño 12 de la
población de fumadores hipertensos y que además
poseen un nivel medio de colesterol en sangre de
x = 217 mg / 100 ml.
El intervalo de confianza de 95% para  es
46 46
( 217  1 . 96 , 217  1 . 96 )
12 12
o
( 191 , 243 )
Este intervalo contiene el valor de 211 mg /100 ml,
el nivel medio de colesterol en la sangre de todos
los hombres de 20 a 74 años de edad sin importar
si son hipertensos o fumadores.
Se está 95 % seguro de que los límites 191 y 243

cubren la verdadera media .
Interpretación 1
Interpretación 2: en términos de frecuencia.
Si se tomaran 100 muestras aleatorias de tamaño 12 de

esta población y utilizaran cada muestra para construir
un intervalo de confianza de 95 %, se espera que en
promedio 95 de los intervalos cubrieran la verdadera
media poblacional  = 211 y 5 no.
Este procedimiento se
expresa gráficamente
de la siguiente forma:
Interpretación del gráfico:
La única cantidad que varia de muestra es X.

Todos tiene la misma amplitud.
Cada intervalo de confianza que no contenga el valor
verdadero de  se encuentra marcado con un punto, 5
intervalos están dentro de esta categoría
Reflexionando en el sentido del tamaño muestral:
¿Qué dimensiones debe tener una muestra para que la

amplitud del intervalo se reduzca a solo 20 mg/100 ml?
Consideraciones:
Ya que el intervalo se centra en la media de
muestreo x=217 mg/ 100 ml, interesa el tamaño de
la muestra necesario para generar el intervalo
(217-10, 217+10)
ó
(207, 227)
Para determinar el tamaño n que se requiere

de la muestra, se debe resolver la ecuación
2.58(46)
10 
10
n  140.8
Se necesita una muestra de 141 hombres para
reducir la amplitud del intervalo de confianza de
99% a 20 mg/100 ml.
Aunque la media de muestreo de 217 mg/100 ml
se ubica en el centro del intervalo, no desempeña
ningún papel en la determinación de su amplitud;
la amplitud es función de , n y el nivel de
confianza.
EJEMPLO - Intervalo de confianza para una
proporción de Población
El sindicato que representa a cierta compañía está

considerando una propuesta de fusión. Según los
estatutos sindicales, por lo menos tres cuartos de la
afiliación sindical tiene que aprobar cualquier fusión.
De una muestra aleatoria de 2000 miembros, 1600
piensan votar a favor de la fusión propuesta.
33
-¿Cuál es la estimación de la proporción de población?
- Desarrolle un intervalo del 95% de confianza.
- Basando su decisión en esta información de la

muestra, se puede concluir que la proporción necesaria
favorecerá la fusión? ¿Por qué?
34
Primero, calcule la proporción :

x 1,600
p   0.80
n 2000
Calcule el Intervalo del 95% de Confianza.

p (1  p )
Intervalo  p  z / 2
n
.80(1  .80)
 0.80  1.96  .80  .018
2,000
 (0.782,0.818)
Conclusión : La propuesta de fusión es ptobable

que sea aceptada porque el intervalo estimado
incluye valores que son mayores al 75%
de los miembros del sindicato.
35
¿Qué es Hipótesis?
Una hipótesis es una afirmación sobre el valor de un

parámetro de una población hecha con el fin de
probar algo.
Ejemplos de hipótesis hechas de un parámetro de

una población son:
-La media de ingresos mensuales de los analistas de
sistemas es de $ 3625 en Oaxaca.
- El 20% de los migrantes deportados intentan de
nuevo su retorno en el lapso de un mes.
46
¿Qué es la Prueba de Hipótesis?
Prueba de Hipótesis es un procedimiento basado en

evidencias de la muestra y teoría probabilística, que
se utiliza para determinar si la hipótesis es una
declaración razonable y no debe ser rechazada, o no
es razonable y debe ser rechazada.
47
Pasos para la Prueba de Hipótesis
1) Establecer la hipótesis nula y hipótesis alternativa adecuadas.
2) Especificar un valor de probabilidad crítico o nivel de

significación.
3) Definir el estadístico de prueba adecuado y el tamaño de la

región crítica.
4) Formular una regla de decisión
5) Tomar la decisión de aceptar o rechazar la hipótesis nula.
48
Prueba de Hipótesis
 H0: hipótesis nula y H1 : hipótesis alternativa
 H0 y H1 son mutuamente excluyentes y colectivamente

exhaustivos.
 Se dice siempre que H0 es cierta.
 H1 tiene la carga de la prueba.
 Una muestra aleatoria (n) se utiliza para "rechazar H0 “
49
Prueba de Hipótesis
 Si llegamos a la conclusión de "no rechazar H0”, esto

no significa necesariamente que la hipótesis nula es
verdad, sólo sugiere que no hay suficiente evidencia
para rechazar H0; rechazar la hipótesis nula entonces,
sugiere que la hipótesis alternativa puede ser cierta.
 La igualdad es siempre parte de H0 (por ejemplo, "=",

"≥", "≤").
 La desigualdad siempre parte de H1 (por ejemplo ,"≠"

,"<" , ">“)
50
Cómo hacer de una afirmación una Hipótesis
 En la práctica, la situación actual se toma como H0
 Si la afirmación es “fanfarrona” ésta se toma como H1.

Recuerde que H1 tiene la carga de la prueba.
 En la resolución de problemas, se deben buscar

palabras clave y convertirlas en símbolos. Algunas
palabras claves son: "mejorado, mejor que, tan eficaz
como, a diferencia de, ha cambiado, etcétera."
51
Prueba de Hipótesis - ¿Mayor que o menor
que?
• La dirección de la prueba que contienen

sentencias que usan las palabras "ha mejorado",
"es mejor que", y cosas por el estilo dependerá de
la variable que se mide.
Por ejemplo, si la variable implica un cierto tiempo

para que los medicamentos surtan efecto, las
palabras "mejor" "mejorar" o más eficaces "se
traduce como “<“ (menor que, es decir, el alivio
más rápido).
52
Prueba de Hipótesis –
¿Mayor que o menor que? Palabras Clave Signo Parte de:
Por otra parte, si la No más de ≤ H0

variable se refiere a una
calificación y, a Al menos ≥ H0
continuación, las
palabras "mejor" Ha aumentado > H1
"mejorar" o más eficaces
"se traduce como “>” ¿Existe diferencia? ≠ H1
(mayor que, i.e., las
calificaciones más altas). No ha cambiado = H0
Más, Mejorado, Mayor > H1
Menos, Menor < H1
53
Partes de una Distribución en una Prueba
de Hipótesis
54
Pruebas Unilateral y Bilateral
Prueba Unilateral, Zona de

Prueba Unilateral, Zona
Rechazo Izquierda
de Rechazo Derecha
Prueba Bilateral o no direccional
55
Prueba de Hipótesis para la Media ()
H0: μ = valor H0: μ ≥ valor

H1: μ ≠ valor H1: μ < valor
Rechazar H0 si: Rechazar H0 si:
│Z│> Zα/2 Z< -Zα
│t│ > t α/2 , n-1 t < -t α, n-1
H0: μ ≤ valor
H1: μ > valor
Rechazar H0 si:
x x
t  Z > Zα z 
s t > t α, n-1 
n n
56
EJEMPLO - Prueba para una Media con
desviación estándar conocida
Una ONG dirigida a la defensa de los derechos

humanos de los migrantes, en una de las fronteras
mexicanas, ha observado que la deportación de
indocumentados sigue la distribución normal con una
media de 200 y una desviación estándar de 16.
Recientemente, debido a nuevas disposiciones
migratorias, se han observado algunos cambios en la
la cantidad de deportados. Al INM le intersaría saber si
ha habido un cambio en la deportación en esa frontera.
57
Paso 1: Establezca la hipótesis nula y la hipótesis

alternativa.
H0:  = 200
H1:  ≠ 200
(Nota: la palabra clave en el problema es "ha
habido un cambio")
Paso 2: Seleccione el nivel de significación. Por

ejemplo α = 0,01.
58
Paso 3: Seleccionar un estadístico para la

prueba. Use la distribución z ya que σ es
conocida.
Paso 4: Formular la regla de decisión.

Rechazar H0 si | |Z| > Z/2
Z  Z /2
X  
 Z
 / n
/2
203 . 5  200
 Z . 01 / 2
16 / 50
1 . 55  2 . 58
59
Paso 5: Tomar una decisión e interpretar el

resultado.
Como1.55 no cae en la región de rechazo, no se

rechaza H0. Se concluye que la media poblacional no
es diferente de 200. Así que se le puede informar al
funcionario del INM que la evidencia de la muestra
no indica que la tasa de deportación haya cambiado
de 200 en la frontera referida.
60
EJEMPLO (2)- Prueba para una Media con
Supongamos que en el problema anterior, el

funcionario del INM quiere saber si ha habido un
aumento en el número de deportaciones.
Para decirlo de otra manera, ¿podemos concluir, que a

causa del cambio en las políticas migratorias, la media
de las deportaciones fue más de 200?
Recordatorio: σ = 16, n = 200, α = 0.01
61
Paso 1: Establecer hipótesis nula y la hipótesis

alternativa.
H0:  ≤ 200
H1:  > 200
(Nota: la palabra clave en el problema "un
aumento")
Paso 2: Seleccione el nivel de significación.

α = 0.01.
62
Paso 3: Seleccionar un estadístico para la

prueba .
Use la distribución z ya que σ es conocida
Paso 4: Formular la regla de decisión.

Rechazar H0 si Z > Z
Z  Z
X  
 Z
 / n
203 . 5  200
 Z . 01
16 / 50
1 . 55  2 . 33
63
Paso 5: Tomar una decisión e interpretar el

resultado.
Como 1.55 no cae en la región de rechazo, no se

rechaza H0. Llegamos a la conclusión de que la media
de deportaciones no es de más de 200.
64
Prueba para una Media con desviación
estándar desconocida
 Cuando la desviación estándar de población (σ) es

desconocida, la desviación estándar de la muestra
(s) es la que se utiliza en su lugar.
 La distribución t se utiliza como estadístico de la
prueba, que se calcula utilizando la siguiente
fórmula:
X  
t 
s / n
Con n-1 grados de libertad, donde:
X̅ es la media muestral
µ es la media de la prueba de hipótesis
s es la desviación estándar de la muestra
n es el número de observaciones en la muestra
65
desviación estándar desconocida
El Departamento de reclamaciones de una Compañía

de Seguros reportó que el costo medio de un proceso
de reclamación es de $60. Una comparación de
industrias mostró que este importe es más grande que
en la mayoría de las demás compañías de seguros,
por lo que la empresa instituyó medidas de reducción
de costos.
66
Para evaluar el efecto de las medidas de reducción de

costos, la supervisora del Departamento de
Reclamaciones, seleccionó una muestra aleatoria de 26
reclamaciones tramitadas durante el mes pasado.
La información de la muestra se reporta a continuación.

El nivel de significación es 0.01. ¿Es razonable que
ahora una reclamación sea de menos de $60?
67
Paso 1: Establecer la hipótesis nula y la

hipótesis alternativa.
H0:  ≥ $60
H1:  < $60
(nota: la palabra clave en el problema "menos
de")
Paso 2: Seleccione el nivel de significación.

α= 0.01.
68
Paso 3: Seleccionar estadístico de prueba.

Use distribución t ya que σ es desconocida.
Paso 4: Formular la regla de decisión

Rechazar H0 si t < -t,n-1
t   t ,n 1
X  
  t ,n 1
s / n
$ 56 . 42  $ 60
  t 0 . 01 , 26  1
$ 10 . 04
26
 1 . 818   2 . 485
69
Paso 5: Tomar una decisión e interpretar el resultado.
Como -1.818 no cae en la región de rechazo, no se

rechaza H0 en el nivel de significación igual a 0.01. No
hemos demostrado que las medidas de reducción de
costos redujeron el coste medio por siniestro a menos de
$60. La diferencia de $3.58 ($ 56.42 - $ 60) entre la
media muestral y la media poblacional podría ser debido
a un error de muestreo.
70
En un laboratorio de BAYER, la tasa actual para
producir píldoras anticonceptivas es de 250 por hora.
Se adquirió una nueva máquina, que según el
proveedor, incrementará la tasa de producción.
Una muestra de 10 horas seleccionada al azar desde
el mes pasado reveló que la media de la producción
en la nueva máquina fue de 256 unidades, con una
desviación estándar de la muestra de 6 por hora.
Con un nivel de significación de 0.05, entonces, ¿Se
puede concluir que la nueva máquina es más rápida?
71
Paso 1: Establecer la hipótesis nula y la hipótesis

alternativa.
H0: µ ≤ 250;
H1: µ > 250
Paso 2: Seleccione el nivel de significación. En este

caso es 0.05.
72
Paso 3: Encontrar un estadístico para la prueba.

Use la distribución t y que la desviación estándar
de la población no se conoce y el tamaño de la
muestra es menor que 30.
Paso 4: Establecer la regla de decisión.

Hay 10 - 1 = 9 grados de libertad. La hipótesis
nula es rechazada si t> 1.833
X  256  250
t   3.162
s n 6 10
73
Paso 5: Tomar una decisión e interpretar los

resultados.
La hipótesis nula es rechazada.
La media producida es de más de 250 píldoras

por hora en ese Laboratorio.
74
Pruebas de Hipótesis para una Proporción
 Una proporción es porcentaje que indica la parte de la
muestra con un rasgo particular de interés.
 La proporción de la muestra se encuentra dividiendo x/n
 La fórmula del estadístico es:
p 
z 
 (1   )
n
donde :
π es la proporción de la población
p es la proporción de la población hipotética
n es el tamaño de la muestra
75
 Una muestra aleatoria se elige de la población.
 Se supone ciertas las características de la

distribución Binomial:
A. Los datos de la muestra son el resultado del
conteo.
B. Sólo hay dos posibles resultados.
C. La probabilidad de éxito sigue siendo la
misma de un experimento a otro.
D. Los ensayos son independientes.
76
 La prueba se llevará a cabo en breve es

apropiada cuando ambos n y n(1-  ) son
por lo menos igual a 5.
 Cuando las condiciones anteriores se

cumplen, la distribución normal se puede
utilizar como una aproximación a la
distribución binomial.
77
Prueba de Hipótesis para una Proporción ()
H0: π = valor H0: π ≥ valor

H1: π ≠ valor H1: π < valor
Rechazar H0 si: Rechazar H0 si:
│Z│> Zα/2 Z< -Zα
H0: π ≤ valor
H1: π > valor
Rechazar H0 si:
Z > Zα
78
EJEMPLO - Pruebas de Hipótesis para una
Proporción
Supongamos que antes de las elecciones para

gobernador, es necesario que un candidato reciba al
menos el 80% de la votación en la parte norte del estado
de Chihuahua.
El gobernador titular está interesado en la evaluación de
las posibilidades del candidato de su partido, así que
decide llevar a cabo una encuesta a 2,000 votantes
registrados en el norte del estado.
Utilizando el procedimiento de prueba de hipótesis,
evalúe las posibilidades del candidato del partido del
gobernador.
79
Proporción
Paso 1: Establecer la hipótesis nula y la hipótesis

alternativa.
H0:  ≥ .80
H1:  < .80
(nota: la palabra clave en el problema es “al
menos”)
Paso 2: Elegir el nivel de significación.

α = 0.01 como se indica en el problema.
80
Proporción
Paso 3: Seleccionar el estadístico para la prueba. Use

la distribución Z ya que se cumplen los supuestos y n
y n(1-) ≥ 5
Paso 4: Formular la regla de decisión. Rechazar H0 si

Z <-Z Z  Z
p 
 Z
 (1   )
n
1, 550  0 . 80
2 , 000
  1 . 65
. 80 (1  . 80 )
2 , 000
 2 . 80   1 . 65
81
Proporción
Paso 5: Tomar una decisión e interpretar los

resultados.
El valor de z (2.80) se encuentra en la región de

rechazo, por lo que la hipótesis nula se rechaza en
el nivel de 0.05. La diferencia de 2.5 puntos
porcentuales entre el porcentaje muestral (77.5%) y
el porcentaje de población hipotética (80%) es
estadísticamente significativa. Las pruebas indican
que el candidato del mismo partido del gobernador
no será elegido.
82
Tipos de error en la Prueba de Hipótesis
 Error de tipo I :
- Se define como la probabilidad de rechazar la
hipótesis nula cuando en realidad es cierta.
- Se denota por la letra griega "”.
- También conocido como el nivel de significación
de una prueba.
 Error Tipo II:

- Se define como la probabilidad de "aceptar" la
hipótesis nula cuando en realidad es falsa.
- Se denota por la letra griega "β“
83
Tipos de error en la Prueba de Hipótesis
DECISIÓN
CONDICIÓN REAL Rechazar H0 No Rechazar H0
H0 cierta Error (Tipo I) Acierto
H0 falsa Acierto Error (Tipo II)
84
El Valor p en una Prueba de Hipótesis
 Valor p (p- value), es la probabilidad de observar

en una muestra un valor tan extremo, o más
extremo que el valor observado, dado que la
hipótesis nula es verdad.
 En una prueba de hipótesis, también se puede
comparar el valor de p para el nivel de
significación ().
 Si el valor de p es menor que el nivel de
significancia, H0 se rechaza, de otro modo H0 no
es rechazada.
85
EJEMPLO - El Valor p en la Prueba de Hipótesis
Recordemos que en el último problema de la

hipótesis y la regla de decisión se establecieron
como sigue:
H0:  ≤ 200
H1:  > 200
Rechazar H0 si Z > Z
Donde Z = 1.55 y Z =2.33
Rechazar H0 si el valor de p < 

0.0606 > 0.01
Conclusión: No se rechazará H0
86
Intervalo de Confianza para la Media –
Ejemplo usando la distribución t
Un fabricante de neumáticos quiere investigar la

vida de duración de éstos. Una muestra de 10
neumáticos rodados 50,000 millas reveló una
media muestral de 0.32 pulgadas restantes para
rodar con una desviación estándar de 0.09
pulgadas.
Construya un intervalo del 95% de confianza
para la media poblacional . ¿Sería razonable, por
parte del fabricante, concluir que después de
50.000 millas la cantidad de media poblacional
restante es de 0.30 pulgadas?
87
Tabla de Distribución t
Datos :
n  10
x  0 . 32 Dado que  es desconocid a
s  0 . 09 calule el I . de C. con la
distribuci ón t
s
X  t / 2,n 1 
n
0.09
 0.32  t.05 / 2,10 1 
10
0.09
 0.32  2.262 
10
 0.32  0.064  (0.256,0.384)
88
Tabla de Distribución t
Conclusión: el fabricante puede estar casi

seguro (95% seguro) que la media está
entre 0.256 y 0.384 pulgadas
89
Intervalos de Confianza para la Media
El gerente de una Plaza Comercial quiere estimar la

cantidad media gastada en cada visita de compras por
los clientes.
Una muestra de 20 clientes da las siguientes
cantidades
90
Intervalos de Confianza para la Media
Calcule el intervalo de confianza
con la distribuci ón t
s
X  t  / 2 , n 1
n
s 9 . 01
 X  t 0 . 05 / 2 , 20  1  49 . 35  t 0 . 025 ,19
n 20
9 . 01
 49 . 35  2 . 093  49 . 35  4 . 22
20
Los extremos del intervalo de confianza
son $45.13 y $53.57
Conclusión: es razonable que la media sea $50. La cantidad

de $60 no está en el intervalo de confianza.
Por lo tanto se concluye que es poco probable que la media
sea de $60
91
ANOVA
Analysis of variance compares two or more

populations of data.
Specifically, we are interested in determining
whether differences exist between the
population means.
The procedure works by analyzing the sample
variance.
The analysis of variance is a procedure that
tests to determine whether differences exits
between two or more population means.
To do this, the technique analyzes the sample

variances
Example: An apple juice manufacturer is planning
to develop a new product -a liquid concentrate.
The marketing manager has to decide how to market
the new product.
Three strategies are considered
Emphasize convenience of using the product.
Emphasize the quality of the product.
Emphasize the product’s low price.
An experiment was conducted as follows:
In three cities an advertisement campaign was
launched.
In each city only one of the three characteristics
(convenience, quality, and price) was emphasized.
The weekly sales were recorded for twenty weeks
following the beginning of the campaigns.
Convnce
Convnce Quality
Quality Price
Price
529
529 804
804 672
672
Weekly 658
658
793
630
630
774
531
531
443
793 774 443
sales 514
514 717
717 596
596
663
663 679
679 602
602
719
719 604
604 502
502
711
711 620
620 659
659
606
606 697
697 689
689
Weekly
461
461 706
706 675
675
529
529 615
615 512
512
sales
498
498 492
492 691
691
663
663 719
719 733
733
604
604 787
787 698
698
495
495 699
699 776
776
485
485
557
Weekly
572
572
523
561
561
572
557 523 572
353
353 sales
584
584 469
469
557
557 634
634 581
581
542
542 580
580 679
679
614
614 624
624 532
532
Solution
The problem objective is to compare sales in three
cities.
We hypothesize that the three population means
are equal
Defining the Hypotheses
• Solution
H0: 1 = 2= 3
H1: At least two means differ
To build the statistic needed to test the

hypotheses use the following notation:
Notation
Independent samples are drawn from k populations (treatments).
1 2 k
First observation, X11 X12 X1k
first sample x21 x22 x2k
. . .
. . .
Second observation, . . .
second sample Xn1,1 Xn2,2 Xnk,k
Sample size n1
n2 nk
Sample mean x1
x2 xk
X is the “response variable”.

The variables’ value are called “responses”.
Terminology
In the context of this problem…

Response variable – weekly sales
Responses – actual sale values
Experimental unit – weeks in the three cities when we
record sales figures.
Factor – the criterion by which we classify the
populations (the treatments). In this problems the factor
is the marketing strategy.
Factor levels – the population (treatment) names. In
this problem factor levels are the marketing trategies.
30
25
x 3  20
x 3  20
20 20
19
x 2  15
16 x 2  15
15
14
x1  10 12
11 x1  10
10 10
9 9
A small variability within The

1 sample means are the same as before,
the samples makes it easier but the larger within-sample variability
Treatment 1Treatment 2Treatment 3 Treatment 1 Treatment 2 Treatment 3
to draw a conclusion about the makes it harder to draw a conclusion
population means. about the population means.
Variability between sample
means
The variability between the sample means is
measured as the sum of squared distances
between each mean and the grand mean.
This sum is called the

Sum of Squares for Treatments
SST
In our example treatments are
represented by the different
advertising strategies.
Sum of squares for treatments
(SST)
k
SST   n j ( x j  x) 2
j 1
There are k treatments
The size of sample j The mean of sample j

Note: When the sample means are close to
one another, their distance from the grand
mean is small, leading to a small SST. Thus,
large SST indicates large variation between
sample means, which supports H1.
Sum of squares for treatments
(SST)
Solution – continued
Calculate SST
x 1  577.55 x 2  653 .00 x 3  608 .65

k
SST   n j ( x j  x ) 2
j 1
The grand mean is calculated by = 20(577.55 - 613.07)2 +
n1 x1  n2 x 2  ...  nk x k + 20(653.00 - 613.07)2 +
X + 20(608.65 - 613.07)2 =
n1  n2  ...  nk
= 57,512.23
The rationale behind test statistic
– II
Large variability within the samples weakens
the “ability” of the sample means to represent
their corresponding population means.
Therefore, even though sample means may
markedly differ from one another, SST must
be judged relative to the “within samples
variability”.
Within samples variability
The variability within samples is measured by

adding all the squared distances between
observations and their sample means.
This sum is called the
Sum of Squares for Error
SSE
In our example this is the
sum of all squared differences
between sales in city j and the
sample mean of city j (over all
the three cities).
Sum of squares for errors (SSE)
Solution – continued
Calculate SSE
s12  10,775 .00 s 22  7,238,11 s32  8,670 .24

k nj
SSE  
j 1 i 1
(xij  x j ) 2 (n1 - 1)s12 + (n2 -1)s22 + (n3 -1)s32
= (20 -1)10,774.44 + (20 -1)7,238.61+ (20-1)8,670.24

= 506,983.50
The mean sum of squares
To perform the test we need to calculate

the mean squares as follows:
Calculation of MST - Calculation of MSE

Mean Square for Treatments Mean Square for Error
SST SSE
MST  MSE 
k 1 nk
57 , 512 . 23 509,983.50
 
31 60  3
 28 , 756 . 12  8,894.45
Calculation of the test statistic
MST
F
MSE
28 , 756 . 12

8 ,894 . 45
Required Conditions:  3 . 23
1. The populations tested
are normally distributed.
2. The variances of all the with the following degrees of freedom:
populations tested are v1=k -1 and v2=n-k
equal.
The F test rejection region
And finally the hypothesis test:
H0: 1 = 2 = …=k
MST
Test statistic:F
MSE
R.R: F>F,k-1,n-k
The F test
Ho: 1 = 2= 3
Test statistic F= MST MSE= 3.23

R.R. : F  Fk1nk  F0.05,31,603  3.15
Since 3.23 > 3.15, there is sufficient evidence
to reject Ho in favor of H1, and argue that at least one
of the mean sales is different than the others.
The F test p- value
Use Excel to find the p-value

fx Statistical FDIST(3.23,2,57) = .0467
0.1
0.08
0.06
0.04 p Value = P(F>3.23) = .0467
0.02
0
-0.02 0 1 2 3 4
Contrastes no paramétricos
Los contrastes no paramétricos hacen referencia a la
distribución poblacional en su conjunto y no a ciertas
hipótesis sobre los valores de parámetros poblacionales :
(1) Cómo podemos decidir a partir de una muestra si

la población sigue (“ajusta”) a una determinada
distribución dada (problema de bondad de ajuste).
(2) ¿Estas muestras provienen de poblaciones con la
misma distribución? (problema de la homogeneidad).
(3) ¿Son independientes o dependientes varias
características poblacionales?
Prueba de bondad de ajuste 2
Supongamos una muestra aleatoria simple de tamaño n.
Desconocemos que la distribución de probabilidad f de la
población.
Contrastaremos la hipótesis:
H0: f = f0 y H1: f  f0
Es decir: la distribución desconocida f de la población es f0. Por
ejemplo: una distribución de Poisson determinada.
Usaremos la distribución chi-cuadrado para determinar la bondad
de ajuste entre las frecuencias observadas de los datos de la
muestra, frecuencias muestrales, y las frecuencias esperadas
(teóricas) según la distribución que sospechamos es la de la
población.
Procedimiento:
(1) Dividimos el dominio de la distribución en k
clases o intervalos disjuntos. Calculamos el
número de datos esperados, según la distribución
teórica a contrastar f0 , que deberían haber caído
en cada clase. Para ello basta multiplicar la
probabilidad que asigna f0 a cada clase por n,
el tamaño muestral.
Hemos de construir las clases de modo que cada una

contenga al menos 5 datos muestrales. Tenemos pues: A1,
A2, ... ,Ak clases con n1esp, n2esp, ... ,nkesp datos
muestrales en cada clase, todos valores mayores o
iguales a 5.
Ejemplo: Durante 200 días se han recogido el número de
accidentes automovilísticos diarios en una localidad son:
Número de accidentes 0 1 2 3 4 5 6 7
Número de días 22 53 58 39 20 5 2 1
(1) Creemos que el número de accidentes se distribuye

como una Poisson de media 2 (hipótesis nula).
Núm. de accidentes 0 1 2 3 4 5
N. esperado de días 27,06 54,14 54,14 36,08 18,04 10,54
Calculamos los valores esperados a través de la Poisson.

6
2 2
P ( x  6)  e  0.012; 200  0.012  2.41
6!
(2) Ahora construimos las mismas k clases o
intervalos disjuntos para los datos muestrales.
Tendremos también: A1, A2, ... ,Ak clases con
n1, n2, ... ,nk datos muestrales en cada clase.
Estos son los datos originales:
Número de accidentes 0 1 2 3 4 5 6 7
Número de días 22 53 58 39 20 5 2 1
Ajustamos al número de clases que nos determinó la distribución a contrastar.
Número de accidentes 0 1 2 3 4 5
Número de días 22 53 58 39 20 8
Realizaremos el test de constraste utilizando
Frecuencias
el estadístico chi-cuadrado siguiente: muestrales
 2


k
n  Eˆ 
i i
2
i 1 Eˆ i Frecuencias
esperadas
que sigue una distribución chi-cuadrado con k-1 grados

de libertad. En el ejemplo se tienen k = 6 clases. Luego:
6 ˆ
(ni  Ei ) 2
(22  27.06) 2
(8  10.54) 2
 
2
  ...   2.307
i 1 Eˆ i 27.06 10.54
Nuestro estimador chi-cuadrado es:  2  2.307
El estimador se distribuye como:   

2 2 2
k 1 6 1 5
Supongamos que queremos:   0.05

En las tablas encontramos:
0.05  2
5, 0.05  11.07
 2
5, 0.05  11.07
 2  2.307  11.07  No podemos rechazar H 0

Otras pruebas no
paramétricas…
FIN

3 Inferencia Estadística

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

3 Inferencia Estadística

Uploaded by

Copyright:

Available Formats

Módulo de Estadística básica

A partir de una muestra, se construyen estimadores

Estimación puntual: Estimación de intervalo:

MUESTRA ESTIMADORES ESTIMACIONES

(x1, x2,…..,xn) (Estadísticos) (Valores

 2 parámetros media y variancia

P1,96  Z  1,96  0,95

Multiplicamos por -1, invirtiendo el sentido de la

Se está 95 % seguro de que los límites 191 y 243

Si se tomaran 100 muestras aleatorias de tamaño 12 de

Interpretación del gráfico:

La única cantidad que varia de muestra es X.

Reflexionando en el sentido del tamaño muestral:

¿Qué dimensiones debe tener una muestra para que la

Para determinar el tamaño n que se requiere

El sindicato que representa a cierta compañía está

-¿Cuál es la estimación de la proporción de población?

- Desarrolle un intervalo del 95% de confianza.

- Basando su decisión en esta información de la

Primero, calcule la proporción :

Calcule el Intervalo del 95% de Confianza.

Conclusión : La propuesta de fusión es ptobable

Una hipótesis es una afirmación sobre el valor de un

Ejemplos de hipótesis hechas de un parámetro de

Prueba de Hipótesis es un procedimiento basado en

2) Especificar un valor de probabilidad crítico o nivel de

3) Definir el estadístico de prueba adecuado y el tamaño de la

4) Formular una regla de decisión

5) Tomar la decisión de aceptar o rechazar la hipótesis nula.

 H0: hipótesis nula y H1 : hipótesis alternativa

 H0 y H1 son mutuamente excluyentes y colectivamente

 Se dice siempre que H0 es cierta.

 H1 tiene la carga de la prueba.

 Una muestra aleatoria (n) se utiliza para "rechazar H0 “

 Si llegamos a la conclusión de "no rechazar H0”, esto

 La igualdad es siempre parte de H0 (por ejemplo, "=",

 La desigualdad siempre parte de H1 (por ejemplo ,"≠"

 En la práctica, la situación actual se toma como H0

 Si la afirmación es “fanfarrona” ésta se toma como H1.

 En la resolución de problemas, se deben buscar

• La dirección de la prueba que contienen

Por ejemplo, si la variable implica un cierto tiempo

Por otra parte, si la No más de ≤ H0

Más, Mejorado, Mayor > H1

Menos, Menor < H1

Prueba Unilateral, Zona de

Prueba Bilateral o no direccional

H0: μ = valor H0: μ ≥ valor

Una ONG dirigida a la defensa de los derechos

Paso 1: Establezca la hipótesis nula y la hipótesis

Paso 2: Seleccione el nivel de significación. Por

Paso 3: Seleccionar un estadístico para la

Paso 4: Formular la regla de decisión.

Paso 5: Tomar una decisión e interpretar el

Como1.55 no cae en la región de rechazo, no se

Supongamos que en el problema anterior, el

Para decirlo de otra manera, ¿podemos concluir, que a

Recordatorio: σ = 16, n = 200, α = 0.01

Paso 1: Establecer hipótesis nula y la hipótesis

Paso 2: Seleccione el nivel de significación.

Paso 3: Seleccionar un estadístico para la

Paso 4: Formular la regla de decisión.

Paso 5: Tomar una decisión e interpretar el