You are on page 1of 121

Módulo de Estadística básica

Tema 3:
Inferencia estadística
- Estimar parámetros desconocidos
- Realizar Pruebas de hipótesis
Supuestos
Ideas básicas

A partir de una muestra, se construyen estimadores


y con ellos sus respectivos intervalos de confianza.
Métodos de estimación:

Estimación puntual: Estimación de intervalo:


utilización de datos de ofrece un intervalo de
la muestra para calcular valores razonables dentro
un solo número para del cual se pretende que
estimar el parámetro de esté el parámetro de
interés. Los métodos interés, en este caso la
más usuales son media poblacional, con un
Momentos, Máxima cierto grado de confianza
verosimilitud, Mínimos
Cuadrados.
Descripción
POBLACIÓN PARÁMETROS

Muestreo Inferencias
aleatorio

MUESTRA ESTIMADORES ESTIMACIONES

(x1, x2,…..,xn) (Estadísticos) (Valores


concretos)
ESTIMADORES

  xi
n
2

  
   X i    n 1
 

ESTIMACIONES
_
X S2
Valores concretos
Ejemplo: distribución de tallas de neonatos


Valores desconocidos de los

 2 parámetros media y variancia


de la talla de la población

2 Estimadores
    X i   
  
  xi n  1
n  
Muestra
46;48;51;52;52
46  49  51  52  52 Estimación puntual de
x  50
5 

s2 
46  50 2
 .......  52  50 
2
 6,5
Estimación puntual de

5 1 2
Intervalos de confianza bilaterales:
Dada una variable aleatoria X con media 

y desviación estándar ,
el teorema del límite central afirma que posee una distribución
normal estándar si X :
- se encuentra distribuida normalmente,
- no se encuentra distribuida normalmente y n sea
suficientemente grande


x 
Z

n
Para una variable normal estándar, 95% de las observaciones se ubican
entre -1,96 y +1,96.
En otras palabras, la probabilidad de que Z tome un valor entre -1,96 y
+1,96 es:

P1,96  Z  1,96  0,95


Al sustituir el valor de Z:

 

 x  
P  1,96   1,96   0,95
 / n 
 
Multiplicamos los tres términos de la
desigualdad por el error estándar 
n
Por tanto,

    
P  1,96  x   1,96   0,95
 n n
Restamos la media de cada término de tal manera
que:
    
P  1,96  x    1,96  x   0,95
 n n 

Multiplicamos por -1, invirtiendo el sentido de la


desigualdad:
    
P  1,96  x    1,96  x   0,95
 n n 
Al reordenar términos:

    
P x1,96    x 1,96   0,95
 n n

La x ya no se localiza en el centro de la
desigualdad; en lugar de eso, la afirmación de
probabilística indica algo sobre 
Intervalos de Confianza

Importante:
Cuando las muestras aleatorias son cada
vez más grandes, la variabilidad de X se
torna más pequeña.
También la variabilidad inherente de la
población estudiada, medida por , siempre
se encuentra presente.
Intervalos de Confianza
Ejemplo :
Distribución de los niveles de colesterol en
sangre de todos los varones que son
hipertensos y que fuman.
Esta distribución es:
aproximadamente normal,
con una media desconocida:  = ?,
y una desviación estándar
 = 46 mg / 100 ml.
Intervalos de Confianza
Interesa calcular el nivel medio de colesterol en
sangre. Antes de elegir una muestra aleatoria, la
probabilidad de que el intervalo
 46  46
( X  1 .96 , X  1 .96 )
n n)
contenga la verdadera media poblacional es de 
= 0,95.
Intervalos de Confianza
En el caso de tomar una muestra tamaño 12 de la
población de fumadores hipertensos y que además
poseen un nivel medio de colesterol en sangre de
x = 217 mg / 100 ml.
El intervalo de confianza de 95% para  es

46 46
( 217  1 . 96 , 217  1 . 96 )
12 12
o
( 191 , 243 )
Intervalos de Confianza
Este intervalo contiene el valor de 211 mg /100 ml,
el nivel medio de colesterol en la sangre de todos
los hombres de 20 a 74 años de edad sin importar
si son hipertensos o fumadores.

Se está 95 % seguro de que los límites 191 y 243


cubren la verdadera media .

Interpretación 1
Intervalos de Confianza
Interpretación 2: en términos de frecuencia.

Si se tomaran 100 muestras aleatorias de tamaño 12 de


esta población y utilizaran cada muestra para construir
un intervalo de confianza de 95 %, se espera que en
promedio 95 de los intervalos cubrieran la verdadera
media poblacional  = 211 y 5 no.
Intervalos de Confianza
Este procedimiento se
expresa gráficamente
de la siguiente forma:
Intervalos de Confianza

Interpretación del gráfico:

La única cantidad que varia de muestra es X.


Todos tiene la misma amplitud.
Cada intervalo de confianza que no contenga el valor
verdadero de  se encuentra marcado con un punto, 5
intervalos están dentro de esta categoría
Intervalos de Confianza

Reflexionando en el sentido del tamaño muestral:

¿Qué dimensiones debe tener una muestra para que la


amplitud del intervalo se reduzca a solo 20 mg/100 ml?
Intervalos de Confianza
Consideraciones:
Ya que el intervalo se centra en la media de
muestreo x=217 mg/ 100 ml, interesa el tamaño de
la muestra necesario para generar el intervalo
(217-10, 217+10)
ó
(207, 227)
Intervalos de Confianza

Para determinar el tamaño n que se requiere


de la muestra, se debe resolver la ecuación

2.58(46)
10 
10
n  140.8
Intervalos de Confianza
Se necesita una muestra de 141 hombres para
reducir la amplitud del intervalo de confianza de
99% a 20 mg/100 ml.
Aunque la media de muestreo de 217 mg/100 ml
se ubica en el centro del intervalo, no desempeña
ningún papel en la determinación de su amplitud;
la amplitud es función de , n y el nivel de
confianza.
Intervalos de Confianza
EJEMPLO - Intervalo de confianza para una
proporción de Población

El sindicato que representa a cierta compañía está


considerando una propuesta de fusión. Según los
estatutos sindicales, por lo menos tres cuartos de la
afiliación sindical tiene que aprobar cualquier fusión.
De una muestra aleatoria de 2000 miembros, 1600
piensan votar a favor de la fusión propuesta.

33
EJEMPLO - Intervalo de confianza para una
proporción de Población

-¿Cuál es la estimación de la proporción de población?

- Desarrolle un intervalo del 95% de confianza.

- Basando su decisión en esta información de la


muestra, se puede concluir que la proporción necesaria
favorecerá la fusión? ¿Por qué?

34
EJEMPLO - Intervalo de confianza para una
proporción de Población

Primero, calcule la proporción :


x 1,600
p   0.80
n 2000

Calcule el Intervalo del 95% de Confianza.


p (1  p )
Intervalo  p  z / 2
n
.80(1  .80)
 0.80  1.96  .80  .018
2,000
 (0.782,0.818)

Conclusión : La propuesta de fusión es ptobable


que sea aceptada porque el intervalo estimado
incluye valores que son mayores al 75%
de los miembros del sindicato.

35
¿Qué es Hipótesis?

Una hipótesis es una afirmación sobre el valor de un


parámetro de una población hecha con el fin de
probar algo.

Ejemplos de hipótesis hechas de un parámetro de


una población son:
-La media de ingresos mensuales de los analistas de
sistemas es de $ 3625 en Oaxaca.
- El 20% de los migrantes deportados intentan de
nuevo su retorno en el lapso de un mes.

46
¿Qué es la Prueba de Hipótesis?

Prueba de Hipótesis es un procedimiento basado en


evidencias de la muestra y teoría probabilística, que
se utiliza para determinar si la hipótesis es una
declaración razonable y no debe ser rechazada, o no
es razonable y debe ser rechazada.

47
Pasos para la Prueba de Hipótesis
1) Establecer la hipótesis nula y hipótesis alternativa adecuadas.

2) Especificar un valor de probabilidad crítico o nivel de


significación.

3) Definir el estadístico de prueba adecuado y el tamaño de la


región crítica.

4) Formular una regla de decisión

5) Tomar la decisión de aceptar o rechazar la hipótesis nula.

48
Prueba de Hipótesis

 H0: hipótesis nula y H1 : hipótesis alternativa

 H0 y H1 son mutuamente excluyentes y colectivamente


exhaustivos.

 Se dice siempre que H0 es cierta.

 H1 tiene la carga de la prueba.

 Una muestra aleatoria (n) se utiliza para "rechazar H0 “

49
Prueba de Hipótesis

 Si llegamos a la conclusión de "no rechazar H0”, esto


no significa necesariamente que la hipótesis nula es
verdad, sólo sugiere que no hay suficiente evidencia
para rechazar H0; rechazar la hipótesis nula entonces,
sugiere que la hipótesis alternativa puede ser cierta.

 La igualdad es siempre parte de H0 (por ejemplo, "=",


"≥", "≤").

 La desigualdad siempre parte de H1 (por ejemplo ,"≠"


,"<" , ">“)

50
Cómo hacer de una afirmación una Hipótesis

 En la práctica, la situación actual se toma como H0

 Si la afirmación es “fanfarrona” ésta se toma como H1.


Recuerde que H1 tiene la carga de la prueba.

 En la resolución de problemas, se deben buscar


palabras clave y convertirlas en símbolos. Algunas
palabras claves son: "mejorado, mejor que, tan eficaz
como, a diferencia de, ha cambiado, etcétera."

51
Prueba de Hipótesis - ¿Mayor que o menor
que?

• La dirección de la prueba que contienen


sentencias que usan las palabras "ha mejorado",
"es mejor que", y cosas por el estilo dependerá de
la variable que se mide.

Por ejemplo, si la variable implica un cierto tiempo


para que los medicamentos surtan efecto, las
palabras "mejor" "mejorar" o más eficaces "se
traduce como “<“ (menor que, es decir, el alivio
más rápido).

52
Prueba de Hipótesis –
¿Mayor que o menor que? Palabras Clave Signo Parte de:

Por otra parte, si la No más de ≤ H0


variable se refiere a una
calificación y, a Al menos ≥ H0
continuación, las
palabras "mejor" Ha aumentado > H1
"mejorar" o más eficaces
"se traduce como “>” ¿Existe diferencia? ≠ H1
(mayor que, i.e., las
calificaciones más altas). No ha cambiado = H0

Más, Mejorado, Mayor > H1

Menos, Menor < H1

53
Partes de una Distribución en una Prueba
de Hipótesis

54
Pruebas Unilateral y Bilateral

Prueba Unilateral, Zona de


Prueba Unilateral, Zona
Rechazo Izquierda
de Rechazo Derecha

Prueba Bilateral o no direccional

55
Prueba de Hipótesis para la Media ()

H0: μ = valor H0: μ ≥ valor


H1: μ ≠ valor H1: μ < valor
Rechazar H0 si: Rechazar H0 si:
│Z│> Zα/2 Z< -Zα
│t│ > t α/2 , n-1 t < -t α, n-1

H0: μ ≤ valor
H1: μ > valor
Rechazar H0 si:
x x
t  Z > Zα z 
s t > t α, n-1 
n n

56
EJEMPLO - Prueba para una Media con
desviación estándar conocida

Una ONG dirigida a la defensa de los derechos


humanos de los migrantes, en una de las fronteras
mexicanas, ha observado que la deportación de
indocumentados sigue la distribución normal con una
media de 200 y una desviación estándar de 16.
Recientemente, debido a nuevas disposiciones
migratorias, se han observado algunos cambios en la
la cantidad de deportados. Al INM le intersaría saber si
ha habido un cambio en la deportación en esa frontera.

57
EJEMPLO - Prueba para una Media con
desviación estándar conocida

Paso 1: Establezca la hipótesis nula y la hipótesis


alternativa.
H0:  = 200
H1:  ≠ 200
(Nota: la palabra clave en el problema es "ha
habido un cambio")

Paso 2: Seleccione el nivel de significación. Por


ejemplo α = 0,01.

58
EJEMPLO - Prueba para una Media con
desviación estándar conocida

Paso 3: Seleccionar un estadístico para la


prueba. Use la distribución z ya que σ es
conocida.

Paso 4: Formular la regla de decisión.


Rechazar H0 si | |Z| > Z/2
Z  Z /2

X  
 Z
 / n
/2

203 . 5  200
 Z . 01 / 2
16 / 50
1 . 55  2 . 58

59
EJEMPLO - Prueba para una Media con
desviación estándar conocida

Paso 5: Tomar una decisión e interpretar el


resultado.

Como1.55 no cae en la región de rechazo, no se


rechaza H0. Se concluye que la media poblacional no
es diferente de 200. Así que se le puede informar al
funcionario del INM que la evidencia de la muestra
no indica que la tasa de deportación haya cambiado
de 200 en la frontera referida.

60
EJEMPLO (2)- Prueba para una Media con
desviación estándar conocida

Supongamos que en el problema anterior, el


funcionario del INM quiere saber si ha habido un
aumento en el número de deportaciones.

Para decirlo de otra manera, ¿podemos concluir, que a


causa del cambio en las políticas migratorias, la media
de las deportaciones fue más de 200?

Recordatorio: σ = 16, n = 200, α = 0.01

61
EJEMPLO (2)- Prueba para una Media con
desviación estándar conocida

Paso 1: Establecer hipótesis nula y la hipótesis


alternativa.
H0:  ≤ 200
H1:  > 200
(Nota: la palabra clave en el problema "un
aumento")

Paso 2: Seleccione el nivel de significación.


α = 0.01.

62
EJEMPLO (2)- Prueba para una Media con
desviación estándar conocida

Paso 3: Seleccionar un estadístico para la


prueba .
Use la distribución z ya que σ es conocida

Paso 4: Formular la regla de decisión.


Rechazar H0 si Z > Z
Z  Z
X  
 Z
 / n
203 . 5  200
 Z . 01
16 / 50
1 . 55  2 . 33

63
EJEMPLO (2)- Prueba para una Media con
desviación estándar conocida

Paso 5: Tomar una decisión e interpretar el


resultado.

Como 1.55 no cae en la región de rechazo, no se


rechaza H0. Llegamos a la conclusión de que la media
de deportaciones no es de más de 200.

64
Prueba para una Media con desviación
estándar desconocida

 Cuando la desviación estándar de población (σ) es


desconocida, la desviación estándar de la muestra
(s) es la que se utiliza en su lugar.
 La distribución t se utiliza como estadístico de la
prueba, que se calcula utilizando la siguiente
fórmula:
X  
t 
s / n
Con n-1 grados de libertad, donde:
X̅ es la media muestral
µ es la media de la prueba de hipótesis
s es la desviación estándar de la muestra
n es el número de observaciones en la muestra

65
EJEMPLO - Prueba para una Media con
desviación estándar desconocida

El Departamento de reclamaciones de una Compañía


de Seguros reportó que el costo medio de un proceso
de reclamación es de $60. Una comparación de
industrias mostró que este importe es más grande que
en la mayoría de las demás compañías de seguros,
por lo que la empresa instituyó medidas de reducción
de costos.

66
EJEMPLO - Prueba para una Media con
desviación estándar desconocida

Para evaluar el efecto de las medidas de reducción de


costos, la supervisora del Departamento de
Reclamaciones, seleccionó una muestra aleatoria de 26
reclamaciones tramitadas durante el mes pasado.

La información de la muestra se reporta a continuación.


El nivel de significación es 0.01. ¿Es razonable que
ahora una reclamación sea de menos de $60?

67
EJEMPLO - Prueba para una Media con
desviación estándar desconocida

Paso 1: Establecer la hipótesis nula y la


hipótesis alternativa.
H0:  ≥ $60
H1:  < $60
(nota: la palabra clave en el problema "menos
de")

Paso 2: Seleccione el nivel de significación.


α= 0.01.

68
EJEMPLO - Prueba para una Media con
desviación estándar desconocida

Paso 3: Seleccionar estadístico de prueba.


Use distribución t ya que σ es desconocida.

Paso 4: Formular la regla de decisión


Rechazar H0 si t < -t,n-1
t   t ,n 1

X  
  t ,n 1
s / n
$ 56 . 42  $ 60
  t 0 . 01 , 26  1
$ 10 . 04
26
 1 . 818   2 . 485

69
EJEMPLO - Prueba para una Media con
desviación estándar desconocida

Paso 5: Tomar una decisión e interpretar el resultado.

Como -1.818 no cae en la región de rechazo, no se


rechaza H0 en el nivel de significación igual a 0.01. No
hemos demostrado que las medidas de reducción de
costos redujeron el coste medio por siniestro a menos de
$60. La diferencia de $3.58 ($ 56.42 - $ 60) entre la
media muestral y la media poblacional podría ser debido
a un error de muestreo.

70
EJEMPLO (2)- Prueba para una Media con
desviación estándar desconocida
En un laboratorio de BAYER, la tasa actual para
producir píldoras anticonceptivas es de 250 por hora.
Se adquirió una nueva máquina, que según el
proveedor, incrementará la tasa de producción.
Una muestra de 10 horas seleccionada al azar desde
el mes pasado reveló que la media de la producción
en la nueva máquina fue de 256 unidades, con una
desviación estándar de la muestra de 6 por hora.
Con un nivel de significación de 0.05, entonces, ¿Se
puede concluir que la nueva máquina es más rápida?

71
EJEMPLO (2)- Prueba para una Media con
desviación estándar desconocida

Paso 1: Establecer la hipótesis nula y la hipótesis


alternativa.
H0: µ ≤ 250;
H1: µ > 250

Paso 2: Seleccione el nivel de significación. En este


caso es 0.05.

72
EJEMPLO (2)- Prueba para una Media con
desviación estándar desconocida

Paso 3: Encontrar un estadístico para la prueba.


Use la distribución t y que la desviación estándar
de la población no se conoce y el tamaño de la
muestra es menor que 30.

Paso 4: Establecer la regla de decisión.


Hay 10 - 1 = 9 grados de libertad. La hipótesis
nula es rechazada si t> 1.833
X  256  250
t   3.162
s n 6 10

73
EJEMPLO (2)- Prueba para una Media con
desviación estándar desconocida

Paso 5: Tomar una decisión e interpretar los


resultados.

La hipótesis nula es rechazada.

La media producida es de más de 250 píldoras


por hora en ese Laboratorio.

74
Pruebas de Hipótesis para una Proporción
 Una proporción es porcentaje que indica la parte de la
muestra con un rasgo particular de interés.
 La proporción de la muestra se encuentra dividiendo x/n
 La fórmula del estadístico es:
p 
z 
 (1   )
n

donde :

π es la proporción de la población
p es la proporción de la población hipotética
n es el tamaño de la muestra

75
Pruebas de Hipótesis para una Proporción

 Una muestra aleatoria se elige de la población.

 Se supone ciertas las características de la


distribución Binomial:
A. Los datos de la muestra son el resultado del
conteo.
B. Sólo hay dos posibles resultados.
C. La probabilidad de éxito sigue siendo la
misma de un experimento a otro.
D. Los ensayos son independientes.

76
Pruebas de Hipótesis para una Proporción

 La prueba se llevará a cabo en breve es


apropiada cuando ambos n y n(1-  ) son
por lo menos igual a 5.

 Cuando las condiciones anteriores se


cumplen, la distribución normal se puede
utilizar como una aproximación a la
distribución binomial.

77
Prueba de Hipótesis para una Proporción ()

H0: π = valor H0: π ≥ valor


H1: π ≠ valor H1: π < valor
Rechazar H0 si: Rechazar H0 si:
│Z│> Zα/2 Z< -Zα

H0: π ≤ valor
H1: π > valor
Rechazar H0 si:
Z > Zα

78
EJEMPLO - Pruebas de Hipótesis para una
Proporción

Supongamos que antes de las elecciones para


gobernador, es necesario que un candidato reciba al
menos el 80% de la votación en la parte norte del estado
de Chihuahua.
El gobernador titular está interesado en la evaluación de
las posibilidades del candidato de su partido, así que
decide llevar a cabo una encuesta a 2,000 votantes
registrados en el norte del estado.
Utilizando el procedimiento de prueba de hipótesis,
evalúe las posibilidades del candidato del partido del
gobernador.

79
EJEMPLO - Pruebas de Hipótesis para una
Proporción

Paso 1: Establecer la hipótesis nula y la hipótesis


alternativa.
H0:  ≥ .80
H1:  < .80
(nota: la palabra clave en el problema es “al
menos”)

Paso 2: Elegir el nivel de significación.


α = 0.01 como se indica en el problema.

80
EJEMPLO - Pruebas de Hipótesis para una
Proporción

Paso 3: Seleccionar el estadístico para la prueba. Use


la distribución Z ya que se cumplen los supuestos y n
y n(1-) ≥ 5

Paso 4: Formular la regla de decisión. Rechazar H0 si


Z <-Z Z  Z
p 
 Z
 (1   )
n
1, 550  0 . 80
2 , 000
  1 . 65
. 80 (1  . 80 )
2 , 000
 2 . 80   1 . 65

81
EJEMPLO - Pruebas de Hipótesis para una
Proporción

Paso 5: Tomar una decisión e interpretar los


resultados.

El valor de z (2.80) se encuentra en la región de


rechazo, por lo que la hipótesis nula se rechaza en
el nivel de 0.05. La diferencia de 2.5 puntos
porcentuales entre el porcentaje muestral (77.5%) y
el porcentaje de población hipotética (80%) es
estadísticamente significativa. Las pruebas indican
que el candidato del mismo partido del gobernador
no será elegido.

82
Tipos de error en la Prueba de Hipótesis

 Error de tipo I :
- Se define como la probabilidad de rechazar la
hipótesis nula cuando en realidad es cierta.
- Se denota por la letra griega "”.
- También conocido como el nivel de significación
de una prueba.

 Error Tipo II:


- Se define como la probabilidad de "aceptar" la
hipótesis nula cuando en realidad es falsa.
- Se denota por la letra griega "β“

83
Tipos de error en la Prueba de Hipótesis

DECISIÓN

CONDICIÓN REAL Rechazar H0 No Rechazar H0

H0 cierta Error (Tipo I) Acierto

H0 falsa Acierto Error (Tipo II)

84
El Valor p en una Prueba de Hipótesis

 Valor p (p- value), es la probabilidad de observar


en una muestra un valor tan extremo, o más
extremo que el valor observado, dado que la
hipótesis nula es verdad.
 En una prueba de hipótesis, también se puede
comparar el valor de p para el nivel de
significación ().
 Si el valor de p es menor que el nivel de
significancia, H0 se rechaza, de otro modo H0 no
es rechazada.

85
EJEMPLO - El Valor p en la Prueba de Hipótesis

Recordemos que en el último problema de la


hipótesis y la regla de decisión se establecieron
como sigue:
H0:  ≤ 200
H1:  > 200
Rechazar H0 si Z > Z
Donde Z = 1.55 y Z =2.33

Rechazar H0 si el valor de p < 


0.0606 > 0.01

Conclusión: No se rechazará H0

86
Intervalo de Confianza para la Media –
Ejemplo usando la distribución t

Un fabricante de neumáticos quiere investigar la


vida de duración de éstos. Una muestra de 10
neumáticos rodados 50,000 millas reveló una
media muestral de 0.32 pulgadas restantes para
rodar con una desviación estándar de 0.09
pulgadas.
Construya un intervalo del 95% de confianza
para la media poblacional . ¿Sería razonable, por
parte del fabricante, concluir que después de
50.000 millas la cantidad de media poblacional
restante es de 0.30 pulgadas?

87
Tabla de Distribución t

Datos :
n  10
x  0 . 32 Dado que  es desconocid a
s  0 . 09 calule el I . de C. con la
distribuci ón t
s
X  t / 2,n 1 
n
0.09
 0.32  t.05 / 2,10 1 
10
0.09
 0.32  2.262 
10
 0.32  0.064  (0.256,0.384)

88
Tabla de Distribución t

Conclusión: el fabricante puede estar casi


seguro (95% seguro) que la media está
entre 0.256 y 0.384 pulgadas
89
Intervalos de Confianza para la Media

El gerente de una Plaza Comercial quiere estimar la


cantidad media gastada en cada visita de compras por
los clientes.
Una muestra de 20 clientes da las siguientes
cantidades

90
Intervalos de Confianza para la Media
Calcule el intervalo de confianza
con la distribuci ón t
s
X  t  / 2 , n 1
n
s 9 . 01
 X  t 0 . 05 / 2 , 20  1  49 . 35  t 0 . 025 ,19
n 20
9 . 01
 49 . 35  2 . 093  49 . 35  4 . 22
20
Los extremos del intervalo de confianza
son $45.13 y $53.57

Conclusión: es razonable que la media sea $50. La cantidad


de $60 no está en el intervalo de confianza.
Por lo tanto se concluye que es poco probable que la media
sea de $60
91
ANOVA

Analysis of variance compares two or more


populations of data.
Specifically, we are interested in determining
whether differences exist between the
population means.
The procedure works by analyzing the sample
variance.
The analysis of variance is a procedure that
tests to determine whether differences exits
between two or more population means.

To do this, the technique analyzes the sample


variances
Example: An apple juice manufacturer is planning
to develop a new product -a liquid concentrate.
The marketing manager has to decide how to market
the new product.
Three strategies are considered
Emphasize convenience of using the product.
Emphasize the quality of the product.
Emphasize the product’s low price.
An experiment was conducted as follows:
In three cities an advertisement campaign was
launched.
In each city only one of the three characteristics
(convenience, quality, and price) was emphasized.
The weekly sales were recorded for twenty weeks
following the beginning of the campaigns.
Convnce
Convnce Quality
Quality Price
Price
529
529 804
804 672
672
Weekly 658
658
793
630
630
774
531
531
443
793 774 443
sales 514
514 717
717 596
596
663
663 679
679 602
602
719
719 604
604 502
502
711
711 620
620 659
659
606
606 697
697 689
689
Weekly
461
461 706
706 675
675
529
529 615
615 512
512
sales
498
498 492
492 691
691
663
663 719
719 733
733
604
604 787
787 698
698
495
495 699
699 776
776
485
485
557
Weekly
572
572
523
561
561
572
557 523 572
353
353 sales
584
584 469
469
557
557 634
634 581
581
542
542 580
580 679
679
614
614 624
624 532
532
Solution
The problem objective is to compare sales in three
cities.
We hypothesize that the three population means
are equal
Defining the Hypotheses

• Solution
H0: 1 = 2= 3
H1: At least two means differ

To build the statistic needed to test the


hypotheses use the following notation:
Notation
Independent samples are drawn from k populations (treatments).
1 2 k
First observation, X11 X12 X1k
first sample x21 x22 x2k
. . .
. . .
Second observation, . . .
second sample Xn1,1 Xn2,2 Xnk,k
Sample size n1
n2 nk
Sample mean x1
x2 xk

X is the “response variable”.


The variables’ value are called “responses”.
Terminology

In the context of this problem…


Response variable – weekly sales
Responses – actual sale values
Experimental unit – weeks in the three cities when we
record sales figures.
Factor – the criterion by which we classify the
populations (the treatments). In this problems the factor
is the marketing strategy.
Factor levels – the population (treatment) names. In
this problem factor levels are the marketing trategies.
30

25
x 3  20
x 3  20
20 20
19
x 2  15
16 x 2  15
15
14
x1  10 12
11 x1  10
10 10
9 9

A small variability within The


1 sample means are the same as before,
the samples makes it easier but the larger within-sample variability
Treatment 1Treatment 2Treatment 3 Treatment 1 Treatment 2 Treatment 3
to draw a conclusion about the makes it harder to draw a conclusion
population means. about the population means.
Variability between sample
means
The variability between the sample means is
measured as the sum of squared distances
between each mean and the grand mean.

This sum is called the


Sum of Squares for Treatments
SST
In our example treatments are
represented by the different
advertising strategies.
Sum of squares for treatments
(SST)

k
SST   n j ( x j  x) 2

j 1

There are k treatments

The size of sample j The mean of sample j


Note: When the sample means are close to
one another, their distance from the grand
mean is small, leading to a small SST. Thus,
large SST indicates large variation between
sample means, which supports H1.
Sum of squares for treatments
(SST)

Solution – continued
Calculate SST

x 1  577.55 x 2  653 .00 x 3  608 .65


k
SST   n j ( x j  x ) 2
j 1
The grand mean is calculated by = 20(577.55 - 613.07)2 +
n1 x1  n2 x 2  ...  nk x k + 20(653.00 - 613.07)2 +
X + 20(608.65 - 613.07)2 =
n1  n2  ...  nk
= 57,512.23
The rationale behind test statistic
– II
Large variability within the samples weakens
the “ability” of the sample means to represent
their corresponding population means.
Therefore, even though sample means may
markedly differ from one another, SST must
be judged relative to the “within samples
variability”.
Within samples variability

The variability within samples is measured by


adding all the squared distances between
observations and their sample means.
This sum is called the
Sum of Squares for Error
SSE
In our example this is the
sum of all squared differences
between sales in city j and the
sample mean of city j (over all
the three cities).
Sum of squares for errors (SSE)
Solution – continued
Calculate SSE

s12  10,775 .00 s 22  7,238,11 s32  8,670 .24


k nj
SSE  
j 1 i 1
(xij  x j ) 2 (n1 - 1)s12 + (n2 -1)s22 + (n3 -1)s32

= (20 -1)10,774.44 + (20 -1)7,238.61+ (20-1)8,670.24


= 506,983.50
The mean sum of squares

To perform the test we need to calculate


the mean squares as follows:

Calculation of MST - Calculation of MSE


Mean Square for Treatments Mean Square for Error

SST SSE
MST  MSE 
k 1 nk
57 , 512 . 23 509,983.50
 
31 60  3
 28 , 756 . 12  8,894.45
Calculation of the test statistic

MST
F
MSE
28 , 756 . 12

8 ,894 . 45
Required Conditions:  3 . 23
1. The populations tested
are normally distributed.
2. The variances of all the with the following degrees of freedom:
populations tested are v1=k -1 and v2=n-k
equal.
The F test rejection region

And finally the hypothesis test:

H0: 1 = 2 = …=k
H1: At least two means differ
MST
Test statistic:F
MSE
R.R: F>F,k-1,n-k
The F test

Ho: 1 = 2= 3
H1: At least two means differ

Test statistic F= MST MSE= 3.23


R.R. : F  Fk1nk  F0.05,31,603  3.15
Since 3.23 > 3.15, there is sufficient evidence
to reject Ho in favor of H1, and argue that at least one
of the mean sales is different than the others.
The F test p- value

Use Excel to find the p-value


fx Statistical FDIST(3.23,2,57) = .0467

0.1
0.08
0.06
0.04 p Value = P(F>3.23) = .0467
0.02
0
-0.02 0 1 2 3 4
Contrastes no paramétricos
Los contrastes no paramétricos hacen referencia a la
distribución poblacional en su conjunto y no a ciertas
hipótesis sobre los valores de parámetros poblacionales :

(1) Cómo podemos decidir a partir de una muestra si


la población sigue (“ajusta”) a una determinada
distribución dada (problema de bondad de ajuste).
(2) ¿Estas muestras provienen de poblaciones con la
misma distribución? (problema de la homogeneidad).
(3) ¿Son independientes o dependientes varias
características poblacionales?
Prueba de bondad de ajuste 2
Supongamos una muestra aleatoria simple de tamaño n.
Desconocemos que la distribución de probabilidad f de la
población.
Contrastaremos la hipótesis:
H0: f = f0 y H1: f  f0
Es decir: la distribución desconocida f de la población es f0. Por
ejemplo: una distribución de Poisson determinada.
Usaremos la distribución chi-cuadrado para determinar la bondad
de ajuste entre las frecuencias observadas de los datos de la
muestra, frecuencias muestrales, y las frecuencias esperadas
(teóricas) según la distribución que sospechamos es la de la
población.
Procedimiento:
(1) Dividimos el dominio de la distribución en k
clases o intervalos disjuntos. Calculamos el
número de datos esperados, según la distribución
teórica a contrastar f0 , que deberían haber caído
en cada clase. Para ello basta multiplicar la
probabilidad que asigna f0 a cada clase por n,
el tamaño muestral.

Hemos de construir las clases de modo que cada una


contenga al menos 5 datos muestrales. Tenemos pues: A1,
A2, ... ,Ak clases con n1esp, n2esp, ... ,nkesp datos
muestrales en cada clase, todos valores mayores o
iguales a 5.
Ejemplo: Durante 200 días se han recogido el número de
accidentes automovilísticos diarios en una localidad son:

Número de accidentes 0 1 2 3 4 5 6 7

Número de días 22 53 58 39 20 5 2 1

(1) Creemos que el número de accidentes se distribuye


como una Poisson de media 2 (hipótesis nula).
Núm. de accidentes 0 1 2 3 4 5
N. esperado de días 27,06 54,14 54,14 36,08 18,04 10,54

Calculamos los valores esperados a través de la Poisson.


6
2 2
P ( x  6)  e  0.012; 200  0.012  2.41
6!
(2) Ahora construimos las mismas k clases o
intervalos disjuntos para los datos muestrales.
Tendremos también: A1, A2, ... ,Ak clases con
n1, n2, ... ,nk datos muestrales en cada clase.
Estos son los datos originales:

Número de accidentes 0 1 2 3 4 5 6 7

Número de días 22 53 58 39 20 5 2 1

Ajustamos al número de clases que nos determinó la distribución a contrastar.

Número de accidentes 0 1 2 3 4 5

Número de días 22 53 58 39 20 8
Realizaremos el test de constraste utilizando
Frecuencias
el estadístico chi-cuadrado siguiente: muestrales

 2


k
n  Eˆ 
i i
2

i 1 Eˆ i Frecuencias
esperadas

que sigue una distribución chi-cuadrado con k-1 grados


de libertad. En el ejemplo se tienen k = 6 clases. Luego:

6 ˆ
(ni  Ei ) 2
(22  27.06) 2
(8  10.54) 2
 
2
  ...   2.307
i 1 Eˆ i 27.06 10.54
Nuestro estimador chi-cuadrado es:  2  2.307

El estimador se distribuye como:   


2 2 2
k 1 6 1 5

Supongamos que queremos:   0.05


En las tablas encontramos:

0.05  2
5, 0.05  11.07

 2
5, 0.05  11.07

 2  2.307  11.07  No podemos rechazar H 0


Otras pruebas no
paramétricas…
FIN

You might also like