You are on page 1of 20

Anlisis exploratorio de los datos

Despus de realizar la descripcin del experimento, el paso siguiente es hacer el anlisis exploratorio de los datos, como el factor es cuantitativo se proceder a realizar un boxplot del tiempo en funcin del tipo de galleta, Adems del Plot Design y el Plot Means a este ltimo se le debe aplicar la correccin de Bonferroni dado que en este caso tenemos 3 comparaciones de medias ya que son 3 niveles y 1 un slo factor (3Com1 = 3) Para aplicar la correccin Bonferroni llamaremos R a dicha combinacin y dividiremos el intervalo de error de nuestro experimento por esta nueva variable .

Los grficos de boxplot, Plot Design y Plot Means se muestran a continuacin:

Plot of Means

180

Saladas

160

150

140

mean of Tiempo.en.seg

mean of Tiempo.en.seg

120

100

100

100 40 60 80

120
Integral Ducales Tipo.Galleta

60

80

40

Ducales

Saladas

50

Ducales

Integral Tipo.Galleta

Saladas Factors

Podemos observar en los grficos anteriores que existe una gran diferencia estadstica entre los tres tipos de galletas, La galleta que tiene menor variacin en sus tiempos es la Ducales su intervalo de confianza es el ms pequeo, adems de ser el tipo de galleta que dura menos en sostenerse. La integral se encuentra en el rango medio, aunque es la galleta que tiene ms variacin su media est entre 80 y 100 segundos, muy cercano a la media global.

140

160

Por ltimo observamos que la galleta con mayor duracin es la galleta salada la cual supera ampliamente a las dems, su intervalo de confianza est entre 165 y 180 segundos, son aproximadamente doble de tiempo de las galletas integrales.

Construccin del modelo Primero que todo necesitamos verificar si nuestra variable respuesta se comporta de manera normal para ello realizaremos los graficos pertinentes y la prueba de shapiro:

Tiempo.en.seg

40

60

80

100

120

140

160

180

-1

0 norm quantiles

En el Qq-plot se muestra que la distribucin de la variable respuesta tiene un comportamiento normal, pero la prueba de shapiro arroja otro resultado (el valor p es inferior a 0.05, es decir la distribucin de la variable respuesta es diferente de normal) . Como no existe ninguna transformacin de potencia que nos acepte la prueba de shapirowilk, la recta de regresin est dentro del intervalos de confianza (Qq-plot) y solo se est trabajando con 15 datos no haremos ningn cambio en la variable respuesta. Para continuar con el modelo necesitamos saber si el factor que escogimos es relevante para nuestra variable respuesta. Como nuestro factor se divide en 3 niveles los cuales son de tipo cualitativo se crean k-1 variables dummies, es decir 2 { { El modelo se construira de la siguiente forma

Para verificar significancia en la variable respuesta de estos niveles se procede a averiguar los betas y se realiza el anlisis de varianza para esto utilizaremos el summary y el anova:

Modelo estimado Donde 38.2 es el promedio de tiempo de duracin de las ducales cuando las dems variables toman el valor de cero

57.8 es la diferencia entre las medias de integral y Ducales cuando las dems variables toman el valor de cero, as como 135.8 es la resta entre las medias de Saladas y Ducales cumpliendo la misma condicin de que las dems predictoras sean cero. Para saber si ests diferencias de medias son significativas se plantean las siguientes pruebas de hiptesis Prueba de hiptesis (Media de Integral Media de Ducales)

Prueba de hiptesis (Media de Saladas Media de Ducales)

Si el valor p de dichos betas es mayor que 0.05 entonces la diferencia de medias asociada a los betas no tiene relevancia y no se rechaza la hiptesis nula, no obstante si esta resta es menor que 0.05 quiere decir que dicho beta es diferente de cero , es significativo Como observamos en el summary y tienen valores p inferiores a 0.05, eso significa que son diferentes de 0 y que dicha diferencia de medias es importante. Confirmando as lo analizado en la exploracin de datos, los niveles del factor presentan resultados estadsticamente diferentes. En el anlisis de varianza se plantea las siguientes hiptesis

Con las anteriores hiptesis se verifica si los medios cuadrados totales de la regresin son mayores que los medios cuadrados del error. Si est fraccin es igual o cercano a cero quiere decir que dicha variable predictora no es significativa, por el contrario si su valor es grande se rechaza la hiptesis nula y la variable aporta en varianza al modelo. Como el estadstico de prueba da 743.5 y el valor p es menor a 0.05 se puede afirmar que el Tipo de galleta es importante en el modelo y es significativa para el tiempo de duracin.

Validacin del modelo

Supuesto

Hiptesis Nulay Hiptesis alterna


( )

Pruebas Grficas

Pruebas Estadsticas

Valor (P)

Conclusin Respecto a H0
H0 No se rechaza dado que su valor es mayor que 0.05 , es decir hay independencia

Medida remedial

Independencia

Series model1$res

Series model1$res

-Durbin-Watson

0.6896

No se aplica medida remedial dado que Ho no se rechaza

1.0

0.5

)
model1$res Partial ACF
0 2 4 6 Lag 8 10

ACF

0.0

-0.5

-5

-1.0

10

14

-1.0
2

-0.5

0.0

0.5

1.0

10

6 Lag

10

Index

-Residuales vs Secuencia -Funcin de Autocorrelacin -Funcin de Autocorrelacin Parcial

180

10

10

Varianza Constante

-Bartlett

-0.1794

160

-Breush -Pagan
5

-0.06938

model1$res

120

-levene test
0

-0.1123

-5

80

100

Como en 2 de las 3 pruebas el valor p es superior a 0.05 , Decimos que Ho no se rechaza y se afirma que la varianza es constante

No se aplica medida remedial dado que Ho no se rechaza

140

40

80

120

160

40

60

Ducales

Saladas

-5
Ducales

Saladas

model1$f it

-Residuales vs Valores ajustados

Normalidad

:e~Normal
Histogram of model1$res

-Shapiro- Wilk
10 10 5

-0.7866

-Ks-test
5 4 5

-0.8906

model1$res

Frequency

En las pruebas el valor el p es superior a 0.05 se afirma que los errores se comportan con una distribucin normal

No se aplica medida remedial dado que Ho no se rechaza

-5

-10

-5

10

-5

-1

model1$res

norm quantiles

-Histograma -Boxplot -QQplot

Outliers

No hay pruebas de hiptesis en este supuesto

No se realiz prueba estadstica

rstandard(model1)

No hay puntos atpicos dado que los datos estn a menos de 3 desviaciones estndar

Como no hay presencia de outliers no se aplica medida remedial

-1
40

60

80

100

120

140

160

model1$fit

-Valores estandarizados vs Valores ajustados

Con la Validacin de los supuestos llegamos a la conclusin de que el modelo es vlido, existe independencia en los trminos del error gracias a que las correlaciones entre estos son estadsticamente cero, la varianza es constante existe un patrn reflejado en el grfico de residuales vs valores ajustados, los errores se distribuyen de manera normal (Qq-plot) y no existen puntos influnciales en el modelo dado que los datos estn a menos de 3 desviaciones estndar.

Comparaciones entre medias Prueba de Tukey

Prueba LSD

Prueba Duncan

Prueba Newman-Keuls

6) Para que nuestro modelo sea vlido tambin tenemos que determinar el nmero de rplicas a usar en el experimento para no cometer errores. Cuando hacemos diseo de experimentos podemos cometer dos tipos de errores: ( ( ) ) ( ( ) )

Siendo El nivel de significancia y a la cul anteriormente le aplicamos la correccin bonferroni, en el caso inicial = 0.05, es decir intervalo de confianza en el que estn un 95% de los datos La potencia de la prueba viene dado como y es la capacidad que tiene la prueba en detectar pequeas diferencias de medias entre los tratamientos. Por lo general se toma esta potencia de 0.90, esto significa que =0.1 Ahora bien para determinar el nmero de rplicas utilizaremos un mtodo que se llama la curva de operaciones, este procedimiento nos ayuda a seleccionar el nmero de rplicas para que el diseo sea capaz de detectar pequeas diferencias entre tratamientos Para esto se hace un grfico del error tipo 2 ( ) vs un parmetro que refleje la medida en que Ho es falsa, ese parmetro lo denominaremos y se calcula como:

Dnde: n= Nmero de rplicas D= Diferencia ms pequea que se detecta K= Nmero de niveles o tratamientos = Varianza dentro de los tratamientos El numerador se denomina V1 y tiene K-1 grados de libertad El denominador es V2 Y Tiene K(n-1) grados de libertad

En nuestro experimento n es el valor que hallaremos que nos cumpla con una potencia del 90% D = (9.8243)2 = 96,5168 (Este valor es tomado de la prueba LSD) K= 3 (Dado que son tres niveles) = 31.2333 (Tomado del anova, dado que este es el MSE) Grados de libertad del numerador = (3-1)=2 Grados de libertad del denominador =3(n-1)

La anterior tabla nos muestra las curvas de operaciones con V1 = 2 y alpha = 0,05 en la siguiente tabla resolveremos la ecuacin y hallaremos el beta adecuado en la grfica para hallar el nmero de rplicas a usar.

Se observa en la tabla que a partir de 6 rplicas la potencia tiene un valor mayor que 0.90 lo cual nos dice que nuestro modelo con 5 rplicas es vlido y tendra una potencia del 85%, pero lo ideal sera 6 por tratamiento. Por ltimo podemos concluir que el experimento al validarse los supuestos y hacer los respectivos anlisis se llega a que los tres tipos de galletas se comportan de manera diferente en la variable respuesta , siendo la galleta Salada la ptima , dado que es la que presenta mayor duracin .

You might also like