Trabajo de Métodos Diseño

Anlisis exploratorio de los datos
Despus de realizar la descripcin del experimento, el paso siguiente es hacer el anlisis exploratorio de los datos, como el factor es cuantitativo se proceder a realizar un boxplot del tiempo en funcin del tipo de galleta, Adems del Plot Design y el Plot Means a este ltimo se le debe aplicar la correccin de Bonferroni dado que en este caso tenemos 3 comparaciones de medias ya que son 3 niveles y 1 un slo factor (3Com1 = 3) Para aplicar la correccin Bonferroni llamaremos R a dicha combinacin y dividiremos el intervalo de error de nuestro experimento por esta nueva variable .
Los grficos de boxplot, Plot Design y Plot Means se muestran a continuacin:
Plot of Means
180
Saladas
160
150
140
mean of Tiempo.en.seg
mean of Tiempo.en.seg
120
100
100
100 40 60 80
120
Integral Ducales Tipo.Galleta
60
80
40
Ducales
Saladas
50
Ducales
Integral Tipo.Galleta
Saladas Factors
Podemos observar en los grficos anteriores que existe una gran diferencia estadstica entre los tres tipos de galletas, La galleta que tiene menor variacin en sus tiempos es la Ducales su intervalo de confianza es el ms pequeo, adems de ser el tipo de galleta que dura menos en sostenerse. La integral se encuentra en el rango medio, aunque es la galleta que tiene ms variacin su media est entre 80 y 100 segundos, muy cercano a la media global.
140
160
Por ltimo observamos que la galleta con mayor duracin es la galleta salada la cual supera ampliamente a las dems, su intervalo de confianza est entre 165 y 180 segundos, son aproximadamente doble de tiempo de las galletas integrales.
Construccin del modelo Primero que todo necesitamos verificar si nuestra variable respuesta se comporta de manera normal para ello realizaremos los graficos pertinentes y la prueba de shapiro:
Tiempo.en.seg
40
60
80
100
120
140
160
180
-1
0 norm quantiles
En el Qq-plot se muestra que la distribucin de la variable respuesta tiene un comportamiento normal, pero la prueba de shapiro arroja otro resultado (el valor p es inferior a 0.05, es decir la distribucin de la variable respuesta es diferente de normal) . Como no existe ninguna transformacin de potencia que nos acepte la prueba de shapirowilk, la recta de regresin est dentro del intervalos de confianza (Qq-plot) y solo se est trabajando con 15 datos no haremos ningn cambio en la variable respuesta. Para continuar con el modelo necesitamos saber si el factor que escogimos es relevante para nuestra variable respuesta. Como nuestro factor se divide en 3 niveles los cuales son de tipo cualitativo se crean k-1 variables dummies, es decir 2 { { El modelo se construira de la siguiente forma
Para verificar significancia en la variable respuesta de estos niveles se procede a averiguar los betas y se realiza el anlisis de varianza para esto utilizaremos el summary y el anova:
Modelo estimado Donde 38.2 es el promedio de tiempo de duracin de las ducales cuando las dems variables toman el valor de cero
57.8 es la diferencia entre las medias de integral y Ducales cuando las dems variables toman el valor de cero, as como 135.8 es la resta entre las medias de Saladas y Ducales cumpliendo la misma condicin de que las dems predictoras sean cero. Para saber si ests diferencias de medias son significativas se plantean las siguientes pruebas de hiptesis Prueba de hiptesis (Media de Integral Media de Ducales)
Prueba de hiptesis (Media de Saladas Media de Ducales)
Si el valor p de dichos betas es mayor que 0.05 entonces la diferencia de medias asociada a los betas no tiene relevancia y no se rechaza la hiptesis nula, no obstante si esta resta es menor que 0.05 quiere decir que dicho beta es diferente de cero , es significativo Como observamos en el summary y tienen valores p inferiores a 0.05, eso significa que son diferentes de 0 y que dicha diferencia de medias es importante. Confirmando as lo analizado en la exploracin de datos, los niveles del factor presentan resultados estadsticamente diferentes. En el anlisis de varianza se plantea las siguientes hiptesis
Con las anteriores hiptesis se verifica si los medios cuadrados totales de la regresin son mayores que los medios cuadrados del error. Si est fraccin es igual o cercano a cero quiere decir que dicha variable predictora no es significativa, por el contrario si su valor es grande se rechaza la hiptesis nula y la variable aporta en varianza al modelo. Como el estadstico de prueba da 743.5 y el valor p es menor a 0.05 se puede afirmar que el Tipo de galleta es importante en el modelo y es significativa para el tiempo de duracin.
Validacin del modelo
Supuesto
Hiptesis Nulay Hiptesis alterna

( )
Pruebas Grficas
Pruebas Estadsticas
Valor (P)
Conclusin Respecto a H0
H0 No se rechaza dado que su valor es mayor que 0.05 , es decir hay independencia
Medida remedial
Independencia
Series model1$res
Series model1$res
-Durbin-Watson
0.6896
No se aplica medida remedial dado que Ho no se rechaza
1.0
0.5
)
model1$res Partial ACF
0 2 4 6 Lag 8 10
ACF
0.0
-0.5
-5
-1.0
10
14
-1.0
2
-0.5
0.0
0.5
1.0
10
6 Lag
10
Index
-Residuales vs Secuencia -Funcin de Autocorrelacin -Funcin de Autocorrelacin Parcial
180
10
10
Varianza Constante
-Bartlett
-0.1794
160
-Breush -Pagan
5
-0.06938
model1$res
120
-levene test
0
-0.1123
-5
80
100
Como en 2 de las 3 pruebas el valor p es superior a 0.05 , Decimos que Ho no se rechaza y se afirma que la varianza es constante
140
40
80
120
160
40
60
Ducales
Saladas
-5
Ducales
Saladas
model1$f it
-Residuales vs Valores ajustados
Normalidad
:e~Normal
Histogram of model1$res
-Shapiro- Wilk
10 10 5
-0.7866
-Ks-test
5 4 5
-0.8906
model1$res
Frequency
En las pruebas el valor el p es superior a 0.05 se afirma que los errores se comportan con una distribucin normal
-5
-10
-5
10
-5
-1
model1$res
norm quantiles
-Histograma -Boxplot -QQplot
Outliers
No hay pruebas de hiptesis en este supuesto
No se realiz prueba estadstica
rstandard(model1)
No hay puntos atpicos dado que los datos estn a menos de 3 desviaciones estndar
Como no hay presencia de outliers no se aplica medida remedial
-1
40
60
80
100
120
140
160
model1$fit
-Valores estandarizados vs Valores ajustados
Con la Validacin de los supuestos llegamos a la conclusin de que el modelo es vlido, existe independencia en los trminos del error gracias a que las correlaciones entre estos son estadsticamente cero, la varianza es constante existe un patrn reflejado en el grfico de residuales vs valores ajustados, los errores se distribuyen de manera normal (Qq-plot) y no existen puntos influnciales en el modelo dado que los datos estn a menos de 3 desviaciones estndar.
Comparaciones entre medias Prueba de Tukey
Prueba LSD
Prueba Duncan
Prueba Newman-Keuls
6) Para que nuestro modelo sea vlido tambin tenemos que determinar el nmero de rplicas a usar en el experimento para no cometer errores. Cuando hacemos diseo de experimentos podemos cometer dos tipos de errores: ( ( ) ) ( ( ) )
Siendo El nivel de significancia y a la cul anteriormente le aplicamos la correccin bonferroni, en el caso inicial = 0.05, es decir intervalo de confianza en el que estn un 95% de los datos La potencia de la prueba viene dado como y es la capacidad que tiene la prueba en detectar pequeas diferencias de medias entre los tratamientos. Por lo general se toma esta potencia de 0.90, esto significa que =0.1 Ahora bien para determinar el nmero de rplicas utilizaremos un mtodo que se llama la curva de operaciones, este procedimiento nos ayuda a seleccionar el nmero de rplicas para que el diseo sea capaz de detectar pequeas diferencias entre tratamientos Para esto se hace un grfico del error tipo 2 ( ) vs un parmetro que refleje la medida en que Ho es falsa, ese parmetro lo denominaremos y se calcula como:
Dnde: n= Nmero de rplicas D= Diferencia ms pequea que se detecta K= Nmero de niveles o tratamientos = Varianza dentro de los tratamientos El numerador se denomina V1 y tiene K-1 grados de libertad El denominador es V2 Y Tiene K(n-1) grados de libertad
En nuestro experimento n es el valor que hallaremos que nos cumpla con una potencia del 90% D = (9.8243)2 = 96,5168 (Este valor es tomado de la prueba LSD) K= 3 (Dado que son tres niveles) = 31.2333 (Tomado del anova, dado que este es el MSE) Grados de libertad del numerador = (3-1)=2 Grados de libertad del denominador =3(n-1)
La anterior tabla nos muestra las curvas de operaciones con V1 = 2 y alpha = 0,05 en la siguiente tabla resolveremos la ecuacin y hallaremos el beta adecuado en la grfica para hallar el nmero de rplicas a usar.
Se observa en la tabla que a partir de 6 rplicas la potencia tiene un valor mayor que 0.90 lo cual nos dice que nuestro modelo con 5 rplicas es vlido y tendra una potencia del 85%, pero lo ideal sera 6 por tratamiento. Por ltimo podemos concluir que el experimento al validarse los supuestos y hacer los respectivos anlisis se llega a que los tres tipos de galletas se comportan de manera diferente en la variable respuesta , siendo la galleta Salada la ptima , dado que es la que presenta mayor duracin .

Trabajo de Métodos Diseño

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Trabajo de Métodos Diseño

Uploaded by

Copyright:

Available Formats

Anlisis exploratorio de los datos

Los grficos de boxplot, Plot Design y Plot Means se muestran a continuacin:

Prueba de hiptesis (Media de Saladas Media de Ducales)

Validacin del modelo

Hiptesis Nulay Hiptesis alterna

No se aplica medida remedial dado que Ho no se rechaza

-Residuales vs Secuencia -Funcin de Autocorrelacin -Funcin de Autocorrelacin Parcial

No se aplica medida remedial dado que Ho no se rechaza

-Residuales vs Valores ajustados

No se aplica medida remedial dado que Ho no se rechaza

-Histograma -Boxplot -QQplot

No hay pruebas de hiptesis en este supuesto

No se realiz prueba estadstica

Como no hay presencia de outliers no se aplica medida remedial

-Valores estandarizados vs Valores ajustados

Comparaciones entre medias Prueba de Tukey

You might also like