Professional Documents
Culture Documents
E STADISTICA DESCRlPTIVA
E lNFERENCIAL
COLECCIN
CIENCIAYTECNICA.
Thi s
One
BJ5Y-2AY-0R82
ESTADSTICA descriptiva
E INFERENCIAL
1995
PROLOGO
10
Las consideraciones que acabo de hacer, mi propia experiencia docente con
estudiantes y la colaboracin en trabajos con algunos compaeros que se sirven de
estas tcnicas en sus tareas investigadoras, han orientado el diseo de este libro, que
no pretende ser un tratado terico-matemtico ni tampoco un simple formulario. La
intencin de conseguir el punto medio, de equilibrio entre ambos extremos, pero
capaz de trasmitir un conocimiento profundo del proceso estadstico, es, tal vez, la
razn ltima de este texto.
Se distinguen, en l, tres partes fundamentales: la primera, sobre Estadstica
Descriptiva, comprende los seis primeros captulos y estudia las caractersticas
fundamentales de localizacin, dispersin y forma de una distribucin estadstica de
uno y de dos caracteres, abordando tambin los problemas de regresin y correlacin.
Los diversos tipos de grficos estadsticos son descritos, situndolos en funcin
de los tipos de caracteres y de sus modalidades, como un complemento que facilita el
anlisis exploratorio de los datos.
La segunda parte, Nociones sobre Clculo de Probabilidades, es abordada en
los captulos sptimo y octavo, y contiene aquellos conceptos bsicos de probabilidad
y variable aleatoria, y el estudio de las distribuciones discretas y continuas necesarias
para enlazar de un modo coherente, sin grandes brusquedades, con la Estadstica
Inferencial, que constituye la parte tercera y fundamental del libro, a la que se
dedican otros seis captulos.
En todo momento, he procurado dar un enfoque didctico a los temas tratados,
introduciendo la mayor parte de los conceptos a travs de ejemplos sencillos de la
vida diaria.
Para evitar que el discurso del razonamiento se aparte de la idea central, en ocasio
nes he pasado algn proceso de demostracin al final del captulo en forma de apndice.
La estrategia del contraste de hiptesis es analizada en sus diversas acepciones:
sta es la herramienta fundamental de que dispone el investigador para inferir los
resultados de sus experiencias a la poblacin, confirindoles un carcter de universa
lidad y generalidad.
El anlisis de la varianza, los contrastes de bondad de ajuste, independencia y
homogeneidad de la varianza. as como algunos de los contrastes no paramtricos, de
uso cada da ms frecuente, son tambin tratados y valorados con detalle.
El problema de regresin y correlacin ha requerido dos captulos. En el captulo
decimocuarto, se complementa el contenido del sexto desde el punto de vista
inferencial. Son muchos los trabajos de investigacin que descuidan este aspecto, lo
que les resta generalidad.
La potencia del contraste, que da solidez y rigor a las conclusiones, se aborda
desde su acepcin conceptual y se resuelve de modo sencillo mediante la tabla
estadstica de Welkowitz. aportando la relacin entre ambos mtodos.
Toledo, febrero de 1995.
El Autor
ndice de materias
INTRODUCCIN
1.1. Sumas indicadas
1.2. Sumas dobles
23
23
27
DISTRIBUCIONES Y GRFICAS
1.1. Concepto y trminos
1.2. Poblacin, muestra e individuo
1.3. Caracteres y modalidades
1 .4. Variable estadstica
1.5. Distribucin de frecuencias
1.5.1. Frecuencia absoluta y relativa
1.5.2. Propiedades de las frecuencias
1.5.3. Frecuencias acumuladas
1.6. Parmetros y estadsticos
1.7. Tablas estadsticas
1.7.1. Tabla de una variable estadstica discreta
1.7.2. Agrupacin en clases
1.7.3. Tabla de una variable estadstica continua
1.8. Representaciones grficas
1.8.1. Representaciones de caracteres cualitativos
1.8.2. Representaciones de caracteres cuantitativos
1.8.2.1. Diagramas diferenciales
1.8.2.2. Diagramas integrales para variable discreta
1.8.2.3. Diagramas integrales para variable continua
1.9. Simetra y sesgo
1.10. Modalidad
1.11. Apuntamiento
33
33
33
34
35
35
36
36
36
37
37
38
39
43
44
44
49
49
53
54
56
56
57
12
57
2.
CARACTERSTICAS DE POSICIN
2.1. Caractersticas de una distribucin de frecuencias
2.2. Caractersticas de tendencia central
2.3. Media aritmtica
2.3.1. Definicin en el caso discreto
2.3.2. Propiedades de la media aritmtica
2.3.3. Definicin en el caso continuo
2.3.4. Ventajas e inconvenientes de la media aritmtica
2.4. Otros valores medios
2.4.1. Media geomtrica
2.4.2. Media cuadrtica
2.4.3. Media armnica
2.4.4. Relacin entre las distintas medias
2.5. Percentiles. Mediana
2.5.1. Definiciones
2.5.2. Clculo de la mediana
2.5.2.1. Comportamiento de la mediana
2.5.3. Problema inverso
2.6. Cuartiles, quintiles y deciles
2.7. Moda
2.7.1. Definicin
2.7.2. Clculo de la moda
2.8. Ejercicios propuestos
63
63
64
65
65
66
68
70
70
70
72
73
74
75
75
76
79
80
81
81
81
82
84
3.
89
89
90
90
90
91
91
92
93
94
94
96
97
98
98
13
3.3.3. Coeficiente de variacin de Pearson
3.3.4. Coeficiente de variacin media
3.4. Momentos
3.4.1. Momentos centrales
3.4.2. Momentos respecto al origen
3.4.3. Clculo de momentos
3.5. Anlisis de la forma
3.5.1. Coeficiente de asimetra de Fisher
3.5.2. Coeficiente de asimetra de Pearson
3.5.3. Coeficiente de asimetra de Bowley
3.5.4. Coeficiente absoluto de asimetra
3.5.5. Medidas de apuntamiento o curtosis
3.6. Medidas de concentracin
3.7. Variable tipificada
3.8. Puntuaciones derivadas
3.8.1. Puntuaciones T
3.8.2. Puntuaciones SAT
3.9. Correcciones de agrupamiento de Sheppard
3.10. Ejercicios propuestos
Apndice al captulo 3: Demostracin de las propiedades
4. ANLISIS EXPLORATORIO DE DATOS
4.1. Estadstica exploratoria
4.2. Principios fundamentales
4.3. ndices de localizacin resistentes
4.3.1. Promedios de cuartiles
4.3.2. Trimedia
4.3.3. Medias recortadas
4.4. ndices de dispersin
4.4.1. Rango intercuartlico pseudo-tipificado
4.4.2. Indice de variacin cuartlica
4.5. ndices de forma
4.5.1. ndice de simetra de Yule
4.5.2. Indice de simetra de Kelly
4.5.3. ndice de curtosis
4.6. Diagrama de tronco y hojas
4.7. Cuartos y octavos
4.8. Datos anmalos
4.9. Grfico en caja y extensin
4.10. Promedios de simetra
4. 1 1 . Transformaciones de datos
98
99
100
101
101
102
103
104
105
105
105
105
107
109
1 10
111
111
112
1 13
117
119
1 19
1 20
121
121
121
121
123
123
124
124
124
125
125
126
130
132
133
135
136
14
5.
137
138
140
141
DISTRIBUCIONES BIVARIANTES
5.1. Anlisis de dos caracteres
5.2. Distribucin conjunta
5.2.1. Propiedades de las frecuencias
5.3. Tablas estadsticas
5.4. Distribuciones marginales
5.4.1. Distribucin marginal segn el carcter X
5.4.1.1. Propiedades
5.4.2. Distribucin marginal segn el carcter Y
5.4.2.1. Propiedades
5.5 Distribuciones condicionadas
5.5.1. Propiedades
5.6. Medidas de posicin y de dispersin
5.7. Dependencia e independencia funcional
5.7.1. Independencia
5.7.2. Dependencia
5.8. Momentos
5.8.1. Momentos centrales o respecto de las medias
5.8.2. Momentos respecto al origen
5.8.3. Primeros momentos
5.8.4. Propiedades
5.8.5. Covarianza
5.8.5.1. Propiedades de la covarianza
5.9. Poblaciones pequeas
5.10. Representaciones grficas
5.11. Los dos caracteres son cualitativos
5.11.1. Los dos caracteres presentan ms de dos modalidades
5.11.2. Uno de los caracteres es dicotmico
5.12. Un carcter es cualitativo y el otro cuantitativo
5.13. Los dos caracteres son cuantitativos
5.13.1. Las dos variables son discretas
5.13.2. X es una variable continua e Y discreta
5.13.3. Las dos variables son continuas
5. 13. 3.1. Representacin mediante puntos
5.1 3.3.2. Estereograma
5.14. Diagrama de dispersin
145
145
145
146
146
147
147
147
148
148
149
150
150
154
154
155
157
157
157
158
158
160
161
161
163
163
164
166
167
170
170
171
172
172
173
174
1?
6.
175
REGRESIN Y CORRELACIN
6.1. Dependencia aleatoria y funcional
6.2. Regresin y correlacin
6.3. Mtodos de ajuste
6.3.1. Ajuste por el mtodo de mnimos cuadrados
6.4. Regresin lineal
6.4.1. Recta de regresin de Y sobre X
6.4.2. Recta de regresin de X sobre Y
6.4.3. Coeficientes de regresin y covarianza
6.4.4. Predicciones
6.5. Correlacin
6.5.1. Coeficiente de correlacin general de Pearson
6.5.1.1. Propiedades del coeficiente de correlacin gene
ral de Pearson
6.5.2. Coeficiente de correlacin lineal de Pearson
6.5.2.1. Interpretacin del coeficiente de correlacin linea1.
6.5.2.2. Clculo del coeficiente de correlacin lineal
6.5.3. Variables incorreladas
6.5.4. Correlacin y causalidad
6.6. Otros coeficientes de correlacin
6.6.1. Coeficiente de correlacin de Spearman
6.6.2. Coeficiente de correlacin biserial puntual
6.6.3. Coeficiente O
6.6.4. Correlacin tetracrica o de atributos
6.7. Regresin y series de tiempo
6.8. Regresin parablica
6.9. Regresin exponencial y geomtrica
6.10. Ejercicios propuestos
Apndice al captulo 6: Demostracin de las propiedades del coeficien
te de correlacin lineal de Pearson
183
183
184
185
185
186
187
189
190
190
192
193
180
193
194
195
196
198
199
200
200
201
202
204
205
206
208
21 1
215
219
219
220
221
16
7.2.2. Otras operaciones y relaciones entre sucesos
7.2.3. a-lgebra de sucesos
7.3. Frecuencia de un suceso
7.4. Definicin de Probabilidad
7.4.1. Propiedades de la probabilidad
7.4.2. Asignacin de probabilidades
7.5. Ejercicios resueltos
7.6. Probabilidad condicionada
7.6.1. Sucesos dependientes e independientes
7.7. Teoremas de la probabilidad total y de Bayes
7.8. Variable estadstica y variable aleatoria
7.9. Concepto de variable aleatoria
7.9.1. Variable aleatoria discreta y continua
7.10. Distribuciones discretas
7.11. Distribuciones continuas
7.12. Esperanza matemtica
7.12.1. Esperanza de una funcin de una variable aleatoria
7.12.2. Propiedades de la esperanza matemtica
7.13. Varianza y desviacin tpica
7.13.1. Propiedades de la varianza
7.14. Teorema de Tchebycheff
7.15. Cambio de variable
7.15.1. Cambio de variables aleatorias discretas
7.15.2. Cambio de variables aleatorias continuas
7.16. Momentos
7.16.1. Momentos respecto al origen
7.16.2. Momentos centrales
7.17. Funcin generadora de momentos
7.18. Ejercicios propuestos
8. MODELOS DE DISTRIBUCIONES
8.1. Distribuciones probabilsticas
8.2. Distribuciones discretas
8.2.1. Distribucin uniforme
8.2.2. Distribucin binomial
8.2.2.1. Ajuste de una distribucin de frecuencias por una
binomial
8.2.3. Distribucin de Poisson
8.3. Distribucin normal general
8.3.1 Propiedades
8.3.2. Representacin grfica de la normal general
223
224
226
227
227
229
230
232
234
236
238
238
239
240
242
244
246
246
247
248
249
252
252
253
254
254
254
255
256
263
263
264
264
265
269
270
273
275
275
17
8.4. Distribucin normal tipificada
8.4.1. Propiedades de la normal tipificada
8.4.2. Representacin grfica de la normal tipificada
8.4.3. Funcin de distribucin
8.4.4. reas bajo la curva normal
8.5. Aproximacin de la binomial
8.6. Ejercicios Propuestos
Apndice al captulo 8: Demostracin de las propiedades de la distri
bucin normal
277
277
277
278
279
284
287
290
295
295
295
297
297
298
299
301
302
302
303
305
305
306
307
308
309
311
312
313
314
315
316
319
321
322
323
-18
9.18. Intervalo para la razn de varianzas
9.19. Ejercicios propuestos
324
326
331
331
331
332
336
337
339
342
342
343
344
346
346
348
349
351
355
355
356
358
358
360
361
362
366
367
367
368
371
373
374
377
378
19
379
379
381
381
382
383
385
389
389
390
393
394
394
395
398
402
402
404
406
406
407
407
408
411
411
411
412
415
416
419
420
423
423
424
426
427
428
428
429
20
431
432
433
434
439
439
442
445
451
451
452
452
454
456
456
460
461
462
462
464
465
470
471
473
474
474
475
476
478
483
483
483
485
485
490
494
21
15.4. Otras pruebas
15.4.1. Prueba de la mediana
15.4.2. Prueba de rachas de Wald-Wolfowit
15.4.3. Prueba de los signos
15.5. Ejercicios propuestos
497
498
501
503
505
509
509
529
531
531
531
532
533
534
534
535
536
537
537
539
539
540
540
542
543
545
BIBLIOGRAFA
561
NDICE ALFABTICO
567
INTRODUCCION
Ejemplo 1. 1
Supongamos que un dependiente de unos grandes almacenes ha ido registrando
los ingresos por las ventas realizadas a lo largo del da, y que tiene almacenados los
datos en una variable con ndice:
A =22600, A =15500, A =8250, A4=25200, A5=32400,
Ai representa el valor 22600 de los ingresos por la primera venta,
A, representa el valor 13500 de los ingresos por la segunda venta,
La variable con ndice A define as el conjunto de los ingresos por ventas que ha
realizado el dependiente.
Para expresar la suma de todos los ingresos, se procede de acuerdo con el criterio
que establece la siguiente definicin:
24
Definicin 1.1: Dado el conjunto de nmeros reales {A ,A. ..,An} representado por la variable con ndice A , la expresin
(1)
x
indica la suma de todos sus elementos: A1+A,+...+An
y se debe leer como la suma de todos los valores que toma la variable A . empezan
do por el primero, A, (A, cuando i=l ) y terminando por el ltimo, An (A, cuando i=n):
El ndice inferior (i=l ) especifica que la suma empieza en A , y el ndice superior
(i=n), colocado sobre la Z. seala el ltimo de los sumandos.
La letra i, que hemos empleado para designar un ndice genrico, es una variable
muda, que puede reemplazarse por otra letra que no haya sido utilizada. As:
n
i=l
k=1
La suma de todos los ingresos por ventas del dependiente de los grandes almace
nes se expresa como:
A
que, una vez desarrollado, resulta:
5
p,
(2)
Xa
25
representa la suma de los ingresos por los artculos vendidos en segundo, tercero y
cuarto lugar:
4
'Z(X + Y)=^X + ^Y
[3]
Esta propiedad nos dice que, si cada sumando de una suma indicada se descom
pone en dos, el valor de sta es el mismo que se obtiene de sumar los resultados de
las dos sumas parciales.
Ejemplo 1.2
Supongamos que el dependiente de los grandes almacenes del ejemplo I.1 cobra
por separado el importe neto del producto y el impuesto (IVA) que lo grava. Los
ingresos anteriores vendran ahora desglosados en la forma:
Valor del artculo (X)
IVA(Y)
Precio de venta (A)
0179
2421
2600
siendo
13839
1661
15500
7366
884
8250
22500
2700
25200
A=X+Y
i
i
i
.5
28929
3471
32400
26
(4)
X(x-y) = lx-ly
II.
Esta propiedad nos indica que, para hallar el precio neto, es igual sumar los pre
cios de venta de los artculos por un lado y los impuestos por otro y restar, que sumar
las diferencias entre el precio de venta y el IVA de cada uno de los artculos:
5
lkA, = klA,
As, por ejemplo, si todos los precios se multiplican por 2, el precio total ser
tambin el doble. Esta propiedad se conoce como distributiva, y es la que permite
sacar factor comn:
J
(6)
^7 = 7 + 7 + 7 + 7 + 7 = 5x7 = 35
Como caso particular, tenemos
N
(7)
V. Si k es una constante
N
X(Ai-k) = X,Ai-Nk
(8)
27
Nos interesa ahora resaltar dos reglas que no cumple la suma indicada:
1)
YXY*(YX)(1Y)
1X2*(1X)2
Ejemplo I.3
Si tenemos los valores X =2, X,=6, X =7 e Y=3, Y,=5, Y,=4, ser:
aT = 2x3 + 6x5 + 7x4 = 6 + 30 + 28 = 64
(X*)(5^) = (2 + 6 + 7)x(3 + 5 + 4)=15xl2=180
lo que demuestra la desigualdad 1 ).
Asimismo
mientras que
28
Artculos
1
2
3
4
Aos de antigedad
1
2
3
>
>>>
1
2
3
4
1
50
25
16
12
2
60
30
10
8
3
35
10
14
24
que, realmente, es un cuadro de nmeros ordenados por filas y por columnas. Los
elementos de la primera fila son los precios del artculo 1 segn el ao de antigedad:
50, 60, 35; los elementos de la primera columna son los precios de cada artculo con un
ao de antigedad,...
Cuando el nmero de filas(m) y de columnas(n) es grande, una manera de repre
sentar la suma de todos los elementos de la matriz es mediante la expresin:
(9)
que, en el ejemplo I.4, es
M =1
29
4 3
"\
,.1 l i.1
i-l
i=l
i=l
i=l
= (An + A2i + A.m + Aii) + (A12 + A22 + A35 + A42) + (A13 + A23 + A33 + A43) =
3 ( 4
V./.1
;.'
= (A/, + A + A,.i) + fA2i + A22 + AuJ + M.i/ + A + A.it) + (A4/ + A42 + A4.l) =
= (50 + 60 + 35) + (25 + 30 + 10) + ( 16 + 10 + 14) + (12 + 8 + 24) = 145 + 65 + 40 + 44 = 294
Hemos comprobado, por tanto, que el resultado es el mismo cualquiera que sea el
orden que sigamos para sumar, lo que podemos expresar mediante la frmula:
rn
f n
Xa,
XX\o
=X
,.i .i
,.i
( m
-i ,1Xa )
(10)
II* A = * IS Ao
(11)
Esta propiedad resulta evidente, ya que la constante se puede sacar factor comn
en las sumas simples, segn hemos visto en (5). Tambin resultan fciles de compro
bar las siguientes:
II.
IE(a,B,)-IXA|XXBi
rn
III.
IV
(12)
(13)
X X I = mn = N, si mn = N.
(14)
,.1 i.i
\f a
(15)
\\-\
)\r-\
M)
Ejemplo 1.5
r 4
>
' ^
15>4i = 1 3, 14. = (3+32+33 + 3^X4 + 42+4')= 120-84 = 10080
,=l j=1
.-, > \ )
J
En ocasiones, interesa obtener sumas parciales de una suma doble, como puede
ser, en el ejemplo 1.4, la suma de los precios de todos los artculos con un ao de
antigedad (que se corresponde con la suma de los elementos de la primera columna
de la tabla):
4
o la suma de los precios de los artculos 1 y 2 (suma de las dos primeras columnas):
4
PRIMERA PARTE
ESTADSTICA DESCRIPTIVA
CAPITULO 1
DISTRIBUCIONES Y GRFICAS
34
35
B) Tipos de caracteres:
Es conveniente distinguir entre dos tipos de caracteres: cualitativos y cuanti
tativos.
Un carcter se dice cuantitativo cuando sus diversas modalidades pueden ser
medidas o numeradas. La talla, el peso, la edad, el dimetro de una pieza circular,... son
caracteres cuantitativos.
Un carcter se dice cualitativo cuando sus distintas modalidades no son medibles
ni contables, sino que su variacin se pone de manifiesto mediante cualidades que
presentan formas alternativas, como puede ser el estado matrimonial, el sexo,...
36
P, = 100/
X, = N
(3)
I/-1
i
En efecto:
,-i N
N ,=l
37
(5)
h,- N
t '
38
Los paquetes informticos disponen de mdulos orientados al diseo de tablas de
frecuencias, con opciones para dirigir la salida de resultados a la pantalla del ordena
dor, a la impresora o a un plotter.
Supongamos una distribucin de N individuos descrita segn un carcter C que
presenta k modalidades CrC, C. La forma general de la tabla es:
Modalidades F. Absolutas F. Relativas Porcentajes
c,
c.
n,
n,
f,
f.
lOOxf,
lOOxf,
lOOxf
q
Total
\
N
t;
i
lOOxf^
100%
Ejemplo 1.1
La tabla siguiente corresponde a la distribucin de 50 personas atendiendo al
color de los ojos:
Modalidades F. Absolutas F. Relativas Porcentajes
Azules
Verdes
Castaos
Negros
Total
16
12
14
8
50
032
0'24
0'28
0'16
roo
32%
24%
28%
16%
100%
39
La tabla estadstica correspondiente a una variable discreta se construye ordenan
do de menor a mayor los distintos valores de la variable y anotando en columnas
sucesivas las frecuencias absolutas, las frecuencias relativas y los porcentajes:
Valor de la variable F. Absoluta
"\
F. Relativa
Porcentajes
lOOxf
lOOxf,
lOOxf
\
Total
100xfk
100%
14
0,14
7
0,14
0,26
13
20
26
0.40
0,30
15
30
0,70
35
16
0,16
43
4 ms
0,86
0.14
Total
50
14
1,00
50
1,00
100%
40
(7)
donde e,, es el extremo inferior del intervalo y e es el extremo superior, que no forma
parte del mismo.
La amplitud de clase es la distancia entre sus extremos. La amplitud de la clase i-sima
es, por tanto:
a.=e-e ,
(8)
t
i-i
Las clases pueden tener una amplitud constante o variable, aunque es aconsejable
elegir los intervalos con amplitud constante.
As, las estaturas de una muestra de estudiantes pueden agruparse en clases de la
siguiente forma:
de 1,55 m. a menos de 1,65 m.
de 1,65 m. a menos de 1,75 m.
de 1,75 m. a menos de 1,85 m.
ms de 1,85 m.
La amplitud de las tres primeras clases es de 10 cm., mientras que la amplitud de la
ltima clase es indeterminada. Se dice que esta clase es abierta. Los extremos de clase
son 1,55; 1,65; 1,75;... Los intervalos de clase son [l'55,r65), [l'65,r75),... La ltima
clase no tiene extremo superior.
La eleccin del nmero de clases depende del recorrido y de la amplitud de cada uno
de los intervalos. Se define el recorrido o rango de una variable estadstica como la
diferencia entre los valores mayor y menor de la variable. Si lo representamos por R. es:
R = mx(x^ - mui(x)
(9)
(10)
41
(11)
2) Siempre que sea posible, se debe procurar que todos los intervalos tengan la
misma amplitud. Cuando se elige previamente la amplitud de clase, se toma, como
valor de la misma, la raz cuadrada del nmero de observaciones N:
(12)
N
Se llama centro o marca de clase al punto medio de cada intervalo de clase. La
marca de la i-sima clase es:
(13)
C'~ *'.., 2+ ''.
Es conveniente disponer, al hacer los clculos, de la distancia entre dos marcas de
clase consecutivas. La distancia entre las marcas de la clase i y de la clase i+1 viene
dada por:
-r
e + el' e"+e' eLJ
(14)
a,-cM ci- 2 ' 2 ~ 2
Cuando los datos estn agrupados en clases, se considera que todos los indivi
duos pertenecientes a una clase tienen el valor que seala la marca de clase. Por este
motivo, la utilizacin de intervalos de clase, si bien supone una mayor comodidad en
los clculos, tambin conlleva una prdida de informacin, sobre todo si la distribu
cin de los datos en el intervalo no es homognea.
Ejemplo 1.3
Se ha realizado un test para evaluar la capacidad de abstraccin de un grupo de
treinta alumnos de primer curso de Bachillerato, obtenindose los resultados que
figuran en el siguiente recuadro:
22 40 45 36 38 24 32 41 50 41 29 44 33 38 28
29 45 34 26 28 28 32 47 5041 36 31 24 30 36
Para construir la tabla de frecuencias, como el recorrido es 50-22=28, se pueden
elegir seis o siete clases. Si se opta por seis clases, los datos estarn agrupados de la
siguiente forma:
Intervalos
Frecuencias
[22,27)
[2732)
[3237)
[37,42)
[42,47)
[47,52)
4
6
7
6
3
4
42
Frecuencias
1-10
11-20
21-30
3140
41-50
51-60
61-70
71-80
Total
30
15
63
84
50
46
32
14
364
Es evidente que no estn recogidas calificaciones no enteras, como puede ser una
puntuacin de 50' 5 puntos, y, sin embargo, en alguna situacin podra ser interesante
disponer de datos como ste.
Por ello, es conveniente elegir nuevos intervalos que contengan estos posibles
valores, manteniendo las frecuencias.
En este ejemplo, basta con tomar como extremos a los puntos medios entre los
extremos superior e inferior de cada dos intervalos contiguos, modificando tambin
los intervalos de modo que todos ellos tengan la misma amplitud.
La tabla de frecuencias para el ejemplo 1 .4. quedara as:
Intervalos
Frecuencias
0'5-10'5
10'5-20'5
20'5-30'5
30'540'5
40'5-50'5
W5-fti'5
60'5-70'5
70'5-80,5
Total
30
15
63
84
50
46
32
14
364
43
182
191
181
158
168
173
165
176
187
161
156
178
179 174
172 181
191 172
179 162
161 168
188 164
188
166
184
185
192
159
164
164
171
188
157
169
186
171
169
174
168
187
170
176
169
177
178
184
168
188
178
172
166
Maros
Frcab.
Fre. ab. ac
Fre.reL
154-160
160-166
166-172
172-178
178-184
184-190
190-1%
Total
157
163
169
175
181
187
193
5
13
22
21
21
13
5
100
5
18
40
61
82
95
100
005
0'13
0'22
0'21
0'21
0'13
0'05
roo
FrereLac
0'05
018
0'40
0'61
0'82
0'95
roo
Rirartajes
5%
18%
40%
61%
82%
95%
100%
100%
44
1 .8. Representaciones grficas
La forma tabular de presentar la distribucin de un carcter suele ir acompaada
de una grfica. Un despliegue grfico proporciona una impresin que ayuda a clarifi
car la variabilidad y simetra de la distribucin que figura en la tabla de frecuencias.
Los programas informticos permiten el uso de una amplia gama de grficos esta
dsticos, cada uno de ellos con mltiples opciones especiales, que ayudan a determi
nar la estructura de los datos, a encontrar relaciones entre ellos e incluso a comprobar
ciertas hiptesis, de forma que hoy se estn utilizando para hacer inferencias.
Los grficos estadsticos, que constituyen una de las herramientas fundamentales
de que se sirve la Estadstica Exploratoria, estn siendo utilizados tambin en la Esta
dstica Inferencial o Confirmatoria.
Hay diferentes tipos de grficos que dependen, en general, de la naturaleza del
carcter estudiado:
/. Carcter cualitativo: En este caso, se suelen utilizar figuras geomtricas, como
rectngulos o crculos: a esta categora pertenecen los diagramas de rectngulos o
barras y de sectores. Tambin se usan figuras no geomtricas, como los pictogramas.
En las Ciencias de la Educacin, es muy frecuente el uso de los perfiles ortogonal
v radial.
II. Carcter cuantitativo: Cuando el carcter es cuantitativo, hay diversos tipos
de representaciones, dependiendo adems del hecho de que se estudie una o ms de
una variable. Los tipos fundamentalmente son dos:
1) Diagrama diferencial: A esta categora pertenecen el diagrama de barras o
rectngulos, en el caso discreto, y el histograma. en el caso continuo. A estos grfi
cos se les asocia el polgono de frecuencias simples, que es usado en ambas situacio
nes, y la cuna de frecuencias en el caso continuo.
2) Diagrama integral: Dentro de esta categora se encuentra el diagrama de
frecuencias acumuladas y el polgono de frecuencias acumuladas en el caso discre
to, y la cuna acumulativa de frecuencias u ojiva, en el caso continuo.
El anlisis exploratorio de datos ha incorporado nuevos tipos de grficos orienta
dos, unos a la deteccin de asimetras, lagunas y anomalas, y otros con carcter
confirmatorio, que sern analizados en el captulo que dedicamos al estudio de los
mtodos exploratorios.
45
Para elegir la unidad de medida, se considera la frecuencia mayor y se toma como
mximo un valor prximo superior a ella. As, si el mayor valor de la frecuencia fuese
9, se tomara 1 0 como valor mximo sobre el eje correspondiente.
Sobre cada modalidad se levantan barras o rectngulos de la misma base, que, por
tratarse de datos discontinuos, no suelen estar solapados, y de altura proporcional a
la frecuencia de la modalidad (se toma habitualmente la altura igual a la frecuencia).
Segn se siten las modalidades del carcter sobre el eje de abscisas o de ordena
das, se tendrn diagramas de rectngulos verticales u horizontales.
Ejemplo 1.6
La tabla siguiente contiene los datos de la distribucin de 150 personas de 25 a 45
aos de edad, segn su estado civil.
Estado
Soltero
Casado
Fr. absoluta
20
78
26
46
N de automviles
500
KXX)
2000
3500
47
Representacin alternativa:
A:
B:
C
l>.
IV. Perfiles
Los perfiles pueden adoptar forma radial, cuando las modalidades del carcter se
representan sobre radios que parten de un mismo punto, u ortogonal, cuando se
representan sobre unos ejes cartesianos.
La utilidad del perfil en el campo educativo se justifica por el hecho de captar, de
una vez. diversos rasgos o caractersticas del alumno.
Segn los rasgos que se pretenden ilustrar, hay una gran variedad; hay perfiles
sobre intereses, aptitudes, rendimiento,... Los perfiles sobre rendimiento acadmico
reciben el nombre de nosogramas.
Los perfiles, realmente no son grficos que correspondan a distribuciones de un
carcter. Sin embargo, los hemos incluido aqu, porque cabe la interpretacin de las
calificaciones como valor de la frecuencia de cada asignatura.
A) Perfil ortogonal
Dado un sistema de ejes cartesianos, sobre el eje de abscisas se sitan las diver
sas modalidades del carcter, como pueden ser las diversas asignaturas que cursa un
alumno: Matemticas. Fsica, Qumica. Dibujo y Biologa.
Sobre cada asignatura se marcan con un punto los valores correspondientes a
cada calificacin. Uniendo los distintos puntos, se obtiene una lnea quebrada, que
constituye el perfil ortogonal. Se suele completar la representacin trazando alguna
paralela al eje de abscisas para resaltar un determinado aspecto.
Ejemplo 1.8
La siguiente tabla contiene las calificaciones de un alumno, cuyo perfil ortogonal
se muestra en la figura 1 .4.
4S
Asignaturas
Calificaciones
Matemticas
Fsica
Qumica
Dibujo
Biologa
6
5
8
7
9
B) Perfil radial
Para construir el perfil radial, se fija un punto del plano como origen.
A partir de dicho punto se trazan tantos radios como
asignaturas, formando ngulos de la misma amplitud.
Sobre cada radio se toman segmentos proporciona
les a las calificaciones respectivas. La unin de los pun
tos extremos de los segmentos determina un polgono,
que constituye el perfil radial.
La figura 1 .5 muestra el perfil radial correspondiente
al ejemplo 1 .8.
Figura 1.5. Perfil radial.
VI. Cartograma
Se llama cartograma a la representacin so
bre un mapa de las diversas modalidades del
carcter, que se corresponden con determina
das zonas geogrficas.
Se trata de un mtodo de representacin por
superficies, que asigna a cada zona un rea pro
porcional a la superficie representada.
Cada zona geogrfica se diferencia de otra
por la intensidad luminosa, que viene marcada
por el efecto del color o del tipo de sombreado,
que le confiere una tonalidad especfica.
Para que dos zonas geogrficas se conside
Figura 1 .6. Cartograma.
ren equivalentes deben tener la misma dimen
sin y la misma tonalidad.
No es conveniente utilizar ms de 10 tonalidades diferentes en un cartograma; de
lo contrario se pierde claridad y no resulta fcilmente legible.
49
..',
50
n
/>
(15)
Se conoce este valor como densidad de frecuencia del intervalo [e rei). El rea del
rectngulo correspondiente a la clase i-sima es, por lo tanto:
(16)
5, = a,- = ,
a,
(17)
S = i,= /V
Si se toman frecuencias relativas, la suma de las reas es igual a 1.
Ejemplo 1.9
Un grupo de 200 alumnos han sido calificados de 0 a 100 por un profesor, que
facilita los resultados agrupados en intervalos de diferente amplitud, segn muestra la
siguiente tabla:
Calificac.
Nm. alumnos
0-20
20-30
30-40
40-50
50-60
60-70
70-80
80-100
22
26
31
38
30
15
12
16
20
10 40 50 60 70 80
100
"
=10,
"
= 2'6
3o:
"
=10.
"
=3'1
8*
= 20,
= 0'8
51
III. Polgono de frecuencias simples
El polgono de frecuencias simples (o polgono de frecuencias) es el mtodo gr
fico ms utilizado para la representacin de la distribucin de un carcter, lo que se
debe a su fcil interpretacin y a la sencillez de su realizacin.
Vamos a distinguir dos situaciones, segn se trate de una variable discreta o
continua.
A) Variable discreta
En este caso, se trazan unos ejes cartesianos; sobre el eje de abscisas se sitan
los valores de la variable estadstica X, y sobre el eje de ordenadas se llevan los
valores de las frecuencias tal como se hizo para construir el diagrama de barras.
En lugar de trazar la barras
completas, ahora se sealan los
puntos superiores de las mis
mas; unindolos mediante seg
mentos rectilneos, se consigue
el polgono de frecuencias.
Para que la grfica no quede
colgada, se supone que hay dos
valores ms de la variable con fre
cuencia cero, uno anterior al pri
mero de sus extremos y otro pos
terior al ltimo. De esta forma, se
prolonga el polgono en dos seg
Figura 1.9. Calificaciones en Fsica y Matemticas.
mentos hasta que sus extremos
toquen el eje de abscisas.
Para hacer comparaciones, a veces sobre un mismo grfico se representan los
polgonos de frecuencias correspondientes a dos o ms distribuciones.
Ejemplo 1.10
La siguiente tabla contiene las frecuencias de las calificaciones, en Matemticas y
Fsica, de un grupo de 40 alumnos de COU:
Calificaciones
Matemticas
10
Fsica
52
B) Variable continua
Si la variable es continua, para construir el polgono de frecuencias, se admite que
la media de los valores correspondientes a cada intervalo se sita en el punto medio
del mismo, es decir, se hace coincidir la media de las puntuaciones de cada clase con
la marca de clase.
Los valores de las frecuencias se sitan en los puntos medios de las bases supe
riores de cada uno de los rectngulos del histograma.
El polgono de frecuencias es
la poligonal que se obtiene de la
unin de estos puntos mediante
segmentos rectilneos.
Como en el caso discreto, se
supone que existen dos interva
los de clase de frecuencia cero,
uno delante del primer intervalo
y el otro detrs del ltimo, lo que
hace posible prolongar el polgo
no hasta tocar al eje de abscisas.
La figura 1.10. muestra el pol
20 30 40 50 60 70 80
100
gono de frecuencias correspon
Figura 1.10. Polgono de frecuencias para el ejemplo 1.9. diente a la distribucin del ejem
plo 1 .9 superpuesto al histograma.
IV. Curva de frecuencias
El histograma de una distribucin, cuando se toman frecuencias relativas, es tal
que la suma de las reas de todos los rectngulos es igual a uno. Por ello, todos los
valores de la distribucin estn bajo la grfica del polgono de frecuencias simples.
Se puede expresar, por tanto,
la poblacin como el rea bajo
esta grfica, que est formada por
segmentos rectilneos.
Los datos de una distribu
cin habitualmente forman parte
de una muestra extrada de una
poblacin grande, cuyo conoci
miento es el objetivo final.
El polgono de frecuencias
simples, cuando aumenta el tama
o de la muestra y se hacen ms
Figura 1.11. Curva de frecuencias para el ejemplo 1.9.
53
pequeas las amplitudes de los intervalos de clase, se aproxima a una curva de una
distribucin terica, llamada curva de frecuencias.
La curva de frecuencias es una especie de polgono de frecuencias simples suavi
zado, que proporciona una representacin aproximada de la distribucin de la pobla
cin correspondiente.
1.8.2.2. Diagramas integrales para variable discreta
I. Diagrama de frecuencias acumuladas
Cuando la variable estadstica es discreta, para construir el diagrama de frecuen
cias acumuladas, se dibujan unos ejes cartesianos. En el eje de abscisas se sitan los
valores de la variable, y sobre ellos se toman segmentos perpendiculares de longitud
igual a la frecuencia acumulada.
El diagrama de frecuencias
acumuladas se consigue trazan
do segmentos de paralelas al eje
de abscisas a partir del extremo
superior de cada segmento per
pendicular hasta tocar al siguien
,
te situado a su derecha.
Esta grfica se completa con
dos semirrectas horizontales,
una con origen en la base de la
primera barra dirigida hacia la iz
quierda, y la otra con origen en
la parte superior de la ltima ba
Figura 1.12. Diagrama de frecuencias acumuladas.
rra y dirigida hacia la derecha.
Tambin se pueden tomar porcentajes acumulados, en cuyo caso los valores so
bre el eje de ordenadas estarn comprendidos entre 0 y 100, siendo 100 la longitud de
la ltima barra. La lnea quebrada (en escalera) as obtenida es la grfica de una
funcin del conjunto de los nmeros reales, R, en el intervalo cerrado [0,1], que a
cada nmero real x le hace corresponder la proporcin de individuos cuya modalidad
del carcter es menor o igual a x:
F:9-[0,l]
Esta curva es conocida tambin como curva de distribucin, y la funcin F como
funcin de distribucin. La figura 1.12 recoge el diagrama de frecuencias acumuladas
del ejemplo 1.2.
54
II. Polgono de frecuencias acumuladas
Para trazar el polgono de frecuencias acumuladas, se procede como en el caso del
diagrama de frecuencias acumuladas, dibujando, en primer lugar, el diagrama de barras
crecientes (la altura de la ltima barra es 1 100, segn se tomen frecuencias relativas
acumuladas o porcentajes acumulados).
Uniendo los extremos supe
riores del diagrama de barras cre
cientes mediante segmentos
rectilneos, se obtiene una lnea
quebrada creciente, que corres
ponde al polgono de frecuencias
acumuladas.
La figura 1.13. muestra el po
lgono de frecuencias acumula
das para la distribucin de las
calificaciones en Matemticas del
ejemplo 1.10.
Figura 1.13. Polgono de firecuencias acumuladas.
55
Esta curva tiene forma de arco apuntado, por lo que tambin recibe el nombre de
ojiva.
Fijado un valor xo de la variable, es decir sobre el eje de abscisas, la ordenada
correspondiente en la ojiva seala el porcentaje de individuos de la poblacin cuyo
carcter es menor o igual a x0. Por ello, la ojiva puede ser utilizada para el clculo
grfico de los centiles, segn veremos.
Ejemplo 1.11
Veamos cmo se procede para trazar la curva acumulativa de frecuencias para la
distribucin de los pesos (en kgs.) de 100 jvenes dada por la siguiente tabla:
Clase
Frec.
F.r.
F.na.
Porc.
Porc. ac.
21-30
3140
41-50
51-60
61-70
71-80
81-90
91-100
2
8
14
35
17
15
7
2
0-02
0"08
0'14
0'35
0'17
0'15
0-07
0'02
0-02
010
0'24
0'59
0'76
0'91
0'98
2%
8%
14%
34%
17%
15%
7%
2%
2'.
10%
24%
59%
76%
91%
98%
100%
roo
IOS puntos.
56
La lnea que resulta es la curva acumulativa de frecuencias que buscbamos.
1.10. Modalidad
57
Las distribuciones que poseen ms de dos modas reciben el nombre de
multimodales.
1.11. Apuntamiento
Tiene tambin inters conocer el grado de apuntamiento o curtosis de la curva de
frecuencias de una distribucin.
Las grficas de la figura 1.18 corresponden a dos distribuciones simtricas y
unimodales, pero la segunda presenta un mayor apuntamiento, lo que significa que
las diferencias entre las frecuencias de los valores centrales y extremos son mayores
en sta:
2'75-3
3- 3'25
27
36
85
3-25-3'5 3'5-3'75
144
98
3'75-4
4-4'25
4'25-4'S
56
32
32
58
1 ) Construir la tabla de frecuencias. 2) Hacer la representacin grfica ms adecua
da.
1 .3. Durante el mes de junio se han registrado las siguientes temperaturas mximas
cada da:
26 30 3028 28 27 2627 28 27 2628 28 3024 25 2833313127 303130 29 343130 3029
1) Construir la tabla de frecuencias. 2) Hacer una representacin grfica de la
distribucin.
1 .4. Las calificaciones de un alumno de primero de B.U.P. han sido: 7; 6; 8'5; 9; 6;
6; 5,5; 4'5; 8 y 7'5 en las asignaturas de Matemticas, Lengua. Ciencias de la Natura
leza, Ingls, Francs, Historia. Formacin Religiosa, Educacin Fsica, Dibujo y Msi
ca, respectivamente. Dibujar sus perfiles ortogonal y radial.
1.5. Los obreros de una gran industria han sido clasificados por categoras labora
les, dndose los siguientes resultados:
Especialistas
Oficiales de 2a
Oficiales de Ia
1250
975
510
35
12
8
Enero
Febrero
Marzo
Abril
Mayo
Junio
Carretera
Tren
210
170
195
180
320
230
180
260
310
280
390
410
59
1) Construir la tabla de frecuencias y dibujar el polgono de frecuencias acumula
das.
1.8. La produccin de trigo y cebada en una cooperativa agrcola durante los 10
ltimos aos ha sido:
Trigo (fanegas)
487
546
434
465
503
3X8
405
298
600
446
Cebada (fanegas)
458
730
895
978
802
630
754
790
878
910
501
5'42
5'82
5' 12
5'01
6'00
5-92
5'90
5'95
14'6%
8'5%
23'7%
43'3%
9'9%
Albacete
Ciudad Real
Cuenca
Guadalajara
Toledo
Trigo
Cebada
Maz
Girasol
uva
Aceituna
2500
3480
1250
2460
4250
3260
2560
2450
1470
3270
3245
2360
3200
4200
1580
4135
3270
5270
5270
1890
3280
5680
2450
1480
4250
1275
1360
980
1380
4270
60
N Trabajadores
15
25
18
15
20
Hasta 50
50-70
70-100
100-150
150-200
15
30
56
85
46
30
22
12
61
Sector
Primer trimestre
Segundo trimestre
Agricultura
Industria
Construccin
Servicios
438
457
406
589
241
350
683
170
1.17. Las temperaturas mximas y mnimas durante los 15 primeros das de julio, en
una ciudad, han sido:
Mximas
37 30 33 28 35 36 36 32 34 30 28 30 36 34 32
Mnimas
16 14 18 15 20 21 19 17 18 16 16 20 20 21 19
130
88
85
47
CAPITULO 2
CARACTERSTICAS DE POSICIN
64
N de alumnos
2'00
5
6
7
12
11
6
4
5
1
3
rio
2'20
2'30
2'40
2'50
2'60
270
2'80
2'90
Se trata ahora de decidir, ante estos datos, qu valor se debe tomar como medida
de la longitud de la pizarra. Un alumno sugiere como medida 2'30 m., argumentando
que ste es el valor que ms se da (la moda). Al profesor no le parece mal la eleccin,
pero la encuentra poco democrtica, ya que slo se tiene en cuenta la opinin de una
quinta parte de la clase.
Otro alumno insina que se tome 2'35 m.; lo argumenta diciendo que la mitad de la
clase ha dado una medida menor o igual que 2'30, y la otra mitad, una medida mayor
o igual que 2'40 (la mediana).
Tampoco el profesor queda satisfecho del todo porque no se valora en su justa
medida la opinin de cada uno de los alumnos. As surge la idea de sopesar cada
1 El ejemplo est tomado de un trabajo del Profesor Pascual Ibarra, publicado en 1968 con
el ttulo de Democracia y Estadstica.
65
medida de acuerdo con el nmero de alumnos que la ha anotado en su papel (media
aritmtica).
Continuando el razonamiento, se pueden ir descubriendo otras medidas de localizacin. Iremos definindolas, a lo largo del captulo, valorando sus ventajas y sus
inconvenientes.
Como resumen, podemos decir que las medidas de tendencia central son valores
numricos que describen la localizacin de una distribucin de datos, o bien, los
valores alrededor de los cuales se sitan los dems.
Estas medidas, para proporcionar un valor ms preciso de la distribucin, deben ir
acompaadas de otras caractersticas de dispersin, que sern objeto de estudio en el
captulo 3.
(1)
tV
N
A
n.
Tambin es: x = xJ, ~ xif, + x22+---+xJk , va que -77 ~ f,Ejemplo 2.1
Supongamos que un grupo de 20 alumnos obtiene las siguientes calificaciones en
la asignatura de Matemticas:
Calificaciones
10
Nmero de alumnos
12
66
101
= 5,05
20
20
(2)
Las edades de tres nios son de 5, 7 y 9 aos. La edad media de los tres es
7 + 8+9
x = -- = 8
2.3.2. Propiedades de la media aritmtica
1. La suma de las desviaciones de todos los valores a la media es cero.
k
(3)
Xy,"l
A.
Y,(xc)n,
jrk
~
= x+c
67
y
Consecuencia inmediata de las propiedades 2 y 3 es la siguiente:
4. Si definimos una variable Z a partir de la variable X mediante un cambio de
origen c y un cambio de escala d, siendo d distinto de cero, la media de la
nueva variable
x-c
se obtiene a partir de la variable X por medio del mismc cambio de origen y
escala:
x-c
Despejando x, se obtiene:
.x = c + dz
(4)
153,7
153,8
153,9
154,0
154,1
1542
154,3
10
15
19
21
14
13
Tomando como origen el valor c=154 y como escala d=0,l vamos a construir la
tabla con los nuevos datos:
68
x. - c
n,
x,-c
l n
d
153,7
153.8
153,9
154.0
154.1
154JZ
154.3
10
15
-03
-02
-3
-2
-30
-30
19
21
-0.1
0
-1
0
-19
0
14
13
8
0.1
02
03
1
2
3
14
26
24
-15
100
Total
La media de la variable Z es
1 ^
-15
190
189
168
177
160
183
169
161
182
187
180
172
165
178
164
168 163
175 161
174 166
170 175
171 188
194
173
167
174
158
182
170
186
182
186
168
184
178
181
169
171
190
178
162
165
171
166
173
177
159
188
162
173
180
187
191
191
181
185
156
167
174
176
160
159
167
179
172
161
176
185
189
180
195
191
69
Vamos a calcular la media, en primer lugar, agrupando todos los valores en clases.
El recorrido es R= 195- 156=39, que, aumentndolo en 1, resulta 40. Se pueden elegir 7
clases de amplitud 6.
Aunque hoy es menos importante simplificar los clculos, ya que disponemos de
excelentes calculadoras y paquetes informticos que los evalan directamente, vamos
a efectuar un cambio de origen y de escala, reflejando los datos en la tabla para
observar los distintos pasos.
Tomaremos como origen el valor de una de las marcas situadas hacia el centro, por
ejemplo, c=175, y, como unidad de escala, la distancia entre dos marcas de clase
consecutivas, d=6.
Calcularemos tambin la media para valores sin agrupar con el fin de corroborar
cmo efectivamente hay un pequeo sesgo con respecto al valor real de la media,
debido a la suposicin tcita de que los datos se distribuyen de una manera homog
nea en sus correspondientes intervalos de clase.
c - c
Extremos
154-160
160-166
166-172
172-178
178-184
184-190
190-1%
c.
157
163
169
175
181
187
193
4
11
15
16
13
14
7
Total
C.-C
-18
-12
-6
0
6
12
18
zi~
el
-3
-2
-1
0
1
2
3
80
zn
-12
-22
-15
0
13
28
21
13
/ i
13
.volr. .yo.0'1625
Haciendo uso de (4), la media de la variable X es:
x = c + d~z = 175 + 6x0'1625 = 175 + 0'975 = 175' 975
Si efectuamos la media de todos los valores sin agruparlos en clases, obtenemos
la media real:
_
14032
X,=
=175'4
'
80
La media obtenida agrupando los datos difiere en 0'575 de la media real.
70
V de alumnos
71
(5)
xc = *IxVxV...xV
En el caso particular de que las frecuencias absolutas de los k valores de la
variable estadstica sean todas iguales a 1 (n,=n,=...=n1 = l), queda la expresin:
xc
yjxix2...
B) Clculo
Para efectuar el clculo de la media geomtrica, se toman logaritmos en los dos
miembros:
iogo = log Vx7'...** = iogU;'...*")'/,v = -logU'. ..*!')=
l
<
=/
Esta ltima relacin nos dice que el logaritmo de la media geomtrica es igual a la
media aritmtica de los logaritmos2.
Para calcular la media geomtrica, basta con tomar antilogaritmos en la igualdad
anterior:
t
X'iJogx,
xG = antilog
N
Por tratarse de un caso particular, se procede de igual modo para calcular la media
geomtrica cuando los datos no se dan agrupados:
log*,,; =l0g \x ,x2...x =\Og(x ,x2... xk)
XlogJr,
72
Ejemplo 2.5
La siguiente tabla contiene las calificaciones de un alumno de COU en sus diver
sas asignaturas:
Asignaturas
Calificaciones
xa = antilog
B) Ventajas e inconvenientes
La media geomtrica es muy til en el caso de algunas magnitudes, ya que:
a) es menos sensible que la media aritmtica al cambio de valores extremos.
b) est determinada siempre que los valores de la variable sean positivos, y se
comporta bien ante las operaciones algebraicas.
c) es representativa, ya que en su clculo intervienen todos los datos de la distri
bucin.
Sin embargo, si un valor de la variable es cero, la media geomtrica vale cero, lo
cual cuestiona su representatividad.
La media geomtrica se utiliza siempre que la variable presenta variaciones que se
van acumulando, como sucede en las relaciones de cambio, tasas y porcentajes.
]x]n, + x\ri2+.
. + xink
(7)
Xq =
N
605
= J30,25 = 5,5
73
\x2, + xi+. . + x
(81
XQ =
B) Ventajas e inconvenientes
a) la media cuadrtica es representativa de todos los datos de la distribucin.
b) soporta bien las operaciones aritmticas.
Tiene el inconveniente de las unidades en que se expresa: no son unidades sim
ples.
La media cuadrtica se usa en aplicaciones fsicas y en la determinacin de las
caractersticas de dispersin.
Xa
ni
n2
Xl
x2
+ +.
.+
Xk
(9)
1~
i.l x,
20
= 4.145
4,825
x.
k
'
1
1
+
+.
Xl
x2
k
1 - * 1
Xk
.1 x
(10)
74
B) Ventajas e inconvenientes
a) es representativa de todos los datos de la distribucin.
b) admite bien las operaciones algebraicas.
Presenta un inconveniente cuando la variable toma algn valor igual a cero, en
cuyo caso, la media armnica carece de sentido. Tambin es poco precisa cuando los
valores son pequeos.
Es la ms adecuada para hallar promedios de las variaciones con respecto al tiem
po, como la velocidad de un mvil o el rendimiento de un capital.
(11)
Ejemplo 2.6
Las estaturas de 10 jugadores de un equipo de baloncesto son: 1,90; 1,93; 1,96;
1 ,98: 1 ,98; 1 ,99; 2,01 ; 2,03; 2.04 y 2,08. Vamos a calcular las diferentes medias:
1 ) Media armnica:
10
-=X
10
r-jMTs-1.9887
1,90+'"+2.08
2) Media geomtrica:
/
/
\ogxc, = (\ogl.90+... + ]og2,08)= (0.2787+.. .+0.3180) = 0.2987
Luego
3) Media aritmtica:
/ '"
1
~x-iblr-T9-9-h"
75
4) Media cuadrtica:
3,61 + 3,7249+. ..+4,3264
39,6264
.i^r.'.9906
2.5. 1 . Definiciones
A) Percentil
Sea a un nmero entero, siendo l<a<100. Se llama percentil de rango a al valor de
la variable estadstica que deja por debajo de l a a% de los valores y al resto por
encima, una vez ordenados stos por valor creciente del carcter.
B) Mediana
Tiene especial inters el percentil de rango 50, al que denominamos mediana, que
es, por tanto, el valor de la variable estadstica que divide a la poblacin en dos
partes iguales, una vez ordenados los individuos por valor creciente del carcter.
En el estudio de los percentiles se nos plantean dos cuestiones de inters:
I. Dado un percentil, calcular el valor correspondiente de la variable.
76
Mi
10
8
6
5
4
2
2
1
3
5
6
3
20
18
17
14
9
3
77
10
8
6
2
1
3
5
4
2
5
6
3
20
-18 17
14 N/2
9 3
0123456789 10
n
-20
10
8
6
5
4
2
2
1
7
1
6
1
-18
- 17 10
9
3
0 -
1
1-
0123456789
10
Figura 2.2. Tabla y curva de frecuencias acumuladas para el ejercicio 2.7. modificado.
7S
Tenemos as el intervalo mediano [5,6). Como valor de la mediana se suele tomar el
punto medio de dicho intervalo:
5+6
M = -5,5
3) La variable es continua
El proceso que se sigue en este caso, para encontrar el valor particular, cuya
frecuencia acumulada sea igual a N/2, es el siguiente:
A) Se divide el nmero de observaciones N entre 2.
B) Se lleva el valor N/2 a la columna de frecuencias absolutas acumuladas (N).
Ahora puede suceder:
i) Que el valor N/2 se encuentre en la tabla, con lo que N/2 ser la frecuencia
absoluta acumulada de un cierto intervalo de clase [e ^e), y la mediana ser el extre
mo superior del mismo.
ii) Que N/2 no se encuentre en la columna de las N . Entonces, este valor estar
comprendido entre los valores N y N, que corresponden a las frecuencias absolutas
acumuladas de los intervalos [e ,,e t) y [e ..e), respectivamente.
Como N/2>N , la mediana se encontrar en el intervalo [c ,,e), al que llamamos
intervalo mediano. Por interpolacin, se halla el incremento de intervalo que co
rresponde al incremento de la frecuencia hasta llegar a N/2.
La mediana se obtiene de sumar este valor al extremo inferior, e ,, del intervalo
mediano [ei ,,e).
El siguiente ejemplo clarifica el proceso:
Ejemplo 2.8
Supongamos que nos interesa averiguar el salario mediano de los 50 empleados de
una empresa, cuya tabla de frecuencias es:
,l
Salario lensual
eipleados
N,
50
100
110
90
100
B0
90
2
18
12
44
15
1
<
70
80
10
60
70
;'.
50
60
13
>
28
13
>
0
Figura 2.3.
74
N/2- N,
Mi
'
Si i +
(12)
II,
donde:
mediana es M d = 5.
En el ejemplo 2.4, que supone una modificacin del ejemplo 2. 1 . en que se altera un
valor extremo (los dos alumnos que tenan 10 pasan a tener un 1), la media (4,15)
queda notablemente alterada, en tanto que la mediana no vara.
B) Si las observaciones estn distribuidas simtricamente, la media y la mediana
coinciden.
Estos razonamientos nos llevan a la conclusin de que la mediana debe usarse en
aquellas distribuciones que presentan un sesgo acusado en los extremos.
Cuando los datos vienen dados en escala ordinal, la mediana es la medida de
tendencia central ms representativa de la distribucin.
80
2.5.3. Problema inverso
La segunda cuestin que tenamos planteada era: dado un valor de la variable,
averiguar el rango del percentil correspondiente.
Para ilustrar su clculo, tratemos de hallar el rango del percentil correspondiente a
un salario de 83.000 ptas. en el ejemplo 2.8. Se trata de:
a) Localizar el intervalo al que pertenece dicho salario; le vamos a llamar intervalo
crtico; en el ejemplo, es el intervalo [80,90).
b) Localizado el intervalo crtico, se clasifican las frecuencias (n ) en tres catego
ras:
i) las que corresponden a todos los salarios superiores al intervalo crtico;
ii) las que corresponden a los salarios del intervalo crtico;
iii) las correspondientes a los salarios que estn por debajo del intervalo
crtico.
Como podemos observar, hay 38 personas que perciben menos dinero que las 6
personas del intervalo crtico, y otras 6 personas que tienen un salario superior, lo que
supone unos porcentajes de:
76% con salarios inferiores a los del intervalo crtico
1 2% estn dentro del intervalo crtico
1 2% con salarios superiores a los del intervalo critico
Debemos considerar el salario de
83.000
ptas. en relacin con el tama
5a lar io mensoal N" eupleados
Ni
o del intervalo crtico.
100 - 110
21 '- 48
Para determinar la situacin del
4J
salario en cuestin en el intervalo
90 - 100
crtico, tomamos el lmite inferior real
80 - 90
6
38 J
del
mismo, que es 80. Luego el sala
70 - 80
1028
rio
de
83.000 ptas. est 3 puntos por
60 - 70
15 38
13
encima del lmite inferior real del in
50 - 60
13 0
tervalo.
Como el tamao del intervalo es
10, la amplitud 3 corresponde al 30%
del intervalo. Por tanto, al 76% de los salarios inferiores a los salarios del intervalo
crtico hay que sumarle el 0,3 del 12% de personas del intervalo crtico:
76% + 0,3 x ( 1 2%) = 76% + 3,6% = 79,6%
El rango del percentil es igual al 79,6%, lo que nos indica que aproximadamente un
80% de los salarios son menores o iguales a 83.000 ptas. y slo alrededor del 20% de
los salarios estn por encima de las 83.000 ptas.
SI
2.6. Cuartiles, quintiles y deciles
Adems de la mediana, que ya hemos estudiado, algunos otros percentiles reciben
nombres especficos.
Tenemos as los cuartiles, que son tres valores de la variable que corresponden a
los percentiles 25%, 50% y 75%, que se conocen como primero, segundo y tercer
cuartil, y se representan por:
QQ2.Q,
El segundo cuartil coincide con la mediana. El primer cuartil es el valor de la
variable que deja la cuarta parte de las observaciones por debajo de l y las tres
cuartas partes restantes por encima. El tercer cuartil. por tanto, es el valor de la
variable que deja las tres cuartas partes de las observaciones por debajo de l y la
cuarta parte de las mismas por encima.
Los quintiles son los valores de la variable que dividen a la poblacin en 5
partes iguales. Son cuatro y se representan por Kr K K , K4.
Los deciles son los valores que corresponden a los percentiles mltiplos de 10.
As, el decil de orden h es el valor de la variable que deja h/10 partes de las
observaciones por debajo de l y el resto por encima; se representa por Dh.
Para el clculo de cualquiera de los cuantiles, se siguen los mismos criterios que
hemos expuesto para la determinacin de la mediana.
2.7. Moda
Otra caracterstica de tendencia central es la moda que, como la mediana, slo
necesita, para su clculo, que las observaciones estn ordenadas.
2.7. 1 . Definicin
Se define la moda (Mj como el valor de la variable estadstica que corresponde
al mximo del diagrama diferencial. Si la variable estadstica es discreta, es el valor de
la variable estadstica que tiene mayor frecuencia. De la propia definicin se despren
de que la moda no tiene por qu ser nica, ya que pudiera haber dos o ms valores de
la variable con la misma frecuencia mxima.
Una distribucin con dos modas recibe el nombre de bimodal, con tres modas,
trimodal,...
La moda no tiene en cuenta una parte importante de los datos, por lo que se utiliza
como medida descriptiva de localizacin, y no suele usarse en la investigacin.
Un ejemplo en que tiene inters el uso de la moda es el caso de apostar al nmero
que aparece en la cara superior de un dado si ste tiene la cara opuesta cargada. Es
82
evidente que al nmero de dicha cara corresponde la mayor frecuencia, por lo que
este nmero es al que tenemos que apostar si deseamos ganar.
83
PN BD
MP~ AC
de donde
MP =
PN+MP
MP
BD+AC
AC
MP
PN+MP
AC
BD+AC
n, - n, ,
AC
(PN + MP) =
a
BD + AC
(, - w ) + (", - ",-, )
.e,.,+
(13)
/l,/ + /l,w
donde:
e i- 1, es el extremo inferior de la clase modal,
h . la diferencia de las frecuencias de la clase modal y de la clase inferior contigua,
h.+1 la diferencia de las frecuencias de la clase modal y de la clase superior contigua,
& la amplitud del intervalo modal.
B) Los intervalos no tienen la misma amplitud
En este caso, el intervalo modal es el de mayor frecuencia por unidad de amplitud
(n/a ), luego el valor de la moda debe ser un punto del intervalo modal que estar ms
cerca del intervalo contiguo al que corresponda una mayor frecuencia media por
unidad de amplitud.
Un razonamiento similar al que hemos hecho para intervalos de igual amplitud, nos
lleva a la expresin de la moda:
k
M = e,.i +
(14)
*(./+*,.
donde ahora:
e 1-i, es el extremo inferior de la clase modal,
k , la diferencia de las frecuencias medias por unidad de amplitud de la clase modal
y de la clase inferior.
k+ la diferencia de las frecuencias medias por unidad de amplitud de la clase
modal y de la clase superior,
ai la amplitud del intervalo modal.
Ejemplo 2.9
Se trata de calcular la moda de la distribucin descrita en el ejemplo 2.3. Todos los
intervalos tienen la misma amplitud, por lo que se toma la expresin (13).
El intervalo modal es el intervalo [172,178) y su frecuencia: n = 16.
84
La frecuencia del intervalo contiguo inferior es n. =15, y la frecuencia del intervalo
contiguo superior es nl, =13, luego h. =16-15=1 y h, =16-13=3. Como la amplitud de
cada intervalo es a=6, la moda es:
A = 172 +
85
Ao
1986
1987
1988
1989
1990
1991
1992
N" de fanegas
450
680
525
802
630
754
720
37
30
33
28
35
36
36
32
34
30
28
30
36
34
32
Mnimas
16
14
18
15
20
21
19
17
18
16
16
20
20
21
19
1 ) Calcular las medias de las temperaturas mximas y mnimas. 2) Hallar las tempe
raturas medianas mximas y mnimas. 3) Encontrar las modas.
2.8. Dada la distribucin expresada por la siguiente tabla:
Clases
36-42
42-48
48-54
54-60
6CV66
66-72
72-78
ni
17
26
19
0-10
10-20
20-30
3040
40-50
5060
60-70
70-80
ni
10
34
48
72
164
142
118
78
34
12
86
2.10. Segn los indicadores econmicos facilitados por la CEE, el PIB por habitante de
los diversos pases de Europa en el ao 1986 era:
Alemania
Blgica
Dinamarca
Espaa
Francia
Grecia
780.300
99.500
70.100
205.300
622.400
42.100
Holanda
Italia
Irlanda
Luxemburgo
Portugal
Reino Unido
158.300
443.600
23.400
4.300
26.400
533.800
10-20
20-30
30-50
50-60
13
21
11
15
20
"'
15
25
18
87
Miles de ptas.
[0,20)
[20,40)
[40.60)
[60,80)
[80.100)
N de clientes
33
17
19
14
1 ) Hallar la cantidad media de dinero retirada por los clientes. 2) Calcular la media
na, interpretando su resultado. 3) Hallar el rango del percentil correspondiente a 70000
ptas.
2.15. Las calificaciones obtenidas por 1300 alumnos en las pruebas de acceso a la
universidad, que se evaluaron de 0 a 100, han sido:
Puntuaciones (X) (17,25] (25,33] (33,41] (41.49] (49,57] (57,65] (65,73] (73,81] (81,89]
N" Alumnos
18
66
132
216
425
212
117
90
18
CAPITULO 3
CARACTERSTICAS DE DISPERSIN Y FORMA
40
Son diversos los coeficientes que se definen para medir la dispersin, dependien
do, en cada caso, de la caracterstica a la que se hace referencia y de si se pretende o
no relacionar una distribucin con otra. Atendiendo a este ltimo criterio, se pueden
clasificar en medidas de dispersin absolutas y relativas.
3.2. 1 . Recorrido
Se llama recorrido o rango de una distribucin a la diferencia entre el valor ms
alto y el ms bajo de la variable estadstica.
R = mx (x ) - mn (x )
(1)
91
3.2.2.1. Recorrido intercuartlico
Se define el recorrido o rango intercuartlico como la diferencia entre el terce
ro y el primer cuartil:
(2)
R,=Q,-Q,
R,
(3)
R =
Ejemplo 3. 1
Frecuencias
Frec. acumuladas
10-20
20-30
3040
40-50
50-60
60-70
70-80
3
6
15
20
21
9
6
3
9
24
44
65
74
80
El primer cuartil. Q . deja por debajo el 25% de las puntuaciones, que son 20: por
tanto Q, cae dentro del intervalo 30-40.
Hasta el lmite inferior del intervalo, 30, hay 9 puntuaciones; faltan 1 1 para llegar a
20. Entonces, interpolando, resulta que
si 15 valores corresponden a una amplitud 10 del intervalo,
1 1 valores corresponden a 1 lxlO/15=7'33. luego
Q=30+7'33=37'33
El tercer cuartil, Q , deja por debajo el 75% de las puntuaciones, que son 60; este
valor es mayor de 44. por lo que Q, cae dentro del intervalo 50-60.
92
Hay 44 puntuaciones hasta el lmite inferior del intervalo, 50, y faltan 16 para llegar
a 60. Interpolando como antes, resulta
si 21 valores corresponden a una amplitud 10 del intervalo,
16 valores corresponden a 16x10/21=7'62, luego
Q=50+7'62=57'62
El recorrido intercuartlico es: R=57'62-37'33=20'09
y el recorrido semiintercuartlico: RS =20' 09/2= 10' 045
/ *
(4)
Di-px,-Jdn,
(51
93
Ejemplo 3.2
Las puntuaciones de un grupo de 1 1 alumnos en un test de conducta son:
40 14 20 16 34 12 29 21 25 23 18
Vamos a calcular los recorridos, las diferencias y las desviaciones:
1) Recorrido
R=40- 1 2=28 ; R ' =40- 1 2+ 1 =29 es el recorrido aumentado en 1 .
2) Recorridos cuartlicos
Primer cuartil: Q,=16; segundo cuartil: Q,=29
Recorrido intercuartlico: R =29- 16= 13
Recorrido semiintercuartlico: Rs= 13/2=6' 5
3) Desviaciones
Para determinar la desviacin mediana, ordenamos los datos de menor a mayor,
determinamos la mediana, y, una vez halladas las desviaciones a la mediana,
reordenamos los datos para evaluar la nueva mediana:
Datos ordenados
X -X
\x, -x\
12
16
18
20
21
23
25
2'1
2'1
%-Mg\
-9
9
Datos reordenados
A-*a
14
29
34
40
6'1 111 IV 1
6'1 111 17'1
-5
5
-3
3
-1
1
0
0
2
2
4
4
8
8
13
13
19
19
12
13
19
-7
7
72'9
71
Media=252/ll=22'9
Mediana= 21
Desviacin media respecto de la mediana=71/l 1=6'45
Desviacin media respecto de la media=72'9/l 1=6'62
Desviacin mediana=5
94
3.2.4.1. Definiciones
La varianza de una distribucin se define como el promedio de los cuadrados de
las desviaciones a la media, y se denota por s2:
(6)
(7)
(8)
II. Si a todos los valores de una distribucin se les suma (o resta) una constante
k, la varianza de la nueva distribucin no vara.
Si y = x k => si = si
95
III. La media de los cuadrados de las desviaciones con respecto a la media es
min
'
4Xf x, - c )' n, = I Xf
x, - x Y n
(10)
Esta ltima propiedad nos dice que, si efectuamos la media de los cuadrados de
las desviaciones de los valores de la variable con respecto a un valor C, el valor
mnimo se obtiene cuando C es igual a la media, lo que hace que la varianza sea la
medida cuadrtica de dispersin ptima.
IV. Teorema de Konig: Dado un nmero real c, la media de los cuadrados de las
desviaciones respecto de c es igual a la varianza ms el cuadrado de la distancia entre
la media y c:
k
(11)
-xff, + (x-cf
i-l
=i
(12)
.(xi-xff = Y.x1 f ,- x2
que nos indica que la varianza es la diferencia entre la media de los cuadrados y
el cuadrado de la media.
Esta ltima frmula (o su expresin con frecuencias absolutas), que exponemos a
continuacin, simplifica notablemente los clculos:
J x,- x )' n,
x:n,
(k
y
X*'_
(13)
Y(x,-x)'
xi
'
Z.xi i.i
-x =
-
(14)
96
1
a
(15)
II. Si a todos los valores de una distribucin se les suma (o resta) una constante
k, la desviacin tpica de la nueva distribucin no vara.
Si y = x k
(16)
. Sr = sx
(17)
Ejemplo 3.3
Vamos a calcular la varianza y la desviacin tpica de la distribucin correspon
diente al ejemplo 2.1., donde se conocen las calificaciones de 20 alumnos en Matem
ticas:
Calificaciones
10
N de alumnos
12
97
n,
x, n,
Xt-X
(xi-xf
( x, - x f m
2
4
5
6
8
10
3
6
5
3
1
2
6
24
25
IS
8
20
-3,05
-1,05
-0,05
0,95
2,95
4,95
9,3025
1,1025
0,0025
0,9025
8,7025
24,5025
27,9075
6,6150
0,0125
2,7075
8,7025
49,0050
Total
20
101
94,9500
101
94,95 = 4,7475' s= 2,1788
20
20
B) Haciendo uso de las propiedades y utilizando la frmula (13), el proceso segui
do tambin est recogido en el siguiente cuadro:
Xt
x,n,
2
4
5
6
8
10
3
6
5
3
1
2
6
24
25
18
8
20
4
16
25
36
64
100
12
%
115
108
64
200
Total
20
101
245
605
XiTk
(ioir
\60520
. 4,7475: s = 2,1788
20
98
Se definen varias medidas de dispersin relativas, como el coeficiente de apertu
ra, el recorrido relativo, el coeficiente de variacin de Pearson y los coeficientes de
variacin media.
(19)
(20)
99
El coeficiente de variacin se suele utilizar con variables positivas y multiplicado
por 100, lo que permite emplear un lenguaje de porcentajes:
V = 1O0xCV
(21)
SiX*0
(23)
Ejemplo 3.4
Los alumnos de un grupo de primer curso han sido calificados en Matemticas de
0 a 50 y en Fsica de 0 a 10 por sus respectivos profesores. Cul de las dos distribu
ciones es ms homognea con respecto a la nota media?
Para dar una respuesta, vamos a calcular el coeficiente de variacin de Pearson:
La media de las calificaciones en Matemticas es 39' 1 1 y la desviacin tpica 8'65,
luego el coeficiente de variacin de Pearson es:
CV=8'65/39'11=0'221
y expresado en porcentajes:
V=0'221xl00=22'l%
100
Matemticas
Fsica
Calificaciones
N de alumnos
Calificaciones
15
25
35
40
45
47
49
3
5
8
14
16
5
3
2
3
5
6
7
9
10
Total
54
N de alumnos
12
9
12
5
4
4
8
54
3.4. Momentos
Tanto la media como la varianza son casos particulares de un concepto ms gene
ral, el de momento. Los momentos de una distribucin son unos valores especficos
que se deducen a partir de todos sus datos y que son caractersticos de cada distri
bucin, de modo que dos distribuciones son iguales si tienen iguales todos sus
momentos.
Se utilizan, en Estadstica, dos tipos de momentos (potenciales y factoriales).
Definimos los momentos potenciales, que son los que vamos a necesitar:
Sea r un nmero entero positivo y c un nmero real cualquiera. Se llama momento
de orden r respecto de c al valor dado por la expresin:
% (c) = (xi - c )' /, = 2/X.. - c n,
i- 1
(24)
V /. i
101
3.4.1. Momentos centrales
Cuando c = x se tienen los momentos centrales o momentos respecto de la media:
I *
r = EU--*/n
(25)
i,
m = (*,-* /n, = 77 X, = ^
/ 4
N i.i
1 !
ar = -l(xr0fn=-Zn
(26)
a= ZXni = 'n = 1
N ,
Ni.
1 ,
a, = Z^xin, = x
1
(27)
102
Esta frmula relaciona el momento central de orden 2 con los momentos respecto
al origen. Es otra manera de expresar el teorema de Knig para C=0.
'
m4 =a4-4a3ai + 6ala2-3ai
(30)
C28)
,.i
i. i
'
103
(31)
Ejemplo 3.5
Un test de aptitudes aplicado a un grupo de 30 alumnos ha dado las siguientes
puntuaciones:
12 13 50 70 35 12 65 74 15 76 40 38 45 20 35
30 25 45 44 76 82 53 60 25 23 57 90 40 35 80
Tratemos de hallar los 4 primeros momentos respecto del origen y respecto de la
media.
1 ) Momentos respecto del origen:
1365
x=a/ = __ = 45.5
a3 =
5034610
= 167820 '33
30
77601
, = = 25*67
a* =
353818317
= 11 793943' 9
30
2) Momentos centrales:
,/ = 0
m2= 2586'7-45'52 = 51645
m} = 167820'33 - 3x2586'7x45'5 + 2x45'5' = 3128'7
m. = 11793943'9-4xl67820'33x44'5+6.x45'5:x2586,7-3x45'5J=523501'76
104
Sin embargo, no siempre sucede esto. A veces, la distribucin de frecuencias se
aparta de la normal, contiene datos anmalos o carece de simetra, en cuyas situacio
nes, la media y la desviacin tpica no reflejan fielmente la distribucin.
Conviene, por lo tanto, conocer la forma de la distribucin. Los mtodos clsicos
ofrecen unas caractersticas, conocidas como medidas de asimetra, que detectan
la no presencia de simetra con respecto a un valor de tendencia central y miden el
grado de su intensidad.
Una distribucin es simtrica cuando posee el mismo nmero de valores a la
izquierda y a la derecha de la media de modo que cumplen:
1) dos a dos son equidistantes de la media.
2) cada uno de los pares de valores que equidistan de la media tienen la misma
frecuencia.
Otras caractersticas, conocidas como medidas de curtosis sealan el grado de
concentracin respecto de la tendencia central, que se traduce en un mayor o menor
apuntamiento de su grfica.
Los nuevos mtodos exploratorios han dado una especial importancia al estudio
de la forma, aportando nuevos estadsticos y soluciones al problema de la
representatividad, segn veremos en el prximo captulo.
3.5.1. Coeficiente de asimetra de Fisher
Si una distribucin es simtrica, el tercer momento central
/ *
m.t = tt 2/ * - * / ".
ser nulo, ya que se anularn entre s los cubos de las diferencias positivas con los de
las negativas.
En cambio, si la distribucin es asimtrica, el tercer momento central es tanto
mayor en valor absoluto cuanto ms acentuada sea la asimetra de la curva. En efecto,
al elevar al cubo las diferencias, los valores extremos influyen ms que los valores
prximos a la media en el clculo de m,.
Adems, el signo de m coincidir con el sentido de la asimetra.
Por lo tanto, el momento central de orden 3 es un valor adecuado para obtener una
medida de la asimetra de una distribucin. Con el fin de utilizar una magnitud sin
dimensin, se usa el coeficiente de asimetra de Fisher (AK):
Ah=
s
Si AF>0, la distribucin presenta asimetra positiva (hacia la derecha).
Si AF=0, la distribucin es simtrica.
Si AF<0, la distribucin presenta asimetra negativa (hacia la izquierda).
(32)
105
3.5.2. Coeficiente de asimetra de Pearson
Otra peculiaridad de la distribucin asimtrica es que, cuanto mayor es la asime
tra, mayor es la distancia entre la media y la moda, de forma que, en una distribucin
asimtrica positiva, la media se desplaza a la derecha de la moda, y, en una distribu
cin asimtrica negativa, la media se desplaza a la izquierda de la moda. En esta
propiedad se basa el uso del coeficiente de Pearson, A , que se define como:
x-Mo
A
(33)
A =
(35)
106
cias en los valores prximos a la media, tendr tambin mayores frecuencias en los
valores extremos y, en cambio, tendr menores frecuencias en los valores intermedios.
El momento central de orden 4 ser, por tanto, mayor en la distribucin que tenga
un mayor apuntamiento. Esta es la razn por la que se usa, como medida del apunta
miento de una distribucin, el coeficiente del momento de aplastamiento:
A.
nu
s4
(36)
g4 = A4-3
(37)
r>
45'5-42
0'I5
75/675 22725
El coeficiente de asimetra de Pearson es A =0' 1 5>0. que indica un sesgo hacia la
derecha.
X-M
A.=
107
2) Coeficiente de asimetra de Fisher:
m,
S3
31287
22725"
31287
11736'6
70-90
90-110
110-130
130-150
150-170
170-190
190-210
N obreros
60
180
300
200
150
80
30
108
El estudio grfico se realiza por medio de la curva de concentracin o curva de
Lorenz. La curva de Lorenz es la representacin de los totales acumulados (q.) en
funcin de las frecuencias acumuladas (p.), cuyos valores tenemos calculados en la
tabla de distribucin:
Salarios
N1
en.
u1
P.1
80
100
120
140
160
180
200
60
240
540
740
890
970
4800
18000
36000
28000
24000
14400
6000
4800
22800
58800
86800
110800
125200
131200
6
24
54
74
89
97
100
70-90
90-110
110-130
130-150
150-170
170-190
190-210
60
180
300
200
150
80
30
1000
%
3'65
1737
44'81
66' 15
84'45
95'42
100
109
Si la concentracin es mnima, es p=q, y, por tanto, IG=0; mientras que, si la
concentracin es mxima, q =q,=...=qn^=0, e I0=1. Por tanto, IG vana de 0 a 1. Se
comprueba adems que el ndice de Gini es aproximadamente igual al rea encerrada
entre la diagonal y la curva dividida por la mitad del rea del cuadrado.
El ndice de Gini correspondiente al ejemplo 3.7 es Ia=0'06.
Otro ndice de concentracin interesante es la mediala, que se define como el
valor de la variable x tal que
q(x)=0'5xl00%
q(x) es la proporcin (en tanto por ciento) de la cantidad total de salarios ganada por
los empleados cuyo salario es menor que x.
La mediala es, por tanto, el salario tal que los empleados que ganan individualmen
te menos que la mediala ganan globalmente tanto como los empleados cuyo salario
sobrepasa el salario medial.
La mediala cuando los datos estn agrupados, se calcula, como la mediana, por
interpolacin a partir de los extremos de la clase medial:
50 -qn
Mi = e+
(43)
donde:
e es el lmite inferior de la clase medial,
qM es la cantidad acumulada (en porcentaje) inferior a la clase medial,
q. es la cantidad acumulada (en porcentaje) de la clase medial,
a. es la amplitud de la clase medial.
En el ejemplo 3.7, la mediala es M=l 30+4' 86= 134' 86.
no
Al no ser iguales las unidades de medida utilizadas, las calificaciones de los can
didatos no son comparables.
Debemos, por lo tanto, transformar las calificaciones, pasndolas a una escala
comn de modo que las transformadas tengan la misma media y la misma desviacin
tpica.
Si a las calificaciones originales les restamos su media y dividimos por su desvia
cin tpica, se transforman ambas en otras de media cero y desviacin tpica 1 .
Las calificaciones de nuestros dos candidatos son ahora:
X,-X,
55-45
10
ft
2
2
Como estas nuevas calificaciones tienen una distribucin de media cero, observa
mos que las dos estn por encima de la media y asimismo, al ser la desviacin tpi
ca 1 . comprobamos que la primera calificacin est 0,83 desviaciones tpicas por en
cima de la media, en tanto que la segunda est solamente 0,5 desviaciones tpicas por
encima de la media.
El proceso que acabamos de seguir, por el cual transformamos los valores x de
una variable en otros z, que se obtienen de restar a cada valor x de la variable su
media y dividir el valor as obtenido por la desviacin tpica s:
X,-X
(44)
Z, =
111
queda por encima o por debajo de la media de su distribucin, puesto que se sabe que
sta es igual a cero.
Adems, al ser la desviacin tpica igual a 1, nos indica cuntas desviaciones
tpicas est por encima o por debajo de la media.
Las puntuaciones tipificadas poseen la gran ventaja de que la distribucin normal
N(0,1 ) est tabulada y es sencilla de manejar e interpretar.
Sin embargo, el investigador debe comunicar los resultados por l obtenidos y
hacerlos inteligibles a personas no versadas, como puede ser el caso del profesor que
quiere facilitar las calificaciones de sus alumnos a los padres de stos. Seguramente
algn padre no entender que una calificacin de cero indica que su hijo est en la
media del curso, ni sabr interpretar una calificacin negativa.
Por este motivo, se han diseado otras calificaciones de interpretacin ms fcil.
3.8.1. Puntuaciones T
Las puntuaciones T se obtienen a partir de las puntuaciones tipificadas Z median
te un cambio de origen y un cambio de escala que viene dado por la transformacin
T = 10Z + 50
(45)
112
(46)
Las puntuaciones SAT siguen, por lo tanto, una distribucin de media 500 y
desviacin tpica 100. As, una puntuacin Z=l se transforma en una puntuacin
SAT= 1 OOx 1 +500=600, lo que significa que est por encima de la media (500) y a una
distancia de la misma de una desviacin tpica.
III
-'iVfj?'"
donde r'=0, cuando 2i>r.
Si damos valores particulares a r, para los cuatro primeros momentos respecto al
origen, resulta:
~
c
c
c
c
ao = a'o = 1, ai = a', = x, a2 = a'2 + , a.l = a'l + a',, a4 = a'4 + ~ZU2 + TT
12
4
2
80
y, para los momentos centrales:
c2
c2
c4
mo = m',i = 1, mi = m'i = 0, m2 = m'2 + , m3 = rr'l , m4 = rr4 + n2 + 12
2
o/
A partir de estas relaciones, los momentos corregidos de segundo y cuarto orden
respecto de la media quedan:
1) Momento central de orden 2 corregido:
113
m"2
= mi
c~
' 12
(49)
4--J'-Jo"-2
240
50-56
56-62
62-68
68-74
74-80
N estudiantes
10
14
13
10
114
Puntuaciones 17-24 25-32 33-40 41-48 49-56 57-64 65-72 73-80 81-88 89-96
V alumnos
18
66
132
216
425
212
117
90
I8
"l
N de empleados
18
25
28
12
14
V alumnos
10
31
63
70
41
20
15
115
3.6. Hallar los cuatro primeros momentos respecto al origen de la distribucin del
ejercicio 2. 1 1 del captulo 2.
3.7. La talla (en metros) de 200 reclutas est recogida en la siguiente tabla
x,
n.
20
60
52
20
30
4045
45-50
50-55
55-60
60-65
65-70
70-75
80
111
130
166
100
78
40
19
a
i
Puntuaciones
<20
Instituto A
13
Instituto B
12
>56
116
Cocientes
N de alumnos
<70
3
70-79
8
80-89
18
>129
4
Ciudad A
Calificacin
N de alumnos
Calificacin
N de alumnos
4
5
6
7
8
9
16
8
22
6
12
7
4
5
6
7
8
7
20
8
10
10
8
Total
71
63
3'87
3'99 4'05
4'06 4'01
4'01
3'89
3'97
3'99
117
Hallar los cuatro primeros momentos respecto al origen y los coeficientes de asi
metra de Fisher y de Pearson.
3.17. Las calificaciones obtenidas por veinte alumnos en un ejercicio de Matemticas
han sido
-v
[xx
X(-v,-y//, X7--7 n,
/=/
, = i\<> ")
si
N
N
N
N
Propiedad II: La varianza de y =x+k es
j
"
-fZix,-xfm
,
d~ ,
'- 2
N
~ d2 Sx
jx*n
c~ - 2cx+ x~
x2n
. = (c -x )' + .
N
118
Como
J,(x-x)f, = 0
CAPITULO 4
ANLISIS EXPLORATORIO DE DATOS
120
4.2. Principios fundamentales
Los principios fundamentales en que se basan las nuevas tcnicas estadsticas
fueron expuestos por Tukey. Mientras que los mtodos clsicos tratan de ajustar los
datos a un modelo previamente fijado, en los nuevos mtodos de anlisis de datos, se
disea el modelo adecuado a cada serie estadstica a partir de la estructura que
presentan los propios datos.
Esta nueva forma de trabajar se caracteriza por:
1) El papel relevante que adquieren los mtodos grficos. Se han aportado
nuevos procedimientos de visualizacin: diagrama de tronco y hojas, grfico en
caja y extensin, grfico de centiles,... capaces de detectar anomalas que, de otro
modo, pasaran desapercibidas.
2) El uso de modelos de lnea resistente para tratar el ajuste de distribuciones,
de forma que se elimine la influencia que pudieran ejercer los casos raros, como
pueden ser los datos muy alejados de los valores centrales.
3) la utilizacin de transformaciones, potenciales y logartmicas, que clarifi
can la estructura de los datos.
4) La informacin adicional que aportan los residuales, es decir, las diferen
cias entre los datos reales y los valores ajustados.
Los mtodos exploratorios son considerados por algunos autores como una
nueva rama de la Estadstica. Otros, entre los que podemos citar a Good, les restan
importancia. La realidad es que las tcnicas que proporcionan, con la ayuda del
ordenador, estn adquiriendo cada da mayor relevancia.
Los tres captulos anteriores se han dedicado fundamentalmente al estudio de
las caractersticas de tendencia central y de dispersin clsicas, dando escasa impor
tancia al anlisis de la forma. Dicho tratamiento es correcto cuando la distribucin
de los datos es simtrica o se aproxima a la normal.
Las nuevas tcnicas ponen el acento en el anlisis de la forma, jugando un papel
importante las representaciones grficas.
La principal dificultad que ofreca la media aritmtica era su sensibilidad a
cambios de valores extremos. Por ello, se buscan nuevos ndices de localizacin
resistentes (poco afectados por el influjo de valores extremos), y robustos (poco
influenciables por las desviaciones de los postulados iniciales como la exigencia de
la normalidad del modelo). La media aritmtica carece de estas dos cualidades. La
mediana, sin embargo, aunque no es un ndice robusto, s es resistente, y juega un
papel importante en el Anlisis Exploratorio de Datos.
Junto a la mediana, se utilizan como ndices de localizacin: el promedio de
cuartiles, la centrimedia y las medias recortadas, entre las que vamos a
considerar la trimedia y la mediana extendida.
121
4.3. ndices de loralizacin resistentes
Hemos sealado que la media es una medida muy sensible a cambios en los
extremos. En general, siempre que un conjunto de datos estadsticos presente alguna
anomala o haya motivos para creer que su distribucin se aparta de la normal, se
deben utilizar caractersticas que ofrezcan una mayor resistencia.
Se dice que una caracterstica es resistente cuando es afectada mnimamente
por la presencia de datos anmalos (alejados de los valores centrales).
La mediana, M , es el ndice de localizacin principal en las nuevas tcnicas.
El valor d(M,) seala la distancia de la mediana a los valores extremos, que. en
principio y segn la definicin establecida en el captulo 2, viene determinada por:
/
d(M,)=-(N + l)
(1)
(3)
2
122
nado porcentaje de datos extremos y calculando la media aritmtica del resto de
los datos.
Es frecuente el uso de tales medidas en las puntuaciones o mediciones de
algunas competiciones deportivas, donde, para evitar posibles tendencias de los
jueces, se eliminan los valores extremos en el clculo de los promedios.
La media recortada al 20% es la media aritmtica del 60% de los datos que
quedan despus de eliminar el 20% de las observaciones inferiores y el 20% de las
superiores. La media aritmtica se puede considerar como la media recortada al 0%,
mientras que la mediana es una aproximacin de la media recortada al 50%. Las
medias recortadas de mayor uso son la centrimedia y la mediana extendida.
I. Centrimedia o media intercuartlica
La media recortada al 25% se conoce como centrimedia o media intercuartlica
y la vamos a representar por MID:
MID =
-h.
(41
En el numerador aparece la suma de todos los datos comprendidos entre los dos
cuartiles, y en el denominador el nmero C de tales datos.
Al evaluar la centrimedia, no se deben de tener en cuenta los datos repetidos,
procurando, en todo caso, que el nmero de valores repetidos que se suprimen sea el
mismo a ambos lados.
Estudiando la posicin relativa de la media aritmtica y de la centrimedia, se
puede detectar la presencia o no de simetra. Se sabe que un valor de la centrimedia
superior a la media aritmtica denota un sesgo hacia la izquierda.
II. Mediana extendida
Para paliar la sensibilidad de la mediana a los errores de redondeo o truncamien
to, se define la mediana extendida(MEj).
Su definicin depende de la paridad y del nmero de datos:
Si n es impar y 4<n<13, se toma la media de los tres valores centrales;
si n es impar y n>12, se toma la media de los cinco valores centrales;
si n es par y 4<n<13, se toma la media de los cuatro valores centrales;
si n es par y n>12, se toma la media de los seis valores centrales.
Ejemplo 4.1
Se trata de evaluar los ndices que acabamos de introducir para la serie de datos
que constituyen los pesos de 20 jvenes:
123
39 42 36 34 43 42 45 52 54 37 44 72 33 49 56 62 63 44 44 47
Ordenamos los datos:
33 34 36 37 39 42 42 43 44 44 44 45 47 49 52 54 56 62 63 72
La mediana es: M=44.
d
Los cuartiles son: Qt - 40'5 y Q =53
luego el promedio de cuartiles es: Q
40'5 + 53
= 4675
Q + M, 4675 + 44
El valor de la tnmedia es: TRI = =
= 45'37
2
2
La media es 46'9, superior a la centrimedia, MID=45'2, lo que es seal de un
cierto sesgo hacia la derecha.
Mediana extendida: el nmero de datos es par y mayor que 12, por lo que se
toma la media de los seis valores centrales, obtenindose ME,=44'5.
i# = G,-0,
(5)
124
ndice comparable con los ndices tradicionales, S K , denominado rango
intercuartlico pseudo-tipificado :
R,
1'349
(6)
12'5
1'349
9'26
Q,-Q,
CVe =
.7.
Q "Q., + Q,
Q,+ Qr2Md
2 M,,
Su interpretacin es la siguiente:
Si H^O, la distribucin es simtrica.
Si H^O, hay asimetra positiva.
Si H <0, hay asimetra negativa.
(8)
125
(9)
H2 = M,
Cw+Cw-2Mi
2 M
(10)
(11)
'9(Q,-Q,)
Se
Si
Si
Si
Ejemplo 4.2
Veamos cules son los valores de los ndices de forma correspondientes a los
datos del ejemplo 4. 1 :
1) Indice de simetra de Yule:
Q,+ Qi-2MJ
40^+53-2x44
2 Md
2\44
lo que indica un insignificante sesgo hacia la derecha.
2) Indice de simetra de Kelly:
Cw+C^^Mj
Hi =
2M,,
que confirma el resultado anterior.
3) Indice de curtosis:
C yf - C /o
34 + 63-2x44
~ ~~
= O'IO
2x44
63-34
K=
1'9(QrQ,)
luego la curva es leptocrtica.
1'22
1'9(53-40'5)
126
4.6. Diagrama de tronco y hojas
Uno de los mtodos ms ingeniosos que surge del anlisis exploratorio de Tukey
es el diagrama de tronco y hojas. Se trata de una mezcla entre histograma y tabla
de frecuencias, que permite hacer un anlisis transversal detallado de los datos. Se
complementa con el grfico en caja y extensin, cuyo diseo es de menor precisin.
El enfoque transversal permite , una vez ordenados los datos, seleccionar mejor
la representatividad de los intervalos de clase.
Para describirlo, nos vamos a servir del siguiente ejemplo:
Ejemplo 4.3
Queremos analizar las puntuaciones obtenidas por 45 empleados de una empresa
en un test de aptitud:
545 580 526 503 573 501 606 641 623 705 391 422 365 343 437
428 453 452 526 112 445 726 338 497 563 625 639 451 446 873
536 652 561 734 542 586 573 492 740 920 647 433 565 329 525
Para ello, diseemos el correspondiente diagrama de tronco y hojas. Atendiendo a
los objetivos que pretendemos conseguir, comprenderemos mejor su estructura:
I.
II.
III.
IV.
V.
VI.
127
columna central ordenada desde el tronco ms bajo al ms alto, incluyendo todos los
valores intermedios, aunque no formen parte de ningn dato.
La rama que contiene a la mediana (ndice fundamental en los mtodos
exploratorios), se resalta en uno de los mrgenes de la tabla (la primera columna,
habitualmente). Esta columna se denomina columna de frecuencias, y, en ella se
sitan las frecuencias acumuladas, pero sumndolas en un doble sentido, comenzan
do por ambos extremos hasta llegar a la fila en que se encuentra la mediana, en cuyo
lugar se pone el valor de la frecuencia absoluta correspondiente a su rama entre
parntesis.
De este modo, se consigue destacar la rama que divide a la poblacin en dos
partes iguales.
La suma de la frecuencia de la rama que contiene a la mediana y de los dos
valores contiguos en la columna de frecuencias es igual al nmero N de datos, lo que
puede ser til como elemento comprobatorio de que no se ha olvidado ningn valor.
La columna de frecuencias facilita el clculo de la profundidad de cada dato.
La profundidad de un dato es su distancia al extremo ms prximo.
El diagrama de tronco y hojas correspondiente a los datos del ejemplo 4.3 podra
ser entonces:
Frecuencias
Troncos
1
1
6
17
(15)
13
4
2
1
2
3
4
5
6
7
8
Ramas y Hojas
1
2 3469
22 3 3445 5 99
00222 3 446667788
0222444 5 6
02
7
128
Frecuencias
Troncos
1
1
1
1
4
6
12
17
(8)
20
13
7
6
2
2
2
1
1*
lo
2*
2o
3*
3o
4*
4o
5*
5o
6*
6o
7*
7o
8*
8o
9*
N=45
Ramas y Hojas
1
43 2
96
2 3 2443
55959
42002342
8766876
042 234
5
02 34
7
2
UNIDAD=10
3ol6=360-369
Este ltimo grfico nos muestra mejor las lagunas que hay entre los troncos 1 y
3 y del 7* al 8o. Tambin se aprecia que el 6 es un valor poco frecuente y la
presencia de datos alejados en ambos extremos.
El nmero de ramas que se elige est en funcin de la forma de los propios datos,
por lo que no se siguen las normas de la eleccin del nmero de clases que vimos en
el capitulo 1. Dentro de la flexibilidad que hay, uno de los criterios ms extendido
consiste en seleccionar un mximo de L ramas, que en funcin del nmero N de
datos, es:
(12)
L = 2-J, si /V < 100
L= 10\ogmN, N > 100
(13)
129
Cuando se detecta, en los extremos, la presencia de datos bastante alejados de los
valores centrales, dichos datos se suelen poner separados, en la parte superior o
inferior, utilizando como tronco la palabra ALTOS o BAJOS segn sean sus valores,
y situando el dato completo en la rama.
Si elegimos 12 ramas y separamos los datos alejados, la forma en que quedara
nuestro diagrama en un paquete informtico como STATGRAPHICS es:
BAJOS 1 112
4
6
12
17
(8)
20
13
7
6
2
2
2
3*
3o
4*
4o
5*
5o
6*
6o
1*
7o
8*
8o
2 34
69
223344
5 5 599
00222344
6667 7 8 8
0 2 2 3 44
5
0234
ALTOS 1 920
N=45
JNIDAD== 100
3ol6=360-369
130
4.7. Cuartos y octavos
Hasta ahora hemos venido trabajando con la mediana y los cuartiles. Sin embar
go, los mtodos exploratorios suelen utilizar otros ndices, los cuartos y los
octavos; incluso la mediana se determina siguiendo otro criterio cuando el nmero
de datos es par.
El criterio que se sigue para determinar la mediana es:
A) Si el nmero N de datos es par, se toma como valor de la mediana, M ,, el valor
de la variable que ocupa, en la serie de datos ordenada, el lugar 1/2 (N+l) - 1/2, que
representamos por d(M )':
/
/
(1(M.l)=-(N + 1)--
(14)
(15)
(16)
De esta forma, la mediana siempre coincide con uno de los datos, lo que resulta razonable cuando se
131
mientras que el octavo superior es el valor de la variable que. situado por encima
del cuarto superior, tiene una profundidad igual a la parte entera de 1/2 (d (H ) +1). La
distancia. d(E). de los octavos al extremo ms prximo es
d(E)=-{d(H)+l)
(17)
IQR= H,-H,
El promedio de cuartos es la media aritmtica de los dos cuartos:
//, + //,
(19)
H=
(20)
Ejemplo 4.4
Se trata de determinar la mediana, los cuartos y los octavos correspondientes a
los datos del ejemplo 4.1. Para ello:
1 ) Se ordenan los datos de menor a mayor, anotando su profundidad (distancia al
extremo ms prximo).
2) Se determina la mediana segn el nuevo criterio.
3) Se evalan los cuartos y octavos en funcin de la profundidad (distancia al
extremo ms cercano).
La figura 4. 1 . presenta, de modo esquemtico, el proceso seguido:
d(E)=3
d(Md)=10
d(E)=3
d(H)=S
2 Q] 4 [g] 6
d(H)=5
9 pLO] 10
6 fj] 4 [I] 2
H1 = 39
y.
"
Hs = 54
ttri=44
E =62
S
132
4.8. Datos anmalos
Son datos anmalos aquellos valores de la variable que se apartan en gran
medida de los valores centrales. Cuando hablamos de datos anmalos, estamos
refirindonos al comportamiento de los datos con respecto a un patrn referencial: la
distribucin normal.
Para precisar ideas, vamos a definir el concepto de paso:
El paso es una medida de dispersin que equivale a 1'5 veces el rango
intercuartos:
(21)
P = 1'SxIQR
Sucede que, si comparamos la serie de datos con que trabajamos con la distribu
cin normal, la amplitud del rango intercuartos debe ser igual a 1'5 veces la
desviacin tpica.
Entonces, si consideramos un intervalo formado aadiendo a cada uno de los
extremos del intervalo intercuartos la extensin 1'5 . IQR, el nuevo intervalo cubrir
todos los valores de la poblacin salvo el 7% de los mismos, dejando un 3'5% en
cada uno de los extremos.
A los valores que quedan fuera de dicho intervalo se les denomina exteriores.
Los valores ms alejados del centro, pero todava interiores, son denominados
adyacentes.
Se distinguen dos tipos de valores exteriores: alejados y remotos. Para
definirlos con precisin, se introducen dos pares de lmites llamados limites inter
nos, que distan un paso de los cuartos, y lmites externos, que distan 2
pasos de los cuartos.
Entonces los lmites internos inferioriL) y superior(LJ se obtienen de restar y
sumar un paso a cada uno de los cuartos inferior y superior, respectivamente:
H,-P, L, = H.*P,
(22)
(23)
Los valores de la variable que caen en el espacio comprendido entre los lmites
internos y los externos, se consideran datos alejados, y aquellos que sobrepasan
los lmites extemos se consideran datos remotos.
Las fronteras para determinar los datos anmalos se han establecido comparando
estos intervalos con los correspondientes a la normal, de modo que la probabilidad
de que aparezca un dato remoto es inferior a CT00698.
133
Estos ndices se resumen en una tabla en forma de U invertida, que recibe el
nombre de tabla de letras-ndices (tabla de 5 letras si recoge la mediana, los
cuartos y los lmites internos, y tabla de 7 letras si contiene adems los octavos).
La tabla de letras-ndice incluye el nmero de datos, las profundidades y los promedios.
La figura 4.2 contiene la tabla de 7 letras para el ejemplo 4. 1 .
remotos
alejados
2 P
..... adyacentes.
1' 5 P
11.
Paso
"d
H ,
1' 5 P
adyacentes
O
alejados
remotos
2 P
134
Una caja rectangular forma el ncleo del grfico. Para construirla, se toman
sobre una recta vertical u horizontal, segn la posicin que se quiera dar al grfico,
divisiones que abarquen el rango de la distribucin.
Se marcan los cuartos y la mediana mediante tres segmentos paralelos con las
medidas que proporciona la tabla de letras-ndices. Uniendo sus extremos por dos
segmentos paralelos, queda determinada la caja, que abarca el 50% de los datos. Del
punto medio de ambos costados de la caja salen dos segmentos rectilneos (exten
siones o patillas), cuya longitud mxima es 1'5 pasos.
Los extremos de las patillas coinciden con los datos adyacentes. La longitud
mxima ser nula cuando el dato adyacente coincida con el cuarto correspondien
te. Ms all de las extensiones se encuentran los datos alejados en una zona que
va desde los lmites internos hasta los lmites externos; se representan por el
smbolo o.
Los datos remotos son los que caen fuera de los lmites externos, y se representan
por un *.
El grfico en caja y extensin proporciona:
1) La mediana (segmento interior a la caja), que nos da una idea de la
localizacin de los valores centrales.
2) La dispersin (facilitada por la posicin de los cuartos).
3) La simetra central (detectada por la posicin de la mediana respecto de los
cuartos).
4) La simetra de los extremos (puesta de manifiesto por la longitud de las
extensiones).
5) El apuntamiento (relacin entre la longitud de la caja y las extensiones).
6) Los datos anmalos, (situados fuera de los lmites internos).
Ejemplo 4.5
Las siguientes calificaciones en la asignatura de Fsica y Qumica corresponden
a una muestra seleccionada al azar de 3 1 alumnos de segundo curso de Bachillerato:
Calificaciones
12
N" de alumnos
112
135
BAJOS 1 10
N-31
tld = 6
P(d) = 16
H1=S
p(H)=8
E =4
Hs^7
E =B
L ^2
L =8
s
P(E)=3
H= 6
~
E= 6
2
2
4
11
(7)
13
5
2
3
4
5
6
7
8
UNIDAD=0'1
0
00
0000000
0000000
00000000
00000
1 12=1'2
136
B) Si la distribucin presenta un sesgo hacia la derecha, los promedios cumplen
la relacin:
Md < H < E
C) Si la distribucin presenta un sesgo hacia la izquierda, la relacin entre los
promedios es:
Md > H > E
Los paquetes informticos disponen de rdenes que proporcionan la tabla de
promedios.
4. 1 1 . Transformaciones de datos
Las tcnicas exploratorias tienen por objeto detectar la presencia de saltos,
anomalas, asimetras o algn tipo de relacin no lineal cuando se comparan dos o
ms series de datos.
La finalidad que, con ello, se persigue es la de corregir dichos inconvenientes.
Cuando, en una serie de datos falla la simetra, los estadsticos clsicos (media y
desviacin tpica) no son una sntesis adecuada de los mismos.
Si, por medio de las representaciones grficas o a travs de la tabla de prome
dios, se detecta un cierto sesgo en la serie de datos original x,,x,,...,xn, interesa
buscar una transformacin T de los datos originales, de modo que la serie de datos
transformados T(x,),T(x,),...,T(xn) no posea tal inconveniente y pueda ser tratada
por los mtodos clsicos en orden a conseguir inferencias para la poblacin.
En el captulo 3 hemos estudiado una transformacin (tipificacin de la varia
ble), que consiste en un cambio de origen y un cambio de escala. La tipificacin
facilita los clculos y la interpretacin de los datos, pero no realiza ninguna altera
cin en la forma de la distribucin, como puede ser la simetra de los datos.
Nos interesa encontrar transformaciones que realicen alteracin en el crecimien
to de la variable. De esta forma, se puede conseguir la aproximacin de los datos
alejados y hacer ms simtrica la distribucin.
No toda transformacin de este tipo va a ser vlida. Los requisitos exigidos son:
1) Que conserve el orden de los datos, alterando nicamente la distancia entre
los mismos.
2) Que mantenga los ndices, es decir, el transformado del primer cuarto sea el
primer cuarto de los transformados,...
3) Que sea continua, de modo que datos cercanos entre s se transformen en
datos tambin prximos entre s.
Las transformaciones que mejor desempean estas funciones son las transforma
ciones de potencias, con las que pretendemos conseguir la simetrizacin de los
datos.
137
La razn fundamental por la que tratamos de simetrizar los datos reside en el
hecho de que los estadsticos que se utilizan habitualmente son representativos
cuando su distribucin se ajusta a la normal. Pero, incluso cuando se dan desviacio
nes de la normal, estos estadsticos clsicos son vlidos para realizar inferencias de
los parmetros de la poblacin siempre que exista una relacin de simetra entre los
datos.
4. 1 1 . 1 . Transformaciones de potencias
Para conseguir la simetrizacin de una serie de datos, las transformaciones de
potencias que se utilizan son funciones reales de una variable real de la forma:
-Xp,sip<0
T: <K - 9 I X - T(X) :
logX sip = 0
(24)
. X,,sip>0
Cuando la potencia p es negativa, se cambia de signo la variable para mantener
el orden de los datos. El problema est en elegir, para cada caso, el valor ms
adecuado de la potencia: p. Tukey propone la siguiente escala de potencias,
segn el tipo de asimetra:
1) Si la asimetra es positiva, se toman valores de p menores que 1:
p: -2, -1, -1/2, 0, 1/2
2) Si la asimetra es negativa, se toman valores de p mayores que 1:
p: 2, 3
Cuando p=0, la transformacin es T(x)=log(x).
Estas transformaciones se deben de realizar sobre los datos originales, no sobre
los datos tipificados. En otro caso, la transformacin afectara a los ndices de
tendencia central y a la propia forma, y nos encontraramos con valores negativos
que podran no tener imagen.
Sin embargo, a veces se dan este tipo de valores en los datos originales, en cuyo
caso ser conveniente realizar un cambio de origen antes de aplicar la transforma
cin de potencia.
Para saber cul es el valor de la potencia ms adecuado, una manera de proceder
consiste en ensayar varias transformaciones y calcular los nuevos promedios de cada
serie de datos transformados, eligiendo aquella que d unos promedios ms precisos
entre s. Existen otros mtodos menos laboriosos, como puede ser el de la pendiente,
que exponemos seguidamente.
138
4. 1 1 .2. Mtodo de la pendiente para determinar la potencia
Una vez se ha observado el sesgo de la serie de datos, de acuerdo con la relacin
de los promedios, se construye un grfico, que consiste en representar, en unos ejes
cartesianos, los pares de valores dados por los puntos cuya primera componente es
(X^-MA + (M,i-X.r
4Mi
(25)
.-M.
(26)
(27)
(28)
Ejemplo 4.6
Las puntuaciones obtenidas por 15 alumnos en una prueba han sido:
12 16 20 25 30 35 38 40 45 50 57 65 74 76 90
Se trata de encontrar la transformacin de potencia ms adecuada para hacer
simtrica la distribucin de estos datos.
Efectuados los clculos, la tabla de promedios nos proporciona los valores:
139
Mj = 40. = 45, E = 46
que cumplen la relacin:
Mj < H < E
lo que indica un sesgo hacia la derecha, luego debe de ser p<1. Apliquemos ahora el
mtodo de las pendientes para determinar el mejor valor de p. La siguiente tabla
recoge un resumen de los resultados:
H
1
X,
x5
UJ
vi
m.i
25
16
65
76
5,3
11.7
5
6
0.94
0.51
Datos originales
2
4
7
(2)
6
4
3
1
1
N=15
2
5
8 5
5
7
1
0
0
0
0
5
6 4
0
Unidad=l
1/2=12
D. transformados
1
2
3
4
5
6
7
S
9
4
0
0
1
0
0
4
1
3
6
(3)
6
4
1
N=15
4
4 9
3 7
5
67
Unidad=0,l
3/4=34
140
4. 1 1 .3. Transformaciones de raz cuadrada
El diagrama diferencial clsico para representar una variable estadstica conti
nua es el histograma, cuyo diseo estudiamos en el captulo 1. No siempre el
histograma es una buena representacin de los datos. Sabemos que no refleja bien la
distribucin emprica cuando los datos no estn repartidos uniformemente a lo largo
de cada uno de los intervalos de clase o cuando el nmero de intervalos de clase no
es el adecuado.
Para corregir estos inconvenientes, los mtodos exploratorios sugieren la cons
truccin de un histograma suavizado, que consiste en sustituir la densidad de
frecuencia por su raz cuadrada.
Se consigue, de este modo, el diagrama de raz cuadrada, formado por
rectngulos, cuyas bases son las amplitudes a.=e-e de los intervalos de clase y
altura la raz cuadrada de la densidad de frecuencia del intervalo:
(28)
Como resultado se obtiene una figura ms suave. La transformacin de raz
cuadrada es un elemento importante para la comprobacin de la linealidad del
modelo de regresin y para averiguar si una distribucin emprica se ajusta a la
distribucin normal.
Ejemplo 4.7
Las puntuaciones de una prueba realizada a 400 estudiantes han sido:
Puntuaciones
N" de alumnos
16
70
120
115
24
30
Los histogramas para los datos del enunciado y para sus imgenes por una
transformacin de raz cuadrada pueden apreciarse en las figuras 4.6 y 4.7.
11U
2
90
1'5 H
50
30
dd
250
350
450
550
150
250
350
450
550
141
4.12. Ejercicios propuestos
4.1 Determinar la mediana, los cuartos, los octavos y los lmites externos para la
serie de datos:
55 45 29 45 16 28 71 36 92 63 10 11 26 18 32 91 26 18 32 91 26 27 73 31 26
4.2. Construir el diagrama de tronco y hojas para los datos del ejercicio 4.1.
4.3. Los resultados de un test de inteligencia realizado a un grupo de 19 estudiantes
han sido:
98 120 130 95 100 110 97 125 128 97 94 105 101 99 90 100 102 93 102
Estudiar la forma de la distribucin a partir de los ndices de asimetra y
curtosis.
4.4. El volumen de ventas de un determinado artculo en un hipermercado durante
las 16 ltimas semanas ha sido:
70 220 205 360 410 800 920 980 770 420 196 190 145 95 350 400
Hallar la tabla de 7 letras y construir el grfico en caja y extensin.
4.5. Se ha realizado una encuesta para averiguar el nmero de personas que convi
ven en una misma vivienda de un barrio de determinada ciudad, obtenindose los
resultados:
N de personas
Frecuencias
10
25
56
15
10
142
404 326 125 65 89 326 145 190 63 109 320 208 190 216 314 60 92 185 280 143
200 66 189 218 63 313 216 180 204 324 109 63 140 105 107 79 88 69 208 400
270 109 66 403 66 360 305 275 180 402 120 208 122 200 55 78 55 202 160 102
1) Agrupar los datos en intervalos de clase. 2) Construir el histograma y el
diagrama de raz cuadrada, y analizar las diferencias.
4.8. Preguntados por los gastos que realizan a la semana 850 adolescentes de 12 a
14 aos, se han obtenido las siguientes respuestas:
Gasto
Frecuencias
40
80
100
130
220
160
82
38
15 15 16 17 17 18 18 18 18 18 19 20 20 21 21 21 22 22 23 23 23 26 29
Y.
17 16 17 18 16 17 18 19 19 20 18 20 19 20 18 19 22 21 18 13 16 22 21
102
200
260
140
90
70
50
143
4.11. El volumen de ventas (en millones de pesetas) realizado por las veinte sucur
sales de unos grandes almacenes ha sido:
63 60 32 85 44 83 120 150 240 90 38 46 52 24 10 62 74 83 86 90
1) Hacer un anlisis grfico de la forma. 2) Determinar si existen datos anma
los. 3) Hallar la media recortada al 40%, la trimedia y la mediana extendida.
4.12. La produccin de trigo y maz obtenida en los diez ltimos aos por una
cooperativa agrcola (expresada en fanegas) ha sido la siguiente:
Trigo
180
195
214
217
220
253
260
300
298
306
302
298
Maz
95
87
101
103
105
96
107
98
80
76
86
79
Hallar los ndices de variacin cuartlica de las dos series de datos. Cul de ellas
es la ms homognea?
4.13. En una prueba de velocidad lectora realizada a 500 estudiantes, se obtuvieron
las siguientes puntuaciones:
Puntuacin
N" de estudiantes
[40,50)
[50,60)
[60,70)
[70,80)
82
108
123
115
16
10
144
Renta sobre limo ptas. (0,10) [10.20)[20,30) [30.40) [40.50) [50.60) [60,70) [70,80) (80.90)
N familias de A
18
35
43
29
18
10
12
N" familias de B
12
30
53
39
15
14
CAPITULO 5
DISTRIBUCIONES BIVARIANTES
146
Sea n. el nmero de individuos de la poblacin que presentan a la vez la modali
dad X del carcter X y la modalidad Y del carcter Y. Este valor es la frecuencia
absoluta del par (X,Y).
La frecuencia relativa del par (X,Y ) ser, por tanto:
f = ^Ja
N
(1)
>=.V
(2)
=i J.\
ya que se supone que tanto las modalidades X como las modalidades Y deben ser
incompatibles y exhaustivas.
II. La suma de las frecuencias relativas extendida a todos los pares de modalidades
es igual a la unidad:
/=
(3)
-i
En efecto:
P
Pin
147
X\Y
Y,
Y2
n 12
n 22
n.,i2
X,
Xp
l
n p2,
Yq
\
n.ii
n ,iq
n 2i
n
n pi
n iq
n pq
2q
(4)
Para cada i, los valores n se obtienen de sumar las frecuencias absolutas de cada
fila de la tabla. Los n. se sitan en la columna marginal de la derecha, y definen la
distribucin marginal del carcter X.
La frecuencia relativa marginal de la modalidad X es:
l.
(5)
/,= N
5.4.1.1. Propiedades
I. La suma de las frecuencias marginales segn el carcter X es igual al nmero
total de individuos de la poblacin.
En efecto:
=i
=li,l
E ii
,.i
,=N
En efecto:
N ,,,
148
5.4.2. Distribucin marginal segn el carcter Y
Anlogamente, se define la distribucin marginal del carcter Y. La frecuencia
absoluta de la modalidad Y del carcter Y, con independencia de las modalidades que
presente el carcter X, viene dada por la suma de las frecuencias que aparecen en la
columna j de la tabla.
La representaremos por n , y ser:
", = XB
(6)
Para cada Ji, los valores n i se obtienen de sumar las frecuencias absolutas de cada
una de las columnas de la tabla, se sitan en una fila marginal en la parte inferior de la
tabla, y definen la distribucin marginal del carcter Y.
La frecuencia relativa marginal de la modalidad Y ser:
(7)
/..- N
5.4.2.1. Propiedades
En efecto:
Y2
....
Yj
....
Yq
Eam.
l.r.m.
n2
L
f
x2
n 12
n
n ii
n ?i
n lq
n.2q
X.
n i2
n 'i
n ,q
n
i.
i.
n p-
n pi
n pq
np
fr
n
f
n
fJ
ni
N
1
Xp
F.U.111.
Fxm.
B.1
f,
.i
fq
149
5.5. Distribuciones condicionadas
Fijmonos ahora en los n individuos de la poblacin que presentan la modalidad
Y del carcter Y, y observemos la columna j-sima de la tabla; figuran en ella:
los n, individuos que. teniendo la modalidad Y . poseen la Xr
los n, individuos que, teniendo la modalidad Y , poseen la X
los n pi individuos que,
teniendo la modalidad Y , , poseen
la X p ,
n
r
Estos n individuos forman una poblacin, que es un subconjunto de la poblacin
total. Sobre este subconjunto se define la distribucin de X condicionada por Y, a
cuyas frecuencias vamos a denotar por f1, para i=l,2,...,p, siendo:
(X,
n.,
"
X,
n.
x,
11 ,
fV
-,
n 'i
pi
Total
'
n,
(?)
150
Y2
Yi
Yq
Total
nu
n,
n 'i
n iq
f;
fi
5.5. 1 . Propiedades
I.
(10)
II.
(11)
/v =/,/;.=//;
tyn.,
1 p
I 1 .
si = '77 X( x - x fn., sx = y\~Zj(x - x fn
N~i
N~i
j ,
ryi,
(12)
(13)
151
Varianza de X/Y=y :
Vi(X) = %(x, - x, fn = l( jc, - Xy ///
(14)
(15)
Varianza de Y/X=x :
(16)
,i
Ejemplo 5. 1
Tratemos de clarificar estos conceptos a travs de un ejemplo sencillo, como es el
que representa la siguiente tabla, que se ha obtenido de medir la estatura y de pesar
a 100 jvenes de una determinada comarca:
X\Y
1'5-1'6
1'6-1'7
1*7-11
11-11
4045
45-50
50-55
55-60
60-65
65-70
70-75
75-80
80-85
3
1
2
1
4
2
0
1
1
2
2
4
7
6
3
2
2
2
0
1
4
3
6
4
3
4
5
0
1
5
1
4
6
3
3
2
152
X\Y
1'5-1'6
i'6-r7
1'7-1'8
1*84*9
n,
4045
45-50
50-55
55-60
60-65
65-70
70-75
75-80
80-85
3
1
2
1
4
2
0
1
1
2
2
4
7
6
3
2
2
2
0
1
4
3
6
4
3
4
0
1
5
1
4
6
3
3
2
5
5
15
12
20
15
8
10
10
0.05
0'05
0'15
0'12
0'20
O. 15
0'08
0'10
OMO
15
30
30
25
100
0'15
0'30
0'30
0'25
Podemos observar cmo hay 1 5 jvenes que miden entre 1 .50 y 1 ,60; 30 jvenes
que miden de 1 .60 a 1 ,70; 30 jvenes que miden de 1 ,70 a 1 ,80, y 25 jvenes que miden
de 1.80 a 1,90.
Asimismo, hay 5 jvenes que dan un peso comprendido entre 40 y 45 kilogramos;
5 jvenes con peso entre 45 y 50. etc.
La media de los pesos es:
- 42,5x5 + 47,5x5 + 52.5x15+... +82,5x10 6370
x=
'
= zr = 63,7
100
100
y la media de las estaturas:
- 1,55x15 + 1,65x30 + 1,75x30 + 1,85x25
v=
100
171.5
100
1,715
t*lti(yr1'715fn>
1.027
100
Veamos ahora cul es la distribucin de los pesos (variable X). pero nicamente de los
jvenes que miden de 1,60 a 1,70. Se trata de la distribucin de la variable X condicio
nada por Y=1.65, que vendr dada por la siguiente tabla:
153
f Y=I,65
i
"i V.i*
40-45
45 - 50
50-55
55-60
60-65
65-70
70 - 75
75-80
80-85
2
2
4
7
6
3
2
2
2
0,066
0.066
0,133
0,233
0.200
0.100
0,066
0.066
0,066
1
30
Xy=l.6S '.
Vr.l.6s(X) =,(xr61,16fnB
6116
100
61,16
109,88
1,6-1,7
1,7-1.8
1,8-1,9
nx=72^i
f X=72,5
j
0.2
03
05
14, 1
= 1,76
1
,
0,0488
Vx.72,s(Y) = - ld(yrl,76)-n7l = = 0,0061
o i.
o
Dx.n.s(Y) = yl0,0061 = 0,078
154
5.7. Dependencia e independencia funcional
5.7.1. Independencia
Se dice que el carcter X es independiente del carcter Y si son idnticas las
distribuciones condicionadas de X/Y, para j=l,2,...,q. Por lo tanto, las frecuencias
relativas f' no dependen de j.
Proposicin 5.1: Si X es independiente de Y, las distribuciones condicionadas
de X/Y son idnticas a la distribucin marginal de X.
En efecto, por ser X independiente de Y, sern:
n
n2
n*,
n.
n2
n,
nq
n + n2 +. . . + n +. . . + n^
n,+ n,2 +... + /i ,+... + n.,
n,
N
luego f. = /. , c.q.d.
Por lo tanto, si el carcter X es independiente de Y, las distribuciones condiciona
das X/Y. son todas ellas idnticas a la distribucin marginal de X, es decir, las colum
nas de la tabla de frecuencias son proporcionales entre s y proporcionales a la colum
na marginal.
Proposicin 5.2: Si X es independiente de Y, Y es independiente de X.
En efecto, por la propiedad II de 5.5.1, se tiene:
i i.
Luego
lo que significa que Y/X tiene la misma distribucin que Y, para todo i. Luego Y es
independiente de X, c.q.d.
La proposicin 5.2 nos dice que siempre que un carcter X sea independiente de
155
otro carcter Y, lo ser Y de X. Por ello, se dice que los dos caracteres son indepen
dientes.
Proposicin 5.3: Si X e Y son independientes, se verifica que
n, n.,
N N
. = , 1
Ejemplo 5.2
La siguiente distribucin corresponde a dos caracteres independientes:
\'
y,
y2
y,
?4
y,
n,
2
6
4
8
4
12
8
16
9
6
12
5
15
10
20
3
2
4
15
45
30
60
20
30
50
40
10
150
A
i
x,
X,
X4
n.o
Basta con observar cmo las frecuencias absolutas de cada modalidad son pro
porcionales entre s y a las frecuencias absolutas marginales; en otras palabras, las
filas son proporcionales entre s, y tambin lo son las columnas.
5.7.2. Dependencia
El carcter X depende funcionalmente del carcter y si a cada modalidad Y de Y
corresponde una nica modalidad posible de X. Por lo tanto, cualquiera que sea j, la
frecuencia absoluta n vale cero salvo para un valor i correspondiente a una columna
j tal que n =n .
Cada columna tendr, pues, un nico ttmino distinto de cero.
Si a cada modalidad X, de X corresponde una nica modalidad posible de Y, ser
Y funcionalmente dependiente de X.
La dependencia funcional de X respecto de Y no implica que Y dependa
funcionalmente de X.
Para que la dependencia funcional sea recproca, los caracteres X e Y deben pre
sentar el mismo nmero de modalidades (p=q), y en cada fila as como en cada colum
na de la tabla debe haber uno y slo un trmino distinto de cero.
156
Ejemplo 5.3
Supongamos el hipottico caso de la distribucin de los 1700 matrimonios de una
ciudad, en que las edades de esposo y esposa vienen dadas por la siguiente tabla:
Edad Esposo
Edad Mujer
25
26
27
28
29
19
20
21
22
23
150
0
0
0
0
0
280
0
0
0
0
0
320
0
0
0
0
0
440
0
0
0
0
0
410
Es evidente que hay una relacin funcional entre las edades de marido y mujer:
cada hombre est casado con una mujer 6 aos ms joven.
Ejemplo 5.4
En una ciudad prxima a la del ejemplo anterior, al analizar las edades de marido y
mujer entre sus 1500 matrimonios, se obtuvieron los siguientes resultados:
Edad Esposo
Edad Mujer
25
26
27
28
29
30
31
Total
19
20
21
22
23
220
0
0
0
0
0
210
0
0
0
0
0
230
0
0
0
130
0
0
0
170
0
0
0
0
0
0
0
0
280
0
0
0
260
0
390
340
230
260
280
Total
220
250
230
130
170
280
260
1540
157
entre marido y mujer de 7500 matrimonios jvenes, se obtuvieron los siguientes resul
tados:
Edad Esposo
Edad Mujer
25
26
27
28
29
30
31
Total
19
20
21
22
23
220
310
150
120
220
150
220
220
300
260
285
225
180
210
185
190
310
260
180
230
125
220
180
230
200
140
230
290
250
190
130
240
195
240
215
1240
1755
1475
1530
1500
Total
1020
1 150
1085
1170
955
1100
1021
75(X)
En esta ltima ciudad no hay dependencia funcional entre las edades de esposo y
esposa. No obstante, puede existir una cierta relacin de dependencia entre ambas
edades, relacin que ser estudiada en el captulo 6.
5.8. Momentos
Supongamos una distribucin bivariante determinada por el par (X,Y ). Entonces,
dados dos nmeros naturales r y s, y dado el par de nmeros reales (c,d), se llama
momento respecto al par (c,d) de rdenes r y s, y lo representamos por Mr (c,d) a la
expresin:
p
i/
-c/(y. -dfn,i
(17)
Mr (c,d) -
Tienen inters los momentos que se obtienen cuando el par (c,d) es el par formado
por las medias marginales o el par formado por las coordenadas (0,0) del origen.
158
5.8.3. Primeros momentos
ZMx,-xf(y-yfnv
,t(xi-x?nv
.i .i
MJ.l
mxN
p i
Y.yL(x,-xf(yryfn
N
p
z,L(y-yfn,
1=1 =1
m2 -
5.8.4. Proiriedades
1 p
I.
x = *,,
11.
1 Y 2
111.
mvi =a^n-a'm
l V
(20)
1 *
(21)
(22)
159
La propiedad III nos permite obtener las varianzas marginales de modo ms senci
llo a partir de los momentos respecto al origen.
Ejemplo 5.6
Un grupo de 25 estudiantes obtuvo las siguientes calificaciones en Matemticas y
Fsica:
M
3344445555566667777888899
4644564566756776889789 10 9 10
10
Total
3
4
5
6
7
8
9
1
2
1
0
0
0
0
0
1
1
1
0
0
0
1
1
2
1
0
0
0
0
0
1
2
0
1
0
0
0
0
0
2
1
1
0
0
0
1
2
1
0
0
0
0
0
1
0
2
4
5
4
4
4
2
Total
25
Mu
Ml
"i
3
4
5
6
7
8
9
2
4
5
4
4
4
2
6
16
25
24
28
32
18
25
149
M2
M.2n.
9
16
2=
36
49
64
81
18
64
125
144
196
256
162
i.
965
160
149
M = a, = = 5,96
965
a2o = ^r = 38,6
Sm = m2o = dio- a]o = 38,6 - 35.5216 =3,0784
s = J3,0784 =1,7545
Completamos ahora la tabla marginal de las calificaciones en Fsica para calcular
su media, varianza y desviacin tpica (la dispondremos en columnas para mayor
comodidad):
Fi
n.i
Fa
F2i
fr
4
5
6
7
8
9
10
4
3
5
3
4
3
3
16
15
30
21
32
27
30
16
25
36
4l)
64
81
100
64
75
180
147
256
243
300
25
171
1265
171
F= a, = = 6,84
1265
Om = -zj- = 50,6
s'F = nio2 = a02 - ah = 50,6 - 46, 78 = 3,82
si.. = ^82 = 1,954
5.8.5. Covarianza
El momento central de orden ( 1 , 1 ) de la variable estadstica bidimensional (X,Y)
recibe el nombre de covarianza de las variables X e Y.
La covarianza es, por tanto, la media ponderada del producto de X-a|o por Y-a0|.
Este producto es positivo cuando, a valores grandes de X, les corresponden valores
161
grandes de Y, o, a valores pequeos de X, les corresponden valores pequeos de Y.
En cambio, el producto (X-a10)(Y-am) resulta negativo cuando, a valores grandes de X,
correspondan valores pequeos de Y, o, a valores pequeos de Y, corresponden
valores grandes de X.
El signo de la covarianza indica, por tanto, si la relacin entre las variables es
positiva o negativa.
La covarianza proporciona una medida del grado de dependencia entre las varia
bles X e Y. Sin embargo, la covarianza tiene el inconveniente de depender de la
dimensin de las variables.
Como medida adimensional del grado de dependencia entre dos variables, se uti
liza el coeficiente de correlacin de Pearson, que se estudia en el captulo sexto, y que
se define a partir de la covarianza, por lo que sus propiedades se van a basar en las
propiedades de sta.
5.8.5. 1 . Propiedades de la covarianza
1.
inn =aii-aioaoi
(23)
Esta propiedad nos indica que la covarianza es la media del producto de las varia
bles menos el producto de las medias.
2. Si X e Y son dos variables estadsticas independientes, su covarianza es cero.
La recproca de esta propiedad no es cierta. Puede suceder que la covarianza de
dos variables estadsticas sea nula, y stas no sean independientes.
Las demostraciones de estas propiedades pueden verse en el apndice del captulo.
Ejemplo 5.7
Vamos a calcular la covarianza de las variables del ejemplo 5.6.
Para ello, utilizamos la frmula (23), realizando el clculo de an a partir de la tabla
de doble entrada:
v, v,
/
7026 = 41,04
an =^_M
F,n = (4x3x1
+ 6x3xl+. .. + 10x10x1) =
25
25
luego
162
hacer una agrupacin en clases, stas seran muy poco numerosas y de gran ampli
tud, por lo que los clculos resultaran poco precisos.
En estas situaciones, se estudian los pares de valores (xi,y,). donde i recorre los N
individuos de la poblacin, considerando la frecuencia absoluta de cada par igual a la
unidad. De esta forma, las medias y varianzas marginales vienen dadas por:
~x=ix-~y=ity,
(24)
V(X)=jt(x,-x? V(Y)-tAyryf
(25)
1 N
mu = ?,(x,-x)(y,-y)
(26)
y la covarianza por:
* i= 1
Ejemplo 5.8
La tabla adjunta representa los pesos y las alturas de los 12 estudiantes de una
clase:
p
71
72
72
73
73
75
75
75
76
76
76
77
166
1"68
1'68
T69
T68
T68
170
170
173
173
175
177
- 1 %
891
P = X P, = ~TT = 74,25
12 i=
2) Altura media:
12
- 1 &
20.45
A = ^A, = = 1.7041
12,-
12
163
4) Las varianzas y desviaciones tpicas son:
s* = m20 = a20 - alo = 5516,58 - 5513,06 = 3,52 => sP = 4^52 = 1,876
Sa = mn = a02 - al, = 2,9052 - 2,9039 = 0,013 => sA = ^0,013 = 0,036
5) Para hallar la covarianza, calculamos primero an
1
/
1520,46
a,, =JLp~A. = (71x1,66+. .. + 77x1,77) = n = 126,705
entonces
ni
164
5.11.1. Los dos caracteres presentan ms de dos modalidades
El mtodo de representacin se basa en el uso de rectngulos con una superficie
proporcional a la frecuencia absoluta n...
La base de cada rectngulo es proporcional a la frecuencia marginal absoluta n y
la altura proporcional a la frecuencia condicionada f.i. Por tanto, el rea del rectngulo
es proporcional a
f,
n,
Para cada modalidad del carcter X, se construyen los rectngulos correspondien
tes a las modalidades de Y, superponindolos. Al final, se aade un rectngulo que
corresponde a todas las variedades.
Este tipo de grfico pone de manifiesto:
- las frecuencias marginales (bases de los rectngulos);
- las frecuencias de la distribucin conjunta (reas de los rectngulos);
- las frecuencias condicionales (alturas de los rectngulos).
Ejemplo 5.9
Queremos representar la distribucin bidimensional (X,Y), correspondiente a la
produccin anual (X) de carbn, petrleo, hierro y acero (en millones de toneladas) de
cuatro de los principales pases productores (Y), China, EE.UU., Canad y la URSS,
segn datos del ao 1990, que reproduce la siguiente tabla:
X\Y
Carbn
Petrleo
Hierro
Acero
Total
China
EEUU.
860
130
107
59
765
460
59
90
1156
1374
Canad
URSS
Total
80
72
20
25
605
625
252
162
2310
1287
448
336
207
1644
4381
Para representar la produccin de los productos segn el pas, son necesarias las
distribuciones condicionadas acumuladas para cada uno de los productos, que vie
nen dadas por:
X\Y
Carbn
Petrleo
Hierro
Acero
Total
China
EEUU.
Canad
URSS
37'2
10' 1
23'9
175
26'4
70'3
45'8
371
44'3
577
73'7
51'4
43'8
51'7
62'4
100
100
100
100
100
165
100
50 -
China
Carbn
Petrleo
Hierro
Acero
Todos
X\Y
Carbn
Petrleo
Hierro
Acero
China
EEUU.
Canad
URSS
Total
74'4
85'6
94'8
100'0
55'6
89' 1
93'4
100'0
38'6
73'4
36'8
74'8
90' 1
l00'0
39'7
52'5
73'8
100'0
879
100'0
EE.UU.
Canad
166
5.1 1.2. Uno de los caracteres es dicotmico
Cuando uno de los dos caracteres, por ejemplo X, presenta nicamente dos moda
lidades, se puede utilizar un diagrama de sectores constituido por dos semicrculos de
diferente radio (uno por cada modalidad del carcter), que se elabora de acuerdo con
los siguientes criterios:
i) los radios se toman proporcionales a la raz cuadrada de las frecuencias absolu
tas marginales del carcter dicotmico, n ;
ii) los ngulos centrales son proporcionales a las frecuencias relativas condiciona
das V.
i
De este modo, se consiguen dos semicrculos de diferente radio, cada uno de los
cuales corresponde a una de las dos modalidades del carcter dicotmico.
Las reas de los sectores sern, por tanto, proporcionales a las frecuencias abso
lutas de la distribucin conjunta, n , ya que el rea del sector es proporcional a la
amplitud del ngulo por el cuadrado del radio:
/' (yin,) = /' /', =/',.= n
n,
Ejemplo 5.10
Consideremos la distribucin, por razn del sexo y estado civil, de las personas de
40 a 50 aos residentes en el ao 1990 en una pequea ciudad, segn describe la
siguiente tabla:
Solteros Casados
S\E
Total
Mujeres
Hombres
303
623
6453
5210
728
956
205
126
276
350
7%5
7265
Total
926
11663
1684
331
626
15130
Los radios de los semicrculos deben ser proporcionales a las frecuencias absolu
tas: 7965 y 7265.
Necesitamos, para determinar los ngulos centrales, las distribuciones condiciona
das acumuladas segn el estado civil para las dos modalidades (mujeres y hombres)
del carcter dicotmico:
S\E
Mujeres
Hombres
Solteros Casados
3'8
8'6
84'8
80'3
%'6
95'3
100
100
167
Varones(7265)
Soiteros
Divorciados
1tujere5(7965)
Total
Baja
Media
Me-Alta
Alta
45826
35456
34625
15260
61200
32124
38246
14916
31324
28425
25430
8241
7150
5322
5224
1280
803
1165
976
324
146403
102492
104492
40021
131167
146486
93430
19076
3259
15230
Total
168
CI\N" H
Baja
Media
Uta
313
34'6
33'2
38' 1
73' 1
66'0
69"8
75'4
94'5
937
94'2
%'8
99"5
98'9
99'2
98"0
100
100
100
100
Total
33'4
70'6
94.4
99'2
100
Mi- Ma
Las cuatro primeras filas nos proporcionan las alturas acumuladas de los rectn
gulos que corresponden a las distribuciones condicionadas segn el nmero de hijos,
en tanto que una quinta fila contiene los datos globales.
En la figura 5.4 puede apreciarse su representacin. La quinta pila de rectngulos
corresponde a la distribucin conjunta.
ido -i
zz
,),
en
4 hijos
50 -
3 hijos
h1 jos
1 hi jo
C baja
C. media
C.m-a1ta Ca1ta
Conjunta
169
C1WH
Baja
Media
Me-Alta
Alta
34'9
62'0
88'4
100
41'8
637
89'8
100
33'6
64' 1
91 '3
100
38'0
65'9
96'3
100
5
24'6
60'6
90' 1
100
Total
379
63' 1
89'9
100
1 hijo
2 hijos
3 hijos
Todos
5"
Clase baja
Clase ned1a
Clase nedia-alta
Clase alta
170
5.13. Los dos caracteres son cuantitativos
Cuando los dos caracteres son cuantitativos, la representacin de las distribucio
nes condicionadas es anloga a la utilizada en el caso de un carcter cualitativo,
utilizndose diagrama de barras o histograma segn sea la variable discreta o conti
nua.
En cambio, para representar la distribucin global, se utilizan distintos mtodos,
segn la naturaleza de los caracteres, algunos de los cuales exponemos en los si
guientes apartados.
10
Total
2
3
4
5
6
7
8
9
2
3
3
4
5
2
1
0
3
5
5
4
4
2
1
0
1
4
4
4
4
3
0
1
0
2
2
4
5
2
2
1
0
2
2
2
3
4
2
0
0
1
1
2
2
2
1
0
0
0
0
0
1
0
1
1
6
7
17
20
24
15
8
3
Total
19
22
18
17
13
100
171
5.13.2. X es una variable con
tinua e Y discreta
1U
9
'
IF
4k
8
\r
irk
bles es continua y la otra dis
creta, la distribucin global se
M
7
representa por medio de
histogramas.
6
1) Habr tantos histogra
mas como valores toma la va
5
riable discreta.
2) Cada histograma tendr
4
las bases iguales a las ampli
tudes de los intervalos de cla
se de la variable continua X.
3) Las alturas sern propor
Figura 5.6: Representacin global de variables discretas.
cionales a las frecuencias me
dias por unidad de amplitud.
De este modo, las reas de los histogramas sern proporcionales a las frecuencias
absolutas marginales de la variable discreta Y.
No todas las bases de los distintos rectngulos se sitan sobre una misma hori
zontal, sino que se sita en una posicin ms baja la base del rectngulo al que
corresponde una mayor altura; de este modo se consigue una figura simtrica con
respecto a la lnea recta horizontal que divide a cada rectngulo en dos partes iguales.
La figura que se consigue presenta una simetra axial respecto de la horizontal que
parte del valor correspondiente a la variable discreta.
Ejemplo 5.13
Las alturas de 90 nios de edades comprendidas entre 11 y 14 aos vienen refle
jadas en la siguiente tabla:
M\CN
11
12
13
14
Total
130-140
140-150
150-160
160-170
170-180
0
3
7
3
0
1
1
10
12
2
0
0
12
15
5
0
1
6
5
3
1
9
35
35
10
Total
13
27
35
15
100
172
130
140
150
160
170
180
173
A\P
150-155
155-160
160-165
165-170
170-175
175-180
180-185
9
10
29
29
20
10
10
11
10
9
31
60
20
20
9
20
9
29
31
21
11
21
10
11
10
10
Por ser las frecuencias mltiplos de 10 o valores muy prximos a un mltiplo de 10,
vamos a tomar este valor como razn de la proporcionalidad. As, para representar
una frecuencia absoluta de 60. dibujaremos 6 puntos.
150
)55
t6)
165
170
175
180
185
5.13.3.2. Estereograma
El estereograma es la generalizacin del histograma para el caso de una variable
bidimensional. Consiste en la representacin de la distribucin global por medio de
paraleleppedos rectangulares de volumen proporcional a las frecuencias absolutas
correspondientes.
Se construye, para cada par de clases (una correspondiente a la variable X y otra
a la variable Y), un paraleleppedo, cuya base es el rectngulo de dimensiones iguales
a los intervalos de clase, y, cuya altura es proporcional a sus frecuencias absolutas.
Si se trata de los intervalos de clase [xi.rxj, [y -ry ], cuyas amplitudes son, respec
tivamente, a=x-x y b=y -y , la altura del paraleleppedo ser:
174
f'' y el volumen a b
f = /-.
ab
' ' A
"
La suma de los volmenes de todos los paraleleppedos ser igual a la unidad, ya
que
/.=,
La representacin por medio de estereogramas presenta la dificultad prctica de
que, con frecuencia, algunos paraleleppedos quedan tapados por encontrarse situa
dos en un plano ms lejano, y no se percibe una visin completa de la distribucin.
La figura 5.9 contiene el estereograma para los datos del ejemplo 5.14.
126
ee
uo
f,0
40
O
O
170
175
100
ALTURA
175
Ejemplo 5.15
La siguiente tabla recoge los pesos y las alturas de 12 jvenes de 16 aos, cuyo
diagrama de dispersin puede apreciarse en la figura 5.10.
(X)
45
(Y)
53
57
61
67
63
49
54
61
53
49
60
165 172 166 174 159 180 169 177 183 180 169
175
195
+ +
175
155
-i
40
i
50
i
60
i
70
ir~
80
X\Y
100
50
25
14
18
22
1
2
1
3
1
176
5.3. Poner un ejemplo de variable estadstica bidimensional (X,Y), en que las variables
X e Y sean independientes, y otro en que sean dependientes.
5.4. Las variables X e Y se distribuyen segn muestra la siguiente tabla:
X\Y
11
8
9
10
11
15
12
13
32
14
17
18
8
2
10
40
Y1
Y2
Ym i
x2
2
5
3
15
4
10
5.6. Determinar, para la distribucin del ejercicio 4.1, los siguientes momentos respecto
al origen:
5.7. La siguiente tabla contiene los pesos y las alturas de 20 jugadores de un equipo
de ftbol:
Peso (X)
Altura (Y)
N de jugadores
73
76
80
73
78
82
1'65
1'68
1'76
170
172
176
177
95
115
125
160
178
208
237
128
210
99
10
11
11
12
647845678566537
567 10 64975867837
10
11
12
13
14
10- 16
17-23
24-30
31-37
38-44
45-51
52-58
3
6
1
!
2
5
10
2
1
2
1
2
2
2
3
2
2
1
9
5
6
3
3
4
4
9
10
1
3
9
7
6
2
2
4
5
1
1
2
1
20
30
40
50
60
70
Distancia
18
29
46
67
98
132
178
5.13. Se sabe que los caracteres X e Y de los 50 individuos de una poblacin son
independientes. Si X presenta 4 modalidades e Y seis, construir una tabla en la que
aparezca claramente la independencia de ambos caracteres.
5.14. Los pesos y las alturas de 290 hombres estn recogidos en la siguiente tabla:
i'st-rss
X
.>
50-55
55-60
60-65
65-70
70-75
75-80
80-85
1
8
15
12
7
2
7
5
2
4
22
63
28
10
ll
2
7
1l)
1
5
12
7
2
12
2()
4
62
43
6.4
8.4
8.6
12.1
11,3
12.9 13.7
9
14.1
25 18 21 29 24 19 23 27 25 23 24 30 19 17 26 20 25 28 27 21
179
5.18. La siguiente tabla contiene los pesos y las alturas de los alumnos de una clase:
Pesos (X)
Alturas (Y)
N de alumnos
73
76
78
82
80
73
170
1'68
172
176
176
1'65
0-2
2-4
4-6
6-8
0-50
50-60
60-70
70-80
80-90
90-100
100-110
2
3
1
0
0
0
1
4
6
3
3
2
0
1
6
7
5
5
4
2
0
0
9
7
8
7
5
3
0
0
11
12
9
9
9
0
0
6
14
11
13
17
0
0
0
7
8
10
10
Francia
Australia
EEUU
Canad
Trigo
Maz
Algodn
Tabaco
30000
13030
230
13803
3478
49315
1 15643
3202
560
15502
2750
120
45
276
67
180
Apndice al captulo 5:
Demostracin de las propiedades de las frecuencias condicionadas y de los momentos
I. Demostracin de (10):
p
p n
J p
Lf = L = Z" = ni = 1
i.i
i.i nl
ni i.i
n,
i
i n;
1 1
l
,fi = X = ~ S" = ~~ i. = i
i.i
i.i n, n, i.i
n,
y
II. Demostracin de (1 1):
"
jr
JV,
n'i
ni n'i
'
f
ri
,~ N~ N n~ ' '
l/
, = ;/=/
A, ,./
i-i
A" 1 = /
J
Af,,=,
l
'
/v/.//.i
A",=,
,-,
N ,.l
N i=l i=l
'V l.l
=l
'" '-'
V. Demostracin de (22):
y
,'
N ,=/ i.2
1
181
1 .,,
= T:X(yr2yy,+
y"M, =
5.,-
2yy,,+
v",II.=
/> ,./ /./
y i.i i,i
n
.i i.i
y
,.i .i
= o: - 2 y" + y" = a: - y = a02 - ai
VI. Demostracin de (23):
I p i
l p ,
m,, = Y^(x,-x)(yry)n = Y^(xyl-xyr^x, + xy)n, =
VH*
A ./
A' i.i
*>>.
A* ,./
N .
(*)
Ahora bien:
YHxiyn
m ,-i
a,, .
N
y, al ser independientes X e Y, en virtud de la proposicin 5.2, es
n, n,
i p
\( 1 4
= ~Hx,y' n,n,
N
Llevando este resultado al segundo miembro de (*), resulta:
mu =an-aioam=amaoraioam = 0, c.q.d.
ainam
CAPITULO 6
REGRESIN Y CORRELACIN
184
6.2. Regresin y correlacin
y-f (x)
1
El trmino regresin, que hoy usamos con un sentido de relacin entre variables estads
ticas, tiene su origen en un estudio que public Francis Galton en 1886. en el que. analizando la
estatura media de los esposos y la estatura media de los hijos, lleg a la conclusin de que hay una
tendencia a aproximarse (regresar) a la estatura media de la poblacin.
185
6.3. Mtodos de ajuste
Elegida la variable que se va a considerar independiente (X, por ejemplo), y dada
la nube de puntos (x,y.), i=1,2,..., p, j=1,2,...,q, se selecciona la funcin que mejor se
puede adaptar. Supongamos que sta viene dada en la forma
y=f(x,a,,a2,...,an)
donde a,,a2,...,an son n parmetros, que dependen del tipo de funcin y que han de ser
determinados.
A cada valor x de la variable independiente X le corresponden entonces dos
valores de la variable Y: uno es el valor y que le corresponde en la nube de puntos,
al que llamaremos observado o real, y otro y .', al que llamaremos terico, que se
obtiene de sustituir x en la funcin elegida:
y.'=f(x,a,,a,
a)
q'I
186
En esta expresin, habr
sumandos positivos y negativos,
que pueden compensarse unos
con otros, dando una suma pe
quea an cuando el ajuste no
sea bueno. Por ello, el mtodo
de mnimos cuadrados consiste
en determinar los parmetros
a,,a...,a
, tratando de hacer m12
n
nima la media ponderada de los
cuadrados de los residuos, es
decir, se trata de hacer mnima la
expresin
ai, a?,
;y M /=/
. ..aj\ a,.
/v M i-i
La condicin necesaria para que esta expresin sea mnima es que las derivadas
parciales de primer orden respecto de cada uno de los parmetros se anulen. De esta
manera se obtiene el siguiente sistema de ecuaciones lineales, llamadas normales,
cuya resolucin nos permite obtener los valores de los parmetros y, por tanto, la
expresin de la funcin ajustada:
ac
rvl
y =-2J2J[y,-f(x,.a,M:
1
\
aj\nf Ui =0
o ai
da2
dC
da
~~l
-2^^,-^x.01.02
on)\n,J\ = 0
187
6.4.1. Recta de regresin de Y
sobre X
De entre todas las rectas del
plano, tenemos que determinar la
que mejor se adapta a la nube de
puntos P de la distribucin.
Sea y=a+bx la ecuacin de la
recta. Nuestro problema consiste
en determinar los coeficientes a
y b, utilizando los datos (x,y ) que
nos proporciona la distribucin
Figuia 6.3: Recta de regresin de Y sobre X.
y sirvindonos del mtodo de
mnimos cuadrados.
Para simplificar, vamos a suponer que la variable estadstica (X,Y) toma los valores
(XrY,),(XY,) (XN,YN) con frecuencia 1.
A cada valor \ de la variable que hemos considerado independiente le correspon
den:
i) una ordenada y dada por la distribucin,
ii) un valor terico y', que sera la ordenada correspondiente a xi en la recta de
regresin, es decir, y '=a+bx .
Sea c^y-y. la diferencia entre ambos valores (desviacin vertical o residuo).
El mtodo de mnimos cuadrados consiste en determinar los coeficientes a y b de
la recta, haciendo mnima la suma ponderada de los cuadrados de los residuos c .
Se trata, por tanto, de hacer mnima la expresin
d)
C=t(y,-bx,-ar
(2)
Hemos de hacer mnima una funcin que depende de dos variables, a y b, lo cual
se consigue igualando a cero las derivadas parciales. No obstante, vamos a tratar de
determinar los parmetros a y b en el supuesto de que slo se tengan conocimientos
sobre funciones reales de una nica variable real.
Tratamos de buscar, para un valor b dado, el valor de a que hace mnimo a C.
Despus determinaremos b haciendo mnimo el mnimo parcial que hayamos obtenido
previamente.
Por tanto, supuesto b fijo, la expresin C depende de a, y, si posee algn mnimo,
ste debe ser una raz de
188
da
Ahora bien
dC
2 v
1 N
b f
te* -**-
= -2[y-x-a]
Entonces, haciendo -2[y-x-a] = 0, resulta \-bx-a = 0, de donde
(3)
v = bx + a
Esta expresin nos dice que el punto w^ v) pertenece a la recta, es decir, la recta
de regresin de Y sobre X pasa por el centro de gravedad G de la nube de puntos P .
La expresin (3) nos dice tambin que el mnimo de C se obtiene para el valor
a = v - bx . El mnimo parcial obtenido ser
I v
- - i
m = min C = J v,-bx,- v + bx ) =
N .i
= ^I[y,-v-^x,-x)]-'
Debemos encontrar ahora el valor de b que hace mnimo a m. Para ello, debe ser b
tal que
dm
Tb-
dm
2 .L,
-,r
- ,
1E--^lU-4y,-y-Mx,-x})
Igualando a cero, se tiene
2 .
N i.i
'
$Ax,-xyry)-bYAx,-xf = 0
La expresin entre corchetes debe, por tanto, anularse. Despejando b, en dicha
expresin, resulta
189
N 1, i
mu
,i/*-'*
Para este valor de b, se obtiene como valor de a:
- mua = y-bx= y-Tx
s\
Como la recta es y=bx+a, sustituyendo los valores hallados para a y b, se tiene
- mu -
mu
mn
y = y-rx+rx = T(x-x)+y
r,
s;
rt
de donde resulta
- mn
y-y = T(x-x)
si
(4)
= 7-
(5)
si
l p 1
D=!</?-So -*;/%=
N.)
Ni.i.i
190
(6)
I',x,y,
^^
^^
'&
X ' -
De la expresin de la recta de
regresin de X sobre Y se sigue que:
b.. =.
(7)
191
variable para un determinado valor de la otra, de modo que, si la recta de regresin de
Y sobre X tiene por ecuacin
y=a+bx
la prediccin del valor que tomar Y cuando X=xi vendr dada por
y,=a+bx.
Ejemplo 6. 1
Se han seleccionado al azar 15 alumnos de primer curso de Ciencias Qumicas,
cuyas calificaciones en Matemticas (X) y Fsica (Y) son:
Matemticas (X)
86678567787868
Fsica (Y)
63546446457656
ai=5;
a=35'53
02
01
s=0'96;
sy=1'09;
b\x =0'5714;
mn=0'5333
bxy=fr4444
192
XY
X2
8
8
6
6
7
8
5
6
7
7
8
7
8
6
8
4
6
3
5
4
6
4
4
6
4
5
7
6
5
6
32
48
18
30
28
48
2(1
24
42
28
64
48
36
49
64
25
36
3)
49
64
49
64
36
64
16
36
9
25
16
36
16
16
36
16
25
49
36
25
36
IOS
75
533
749
393
40
44
48
30
64
36
6.5. Correlacin
La correlacin hace referencia al grado de relacin entre dos variables. El problema
que se nos plantea es el de encontrar una medida que nos indique el grado de inten
sidad de la relacin entre variables.
En otras palabras, pretendemos hallar un valor que nos d una medida del grado
de ajuste de la curva a la nube de puntos.
Una manera de obtener esa medida es calculando la varianza de los residuos o
varianza residual:
(8)
En efecto, cuanto mayores sean las diferencias entre los valores observados y los
valores tericos de la variable dependiente, menor ser la intensidad de la relacin
entre las variables.
Se dar una dependencia funcional cuando todos los puntos de la nube caigan
sobre la grfica de la funcin ajustada, en cuyo caso la varianza residual ser nula.
193
6.5.1. Coeficiente de correlacin general de Pearson
La varianza residual, como medida del grado de dependencia entre dos variables,
presenta dos inconvenientes:
1 ) La unidad de medida no permite hacer comparaciones de la dependencia entre
grupos de variables.
2) Proporciona una medida inversa del grado de intensidad entre las variables: si la
varianza residual es grande, los puntos de la nube estn alejados de la curva ajustada
y, en consecuencia, la dependencia entre las variables ser pequea.
Estas dos dificultades se resuelven dividiendo la varianza residual por la varianza
marginal de la variable dependiente (Y), y restando este cociente de la unidad:
con lo cual el valor de la medida que se obtiene armoniza con el sentido de la correla
cin. A este ndice de la correlacin se le llama coeficiente de determinacin y se le
representa por R2:
S'n
R- = 1-
.').
si
Extrayendo la raz cuadrada del coeficiente de determinacin, se obtiene una medi
da adimensional, que es el coeficiente de correlacin general de Pearson, al que
representamos por R:
(10)
R-
iA
(11)
Si tenemos en cuenta que tanto la varianza residual como la varianza marginal son
no negativas, debe ser tambin \- R2 >0 y, por tanto R2 < / de donde se deduce que
-1<R<1
(12)
194
2. Si -1<R<0. la correlacin es negativa, siendo mayor la intensidad cuanto ms
se aproxima R a - 1 .
3. Si R=l R=-1, ser s^=0 y habr una relacin de dependencia funcional. En
ambos casos se dice que a correlacin es perfecta.
i) Si R=1. las dos variables vanan en el mismo sentido y la correlacin es positiva
perfecta.
ii) Si R=-1. las variables varan en sentidos opuestos y la correlacin es negativa
perfecta.
4. Si R=0, es s: =sj, luego no hay ningn tipo de dependencia, ya que la relacin
de Y con X no aporta ninguna explicacin sobre Y. Se dice entonces que no hay
correlacin o que las variables son incorreladas.
pr
Con el fin de simplificar los clculos, vamos a suponer una vez ms que la variable
estadstica (X,Y) toma los N valores (xi,y,) con frecuencia 1.
Tendremos
N i.il
* *
-..
s,
_. (Sny
Yt(yl-yf-2-^Jt(x,-xHyi-y)+ ~^ It(x,-xf
Sx
Entonces
St
Sx
Sx
Sx
195
Luego el coeficiente de correlacin lineal de Pearson tiene por expresin:
(13)
,,
(14)
SxS>
y- y = r(x-x)
(15)
x-x=r(y-y)
(16)
Sy
196
3) El valor absoluto de r seala la intensidad de la relacin. Irl=l indica una corre
lacin perfecta. Un valor absoluto de r grande (prximo a 1) indica una fuerte
correlacin.
4) El mayor valor de r es 1. en cuyo caso la varianza residual es cero, por lo que
todos los puntos de la nube estn sobre la recta. Se trata de correlacin positiva
perfecta.
5) El menor valor de r es -1, en cuyo caso la varianza residual es tambin nula, pero
ahora las pendientes son negativas. Se trata de correlacin perfecta, pero negativa.
La situacin de las rectas, cuando r=- 1 o r= 1 , es:
v 1V N
=/
( .V
N%x- Xx,
i.i
V'='
/
,V
( N
(17)
197
La demostracin de estas propiedades figura en el apndice al captulo 6.
A veces, los pares de valores no vienen dados con frecuencia absoluta igual a 1 .
Supongamos que se trata de una poblacin de N individuos, tal que la variable esta
dstica bidimensional (X ,Y ) toma n veces cada valor (x ,y ). donde
i=l,2 p seala las p modalidades del carcter X, y
j=l,2 q seala las q modalidades del carcter Y.
Entonces, si es n la frecuencia absoluta del par (X ,Y ), el coeficiente de correlacin lineal se puede calcular a partir de la expresin:
p
ir
\(i
<l-l
( V
III.
(18)
N^xin, - Z..x,n,
,-/
\.i
1.60
1,65
1,70
1,75
1.80
Peso (Y)
>
68
70
72
X2
Y:
XY
1.60
1,65
1.70
1.75
1.80
64
7()
72
2.%
2,72
2.89
3.06
3.24
4096
4356
4624
4900
5184
102.4
108.9
1 15.6
1 22.5
129.6
8.50
340
14.47
13160
(vS
579
198
Luego hay correlacin positiva perfecta entre la estatura y el peso.
SxSy
S,Sy
=0
10
13
16
17
4
7
0
4
12
2
4
0
0
0
0
0
0
0
0
0
0
0
0
0
7
4
4
4
9
3
0
4
4
0
0
199
se trata de obtener: 1 ) las ecuaciones de las rectas de regresin; 2) el coeficiente de
correlacin lineal de Pearson.
Solucin: Para mayor comodidad en los clculos, completemos la tabla de doble
entrada con las distribuciones marginales:
Y
X
10
13
1
2
3
4
5
6
3
0
0
0
0
4
7
0
0
7
4
3
9
4
4
9
3
0
4
12
2
4
0
22
32
32
16
17
"
4
4
0
0
0
0
0
0
0
0
10
20
20
20
20
10
100
Sern entonces:
350
_,
1450
12.25 = 2,25; s, = 1,5
1042
,
-, 11830
Y = ^rr = 0,42; s\ = am - Y' = rz^r - 108,5764 = 9,7236; s, = 3,1182
100
100
3647
= 36,47; in = a-XY = 36,47 - 36,47 = 0
an ,
100
Luego K=-jT = s
Las rectas de regresin son:
y-IO,42 = 0 y x-3,5=0
ni
200
2
5
3
1
4
2
4
3
1
5
201
Manuel es el alumno que mejor calificacin ha obtenido en Fsica. Aunque su
calificacin es mejor que la de Luis, no es posible saber, con los datos que proporcio
na el enunciado, si las calificaciones de Manuel y de Luis son prximas o no.
En este caso, para medir el grado de relacin, se utiliza el coeficiente de correla
cin gradual o de Spearman, rs, que viene dado por:
(19)
12
120
El valor obtenido, 0'9, es muy prximo a 1, lo que indica que los profesores han
dado calificaciones similares.
Un valor muy prximo a -1 habra indicado que los alumnos mejor calificados por
un profesor, seran los peor calificados por el otro.
202
asignamos a X los valores 0 y 1, se obtiene el coeficiente de correlacin biserial
puntual evaluando la expresin:
NlY,-N,lY
(20)
^/^[/vlr-d>f
siendo:
24 17
0101
8
100101101
31 24 16 25 30 31
17
14 16 20
16 24
16x192-9x321
183
*" = J9x7[,6x7245-32] =^6='2
El valor obtenido, 0'20, nos indica una correlacin muy dbil entre el sexo y la
aptitud para el idioma ingls.
6.6.3. Coeficiente 0
Si las dos variables son dicotmicas por su propia naturaleza, se utiliza el coefi
ciente <t>. cuyo fundamento se estudia en el captulo 15.
203
Supongamos que las variables dicotmicas admiten las dos modalidades A (acier
to) y E (error), y designemos por:
a=nmero de individuos con la modalidad A de X y la A de Y.
b=nmero de individuos con la modalidad E de X y la E de Y.
c=nmero de individuos con la modalidad A de X y la E de Y,
d=nmero de individuos con la modalidad E de X y la A de Y.
segn se recoge en la siguiente tabla
A
v
X
A
E
Y
|
a
d
c
b
<l>;
cd-ab
yj(a + c)(d + b)(a + d)(c + b)
(21)
Ejemplo 6.6
Supongamos que se realiza una prueba a 80 estudiantes con dos tandas de pre
guntas, y se pretende averiguar si existe correlacin entre las dos tandas de pregun
tas a la vista de las respuestas dadas por los estudiantes: 1 8 respondieron con acierto
a las dos tandas de preguntas. 16 contestaron errneamente a ambas, 20 respondieron
con acierto a la primera y errneamente a la segunda, y 26 respondieron errneamente
a la primera y con acierto a la segunda. El siguiente cuadro recoge los resultados:
i
A
E
'
18
26
20
16
204
6.6.4. Correlacin tetracrica o de atributos
Surgen, a veces, situaciones, en que, siendo continuas por su naturaleza las varia
bles, sus resultados se dan dicotomizados. Es ste el caso en que, tras someter a un
conjunto de personas a una serie de pruebas, se les asigna la calificacin final de
apto o no apto.
Cuando deseemos estudiar la relacin entre dos variables de naturaleza continua,
cuyos valores se han dicotomizado, si estamos interesados en la relacin existente
entre las variables representadas por los datos dicotomizados, se utiliza el coeficiente
de correlacin tetracrica o de atributos, que designamos por rr
La expresin de este coeficiente es muy compleja. Vamos a utilizar una expresin
que da una aproximacin bastante buena:
(22,
B
M
7
4
3
6
205
Solucin: Se debe utilizar el coeficiente de correlacin tetracrica. cuyo valor aproxi
mado es:
ISO
rT = eos
180
3,6 -
Este resultado indica una correlacin negativa muy dbil entre el peso de los
empleados y su forma de tratar al pblico.
I9K1
1982
1983
1984
1985
1986
1987
1988
Trabajadores
3,1
3.0
2,9
18
Z6
16
15
14
X:
1981
1982
1983
1984
1985
1986
1987
1988
3.1
3.0
19
2.8
2.6
2,6
15
2,4
3924361
3928324
3932289
3936256
3940225
3944186
3948169
3952144
15876
21'9
31505964
Y:
9,61
9.00
8.41
7.84
6,76
6,76
6,25
5.76
6039
XY
6141.1
5946,0
5750.7
5555.2
5161.0
5163.6
4%7.5
47712
434563
206
- 15876
,
-, 31505964
x = = 1984,5; sx = a20 - x =
3938240,3 = 5,25; sx = 2,29
S
- 21,9
-, 60.J9
v = = 2, 7375; j' = a, - y
7,4939 = 0,0548; sy = 0,23
8
8
43456,3
J/, =
= 5432,04; mu = a,i-awa0i = 5432,04 - 5432,57 = -0,53
8
mu -0,53
El coeficiente de regresin es p ,, = ~~r = . -. = -0, /
j,
5,25
y la recta de tendencia es, por tanto:
y -2,7375 = -0,l(x- 1984,5)
Previsin para el ao 2000:
y-2,7375 = -0,1(2000- 1984,5) = 2,7375-1,55 = 1,1875
Si la tendencia no vara, en el ao 2000, habr 1.187.500 trabajadores del sector
primario en Francia.
207
1 N
D = ^(ax-+bx,+c-yi)2
Derivando con respecto a las tres variables e igualando a cero, se tiene:
3D
da
2i
N^t
dD
2i
dD
i=l
-l
i=l
l-l
,V
i, l
=i
a,x + b^x, + cN = X y,
12
2'2
3'3
5'5
9'4
14'4
22' 1
Si se dibuja la nube de puntos, parece lgico ajustar una parbola. Vamos a cons
truir una tabla para facilitar los clculos:
208
X2
X3
1
2
3
4
5
6
2'2
9'4
14'4
22' 1
1
4
9
16
25
36
21
56'9
91
3'3
5'5
X4
XY
X**7
1
8
27
64
125
216
1
16
81
256
625
12%
2'2
6'6
16'5
37'6
72'0
132'6
2'2
13'2
49'5
150'4
360'0
795'6
441
2275
2675
1370'9
Se llega al sistema:
2275a + 441b + 91c = 1370 9
441a + 91b + 21c = 267 5
91a + 21b + 6c = 56'9
Resolvindolo, se obtiene: a=0' 789, b=- 1 ' 6 1 9 y c=3 ' 1 8
Luego la parbola ajustada es:
y=0'79xM'62x+3'18
u = rp
(23)
B)
u = kt"
(24)
\ogpu = \ogPr+bx\ogpp
de donde, si llamamos
de donde, si llamamos
y = logw, x = log, a = \ogk,
y = log/U, a = logpr,
resulta:
resulta:
y = a + bx
y = a + bx
(26)
(25)
con lo cual ambos problemas quedan reducidos al caso de regresin lineal, ya que las
ecuaciones (25) y (26) son las ecuaciones de una recta.
209
Se procede entonces de modo anlogo al caso de regresin lineal, con lo que se
obtienen los valores de a y b. Conocidos a y b, se determina la ecuacin (23) o (24) de
la funcin dada.
Para detectar cundo se deben utilizar estos tipos de curvas, conviene representar
la nube de puntos de las variables en un papel funcional.
As, cuando se trata de una relacin exponencial (u=rpbx), la nube de puntos es
lineal en papel semilogartmico. La transformacin adecuada es (X. logU).
En cambio, si la relacin es de tipo geomtrico (u=kth), la nube de puntos es lineal
en papel logartmico. La transformacin adecuada es (logT. logU).
Ejemplo 6.10
La siguiente tabla muestra los valores experimentales de la presin P (expresada en
kilogramos por centmetro cuadrado) de una masa de gas y los valores correspondien
tes del volumen que ocupa (expresados en centmetros cbicos):
Volumen(V) (cmJ)
950
1081
1267
1552
2075
2386
Presin(P) (Kg/cm2)
45
3.7
2.8
2.1
1,4
1.1
(*)
210
y = a + bx
1) Vamos a determinar la recta de mnimos cuadrados de Y sobre X; para ello,
disponemos los valores necesarios en la siguiente tabla:
X=logV
Y=logP
X2
Y:
XY
2.9777
3.0338
3,1027
3.1908
33170
3,3776
0.6532
05682
0.4471
0,3222
0.1461
0,0413
8.8666
92039
9,6267
10.1812
11.0024
11.4081
0.4266
03228
0.1998
0,1038
0.0213
0,0017
1.9450
1.7238
1,3872
1.0280
1.4846
0,1394
18.99%
2.1781
603892
1.0762
6,7082
18,9996
60,2892
= 3,1666; s\ = a:o-x'
6
2,1781
1.0762
0.3630; sl = a02-y =
y=
6
6,70)
au ,
mu
v,
-0.03143
0,0208
-1.51
139497
211
6.9. Ejercicios propuestos
6. 1 . Para los datos de los ejercicios 5. 1 y 5.2, 1 ) hallar la recta de regresin de Y sobre
X; 2) calcular el coeficiente de correlacin, dando una interpretacin del valor obteni
do.
6.2. Calcular el coeficiente de correlacin de las variables X e Y, cuyos valores estn
recogidos en la siguiente tabla:
X
12
24
20
12
10
6.3. Hallar la recta de regresin de Y sobre X y de X sobre Y para los datos del
ejercicio 5.12. Hacer una prediccin de los gastos superfluos que tendr una familia
cuyos gastos totales son de 85000 ptas.
6.4. El equipo directivo de un banco ha impartido un cursillo a 10 de sus agentes
encargados del servicio de promocin de nuevos clientes, evaluando al final el nivel
de aprovechamiento adquirido. Transcurrido un perodo de tiempo, se ha puntuado la
capacidad de captacin de nuevos clientes. La siguiente tabla recoge las puntuacio
nes de los 10 agentes en la evaluacin del cursillo junto con el baremo por su capaci
dad de captacin posterior:
Nivel cursillo (X)
19
13
25
16
22
12
10
15
17
20
16
20
80
77
74
71
69
68
68
65
63
212
6.6. Si, en el ejercicio 6.4, se multiplica cada valor de X por 3 y se le suma 8, y se
multiplica cada valor de Y por 4 y se le resta 1 0, hallar las desviaciones tpicas margi
nales, la covarianza y el coeficiente de correlacin de las nuevas variables. Comparar
el resultado obtenido con el que se obtuvo en el ejercicio 6.4., dando una explicacin
de lo ocurrido.
6.7. El coeficiente de correlacin entre dos variables X e Y es r=0'56, y se conocen las
medias, que son 12 y 24, respectivamente, as como las varianzas, que son sx2=3'6 y
sY2=2'5. Determinar las ecuaciones de las rectas de regresin de Y sobre X y de X
sobre Y.
6.8. Cien personas son sometidas a dos pruebas, una fsica y otra de tipo psicotcnico.
Veinticinco personas superaron correctamente ambas pruebas, veinte fallaron en las
dos, dieciocho superaron la prueba fsica y fallaron en la prueba psicotcnica, y
treinta y siete superaron la prueba psicotcnica y no pasaron la prueba fsica. Para
estudiar la correlacin entre ambas pruebas, qu coeficiente de correlacin se debe
usar? Calcularlo.
6.9. Con los datos del ejercicio 5.1 1, 1) ajustar la recta de regresin por el mtodo de
mnimos cuadrados y por el mtodo grfico; 2) hacer una estimacin del nmero de
bacterias que habr al cabo de 12 horas.
6.10. Las calificaciones en Estadstica de 12 alumnos, de los cuales 7 son varones y 5
mujeres, son:
Sexo
Calificacin
0-2
2-4
4-6
6-8
0-50
50-60
60-70
70-80
80-90
90-100
100-110
3
2
4
4
3
5
4
6
5
2
3
4
6
8
8
5
4
4
8-10
4
8
9
10
3
8
10
10
6
10
8
2
6
4
213
1 ) Hallar los coeficientes de regresin de Y sobre X y de X sobre Y. 2) Hallar el
coeficiente de correlacin.
6.12. Pensando que hay una cierta relacin entre el peso y las calificaciones, se han
clasificado los alumnos de una clase de 40 en gordos(G), si pesan ms de 50 kgs. y
delgados(D), si pesan menos, y en aplicados(A), si su calificacin supera el 5, y no
aplicados(N), en otro caso. Los resultados estn recogidos en la siguiente tabla:
G
12
10
11
C. Ievadura(g/1)
12
12
C. glucosa* g/1)
10
10
10
8'3 8'3
8'3
8'3
6'3
6'3
5'5
13
rio
5'5
10
Calificacin
214
6. 15. Para los datos del ejercicio 6. 1 3, representar la curva de regresin de crecimiento
de la concentracin de glucosa (Z), y estudiar el tipo de ajuste que conviene, hallando
la curva de regresin de Z sobre X.
6. 1 6. Para los datos del ejercicio 6. 1 1 , 1 ) determinar la recta de regresin de Y sobre X;
2) cunto se espera que dedique a transporte una familia que tiene unos ingresos
totales de 150000 ptas. al mes?
6.17. El mismo tipo de cultivo artificial y con los mismos datos iniciales del ejercicio
6.13, se llev a cabo en un fermentador, obtenindose los siguientes resultados para
la concentracin de glucosa:
Tiempo (horas)
C. glucosa(g/I)
2"5
3'1
5.2
8'6
14'2
21'0
29'4
X
6.18. Diez alumnos del Curso de Orientacin Universitaria han sido evaluados por sus
respectivos profesores de Matemticas y de Fsica, quienes han facilitado el listado
de los alumnos ordenados atendiendo a la calificacin, pero sin especificarla, siendo:
Nombres
Carlos
Luis
Juan
Jos
Matemticas
fi
10
Fsica
10
215
Apndice al captulo 6:
Demostracin de las propiedades del coeficiente de correlacin de Pearson
I. Llamemos m'n a la covarianza de X' e Y', y a'
respectivamente. Entonces:
i./
luego r =
m'n
acmu
mu
,
=
=
, c. q. d.
Sx-Sr asx cs, sxsr
II. Para demostrar esta propiedad, partimos del segundo miembro de la expresin
(13), y desarrollamos por separado numerador y denominador:
Desarrollando el numerador multiplicado por N, se obtiene:
,v
;=/
( N
, resulta
1>' I*
\ ,,yl
+ N
x, y,
N
N
(N
( N
NN
N
(N
I* X.v
lx,
)f
X*
lx,
N
lx,y,-2^
V"1
216
(N
N
Y
gXi
Ns.sy=N
Iv;- v=/A7 /
,v
I*
Lrf.
S.v,
S.v,
i=l
(=/
A7
Nm,i
N sKs,
/
a7
Multiplicando por
, , queda finalmente
y[N2
N
>
I.v,
,c.q.d.
N
(N
(N
\M
SEGUNDA PARTE
CAPITULO 7
PROBABILIDAD Y VARIABLE ALEATORIA
7. 1 . Experimentos aleatorios
Llamamos experimento a cualquier proceso que genera un conjunto de datos. En
numerosas ocasiones, los resultados de un experimento dependen del azar, no siendo
posible predecir el resultado que va a tener lugar antes de realizarse.
Un ejemplo tpico de experimento dependiente del azar es el lanzamiento de un
dado regular sobre el tablero de la mesa; el nmero que aparecer en la cara superior
del dado no puede predecirse.
Precisando algo ms. un experimento se dice aleatorio cuando se puede repetir en
las mismas condiciones, sus posibles resultados son conocidos previamente, y el
resultado de cada prueba depende del azar.
En un experimento aleatorio, no suele conocerse la poblacin directamente, sino
que se estudian sus propiedades a partir de una muestra representativa de la misma.
Un problema que se presenta frecuentemente en la investigacin cientfica es el de
tener que decidir a partir de los datos aportados por un experimento sobre la validez
o no de un planteamiento previamente establecido. Este podra ser el caso del peda
gogo que pretende averiguar si un nuevo mtodo de estudio mejora el rendimiento de
los alumnos a partir de una experiencia con un grupo.
Para ello, el investigador necesita establecer un postulado (hiptesis nula). Ante
este postulado inicial, plantea otro alternativo (hiptesis alternativa) y realiza una
prueba o experiencia con una muestra representativa de la poblacin.
A la vista del resultado de la prueba, el investigador tiene que decidir si acepta la
hiptesis nula o, por el contrario, la rechaza, aceptando en su lugar la hiptesis alter
nativa.
La decisin est basada en un conjunto de clculos que le proporcionan la probabi
lidad de obtener el resultado si se cumple la hiptesis nula. Cuando esta probabilidad, de
verificarse la hiptesis nula, es suficientemente pequea, se rechaza la hiptesis nula.
El concepto de probabilidad es la base que permite adoptar la decisin adecuada.
220
Si hay dos sucesos de un mismo experimento que no pueden tener lugar simul
tneamente, como es el caso de los sucesos P={ obtener nmero par} e I={ obtener nme
ro impar} cuando se lanza el dado, se dice que los sucesos PeI son incompatibles.
La interseccin de dos sucesos incompatibles, en principio, carece de sentido. Por
ello, se define el suceso imposible como aquel suceso que no puede tener lugar
nunca; de este tipo es el suceso obtener un nmero mayor que 6.
Representaremos al suceso imposible por el smbolo 0, y consideraremos que
forma parte de todo experimento. De esta forma, la interseccin de dos sucesos in
compatibles es el suceso imposible.
221
1.
2.
3.
4.
222
5. Cada operacin es distributiva respecto de la otra:
jMfinC)c(AuB)nUuC)
Sea x un suceso elemental cualquiera perteneciente al primer miembro:
xe Au(BnC)
Entonces, por la definicin de la unin de sucesos, se tiene:
xe Au(BnC) => xe A xe BnC
Si x e A => x e AuBv.r e AuC, y, por tanto xe (Aufi)n(AuC)
Si xe BnC => xe Byxe C, luego xe AuByxe AuC, y, por tanto
xe (AuB)n(AuC)
Demostremos ahora la relacin de contenido recproca:
(Aufi)n(AuC)cAu(finC)
Sea x un elemento cualquiera perteneciente al primer miembro:
xe (AuS)n(AuC)
Por la definicin de la interseccin, se tiene:
xe AuByxe AuC
Entonces, puede suceder que xe A, en cuyo caso jce Au(SnC), y estara de
mostrado, o bien xe A, en cuyo caso, como xe AuByxe AuC, se verifica que
xe Byxe C, y, por tanto, x e Au(BnC), lo que completa la demostracin.
223
7.2.2. Otras operaciones y relaciones entre sucesos
Diferencia de sucesos: La diferencia de dos sucesos A y B, que vamos a
representar por A-B, es el suceso que tiene lugar cuando se verifica A y no
tiene lugar B.
La diferencia de sucesos A-B se puede expresar en la forma:
A-B = AnB'
Utilizando un diagrama de Venn para representarlos grficamente, en la figura 7.1,
observamos cmo la diferencia A-B viene dada por los sucesos elementales de A que
no estn en B (zona rayada).
Cuando lanzamos el dado, si A={2, 4, 6} y B={ 1, 2, 4, 5}, es A-B={6}.
Diferencia simtrica: La diferencia simtrica de los sucesos A y B, que repre
sentamos por AAB, se define como el suceso que tiene lugar cuando se veri
fica uno slo de los dos A, B.
UA,=E
224
7.2.3. a-lgebra de sucesos
A una coleccin de sucesos le llamamos clase o familia de sucesos. Dado un
suceso C, la clase de todos los sucesos contenidos en C es llamada clase de las
partes de C, y se representa por P(C).
Sea U una clase de sucesos. Se dice que U es cerrada para una operacin * si se
verifica la siguiente condicin:
V A, e U => A,* A2* A*...e U
Se dice que U es cerrada para contrarios si
VA e U => A' e V
a-lgebra: La clase U es una a-lgebra si verifica las siguientes condiciones:
1. U es cerrada para la unin numerable.
2. U es cerrada para contrarios.
3. U contiene al suceso imposible.
El lgebra de Boole es un caso particular de a-lgebra, que slo exige que se cumpla
el primer axioma para la unin finita. La clase de las partes de C es una a-lgebra.
Con estas definiciones, es posible precisar algunos de los conceptos que hemos
introducido de una manera intuitiva.
Espacio muestral: Dado un experimento S, el espacio muestral asociado es un
par (E.U). donde E es el conjunto de todos los resultados posibles asociados
al experimento, y U es una a-lgebra de sucesos de E.
A los elementos de U se les llama sucesos, y a los elementos de E se les llama
puntos muestrales. Si un suceso est formado por un nico punto muestral, se le
llama suceso elemental.
Cuando hablamos de E como espacio muestral, estamos dando por supuesto que
E lleva asociada una clase de sucesos, que es una a-lgebra.
Los espacios muestrales pueden ser de tipo discreto o continuo, segn el nmero
de puntos muestrales que contengan.
Un espacio muestral se dice que es de tipo discreto si contiene, a lo sumo, una
infinidad numerable de puntos muestrales. La clase asociada es la clase de las partes
P(E).
Ejemplo 7.1
La medida del nmero de piezas defectuosas que produce una mquina es un
ejemplo de espacio muestral discreto, que est formado por el par (E,U), siendo
225
E={0.1,2,3,4,...}yU=P(E)
Un espacio muestral es de tipo continuo si contiene una infinidad no numerable
de puntos muestrales.
Ejemplo 7.2
La seleccin al azar de un punto del segmento [0,1] es un ejemplo de espacio
muestral continuo, que est formado por el par (E,U), donde
E = {xeyi\0<x<l}
lin un espacio muestral de Upo continuo, la a-lgebra no nene por que coincidir
con P(E).
Un caso particular de espacio muestral discreto se tiene cuando el nmero de
puntos muestrales es finito. Entonces se dice tambin que es de tipo finito. La clase
P(E) es un lgebra de Boole.
Ejemplo 7.3
El espacio muestral asociado al experimento consistente en lanzar una moneda al
aire y observar el resultado es un espacio muestral finito, que est formado por el par
(E,U), siendo:
E = {C.X} y U = P(E)= {0.C.X,{C,X}}
Para definir el espacio muestral de tipo finito, hemos podido hacerlo por exten
sin, es decir, enumerando todos y cada uno de los elementos que lo componen.
Cuando se trata de espacios muestrales no finitos, se suelen definir por comprensin,
es decir, enunciando una propiedad caracterstica de todos los puntos muestrales, tal
como acabamos de hacer en el ejemplo 7.3.
A veces, resulta interesante la descripcin de los puntos muestrales por medio de un
diagrama de rbol, lo que tambin resulta til para asignar probabilidades a los sucesos.
Ejemplo 7.4
A
/
/
*-
~-~
AA
AB
AB
^^ C
BC
Bx
- c
RC
Rx
'
^^
226
En la figura 7.3, se observa cmo las distintas trayectorias del diagrama de rbol
proporcionan los diferentes puntos muestrales.
=
n
ii
= + = f(A) + f(B)
n n
Estas propiedades que se dan entre las frecuencias de los sucesos aleatorios se
generalizan, dando lugar a la definicin axiomtica de la probabilidad, establecida por
Kolmogorov en 1933, cuyos axiomas son el fundamento del modelo matemtico gene
ralmente aceptado para estudiar las probabilidades.
227
(1)
m.P(E)=1.
(2)
0)
(4)
P(A\jA') = P(E) = 1
y, por el segundo axioma, al ser A y A' incompatibles,
P(AuA') = P(A) + P(A')
luego P(A)+P(A')=1, de donde resulta P(A')=1-P(A).
2. P(0) = 0
En efecto, 0 = ", y, por la propiedad 2, esP(0) = 1 - P(E) = 1-1 = 0
(5)
3.SiA,BeUyAczB^>P(A)<P(B)
(6)
En efecto, si A c B, B = A u {B - ) , siendo A y B-A incompatibles. Por el axioma
2, ser P(B) = P() + P(B - A) , y, como P(B-A)>0 por el primer axioma, debe ser
P(A)<P(B).
4. P(A)<1, cualquiera que sea A.
(7)
En efecto, cualquiera que sea A, A est contenido en E, luego P(A)<P(E)=1.
228
(8)
En efecto, el suceso AuB se puede poner como la unin de tres sucesos incom
patibles:
Aufi = (A- B)u(B- A)u(AnB)
de modo que
(*)
(9)
(10)
P(A) = ^P(a,)
(11)
229
P(E)=P{a}+P{a,}+...+P{a}=nP{a}=l
/
7r
donde k es el nmero de veces que se da el suceso A (casos favorables), en tanto que
n es el nmero de pruebas realizadas (casos posibles).
Podemos expresar la relacin anterior en la forma:
k n . de casos favorables
P(A) = - =
n
n . de casos posibles
(12)
Este resultado se conoce como regla de Laplace, y nos dice que la probabili
dad de un suceso es el cociente de dividir el nmero de casos favorables a dicho
suceso entre el nmero de casos posibles, siempre que los sucesos elementales se
puedan considerar todos con la misma probabilidad.
La regla de Laplace permite asignar probabilidades en una gran parte de las situa
ciones que se presentan: suele tratarse de espacios muestrales finitos, en que los
sucesos elementales son equiprobables.
Ejemplo 7.5
Consideremos el experimento consistente en lanzar una moneda trucada de tal
forma que la probabilidad de cara es el triple que la de cruz.
En este caso, no es aplicable la regla de Laplace, puesto que los sucesos elemen
tales no tienen la misma probabilidad. Ahora bien, si denotamos por C(cara) y X(cruz)
a los sucesos elementales, en virtud de la propiedad 7 de la probabilidad, se tiene:
P(C)+P(X)=1
230
Como P(C)=3P(X), ser 3P(X)+P(X)= 1 , y, por tanto 4P(X)= 1 , de donde
P(X)=l/4yP(C)=3/4
Ejemplo 7.6
Se selecciona una carta al azar de una baraja espaola. Describir el espacio
probabilstico, y hallar la probabilidad de que la carta seleccionada sea un rey.
1) El espacio muestral est formado por el par (E,U), donde E es el conjunto de las
cuarenta cartas que tiene la baraja, y U=P(E).
Todas las cartas de la baraja tienen la misma probabilidad de ser extradas, luego
podemos hacer uso de la regla de Laplace: 1/40 es la probabilidad de cada uno de los
sucesos elementales, lo que determina la funcin de probabilidad, y, por consiguiente,
el espacio probabilstico (E,U,P).
2) La probabilidad de obtener rey es
P(rey)=4/40=1/10,
ya que son 40 los casos posibles y 4 los favorables (el n de reyes de la baraja).
Determinar el nmero de puntos muestrales en un espacio probabilstico, para
aplicar la regla de Laplace, no siempre resulta fcil. Depender, en cada caso, de la
forma en que estn agrupados los puntos muestrales. La teora combinatoria1 se ocu
pa del estudio de los distintos tipos de agrupaciones que se pueden hacer con los
elementos de un conjunto.
231
La funcin de probabilidad estar determinada si se conocen las probabilidades de
los sucesos elementales. Se puede admitir que todos los sucesos elementales son
equiprobables, y, en consecuencia, aplicar la regla de Laplace.
El nmero de sucesos elementales es igual al de variaciones con repeticin de 2
elementos tomados de 3 en 3:
VR23=23=8
luego la probabilidad de cada uno de los sucesos elementales es
P(a)=l/8
2) Probabilidad de los sucesos A=obtener tres cruces, B=obtener una cruz,
C=obtener al menos una cruz y D=obtener ms cruces que caras:
El nmero de casos posibles a los cuatro sucesos es 8. Veamos los casos favora
bles a cada uno de los sucesos considerados:
i) hay 1 caso favorable al suceso A: XXX; luego
P(A)=l/8
ii) hay 3 casos favorables al suceso B: CCX, CXC y XCC; por lo tanto:
P(B)=3/8
iii) La probabilidad del suceso C, como sucede en general siempre que figura la
condicin al menos, se halla mejor pasando al suceso contrario, y utilizando la
primera de las propiedades de la probabilidad. As, el suceso contrario de C es C'=no
obtener ninguna cruz, para el que slo hay un caso favorable: CCC; luego:
P(C)=l-P(C')=l-1/8=7/8
iv) El suceso D se da cuando hay dos o ms cruces, por lo que son 4 los casos
favorables: CXX, XCX, XXC y XXX; la probabilidad es:
P(D)=4/8=l/2
Ejercicio 7.5.2
En una determinada ciudad se publican dos peridicos, P y Q. Se estima que, de la
poblacin adulta, el 54 por ciento lee P, el 30 por ciento lee Q y el 9 por ciento lee P y
Q. Hallar la probabilidad de que un ciudadano adulto cualquiera, elegido al azar: 1) lea
alguno de los peridicos; 2) no lea ninguno; 3) lea slo uno de los dos.
Solucin: Designemos por A al suceso ser lector de P y por B al suceso ser
lector de Q.
1) El suceso leer alguno de los peridicos es la unin de los sucesos A y B,
que, al no ser incompatibles, habr que utilizar la expresin (8) para hallar su probabi
lidad:
232
lectores.
luego
P(AnB)
P(A)
(13)
233
En efecto:
P(B,uB^../A) = P-
:
P(A)
-=
P(A)
.-^-J-=
Como Br B ... son incompatibles dos a dos, tambin lo son los sucesos
AnBi,AnB.. ... y, Por tanto, el ltimo miembro de la ltima igualdad anterior es
P(AnB,)+ P(AnB:)+...
P(A)
Enefecto,
P(AnB,) P(AnB:)
P(A) + P(A)
W^-^j- = = '
(14)
(15)
234
El suceso Ar\B es el suceso obtener dos bolas blancas. El nmero de casos
posibles es el de las combinaciones de 6 elementos tomados de 2 en 2, mientras que
los casos favorables son las combinaciones de 4 elementos tomados de 2 en 2; por lo
tanto
Cl 2
P(Ar\B) = Luego la probabilidad pedida es
P(B/A) =
P(AnB) cWcl
P(A) ~ 4/6
2/5
2/3
o
o
o
o
o
o
235
Propiedades
1 . Si B es independiente de A, P(AnB) = P(A)P(B)
En efecto, P(AnB) = P(A)P(B/A) = P(A)P(B)
al ser B independiente de A.
(16)
P(A'/B') - P(A'nB'J
P(B')
p[(A^B>'J ~ 1-AuB)
P(B')
P(B')
l-P(A)-P(B) + P(AnB)
P(B')
1-P(A)-P(B) + P(A)P(B)
P(B')
(1-P(A))(1-P(B))
P(A')P(B')
P(B')
P(B')
= P(A')
236
luego
P(B/A)-
(17)
P(A)P(B/A.)
(18)
P(A,/B),
^P(AJP(B/A.)
237
La expresin (17) se conoce como teorema de la probabilidad total, y la expre
sin ( 18) es el teorema de Bayes.
Las probabilidades P(A ) son llamadas probabilidades a priori o causas, las
probabilidades P(A/B) probabilidades a posteriori, y las probabilidades P(B/A)
verosimilitudes.
Demostracin:
I. P(B)= P(BnE) = p\Bn(KjA,)\=P[(Br\A,)v(BnA:KJ...]=
como los sucesos A, constituyen un sistema completo, son incompatibles dos a dos,
y, por tanto, los sucesos BnA, tambin son incompatibles dos a dos; luego, en virtud
del segundo axioma de la probabilidad, la expresin anterior es igual a
= P(Br\A,)+ P(Bn A: )+...= 5,P(BnA,)= P( A,)P(B / A,)
,-i
i-i
luego
P(A,)P(B/AJ
^
P(A^)p(B/A')
as o?
'
= 0'4
238
7.8. Variable estadstica y variable aleatoria
Cuando se lleva a cabo un experimento aleatorio, es interesante la construccin de
ciertas funciones numricas de sus resultados.
Si lanzamos dos monedas al aire, los posibles resultados estn formados por el
conjunto de los puntos muestrales
E={cc,c+,+c,++}
Sin embargo, nos interesa conocer, no el resultado en s de cada prueba, sino el
nmero de caras que resultan. As obtenemos la funcin numrica que a cada suceso
elemental le asigna un nmero:
X(cc)=2, X(c+)=1, X(+c)=1, X(++)=0
Si realizamos un cierto nmero de pruebas, el conjunto de los valores numricos
asignados a cada uno de los resultados del experimento, acompaados de sus fre
cuencias, es lo que constituye una distribucin estadstica de frecuencias, a cuyo
estudio hemos dedicado los seis primeros captulos.
Si suponemos una infinidad de pruebas del experimento, la infinidad de resultados
posibles, si stos son numricos, o una funcin numrica de los mismos, define una
variable asociada al experimento, que llamaremos variable aleatoria.
Adems, esta variable tomar esos posibles valores con unas probabilidades, que
corresponden a los valores lmites a que tienden las frecuencias cuando el nmero de
pruebas es muy grande.
De esta forma, mediante un proceso de abstraccin, que hay que precisar, pasa
mos de los conceptos de variable estadstica y frecuencia a los conceptos de variable
aleatoria y probabilidad.
El concepto de variable aleatoria permite definir determinadas funciones reales de
variable real, que conducen a modelos matemticos que se adaptan a los diversos
fenmenos aleatorios.
7.9. Concepto de variable aleatoria
Una variable aleatoria es una aplicacin que asocia a cada suceso elemental un
nmero real. Conviene definir este concepto con precisin, puesto que es la idea
fundamental que permite dar un tratamiento riguroso a los fenmenos aleatorios.
Variable aleatoria: Sea (E.U.P) un espacio probabilstico asociado a un expe
rimento aleatorio. Una variable aleatoria es una aplicacin X definida sobre E y
que toma valores en el conjunto de los nmeros reales
X:E->3\a -> X(a)e "R
si se verifica que v* e % el conjunto {a e E\ X(a) < x) e U
239
Ejemplo 7.10
Consideremos el experimento consistente en lanzar dos monedas al aire. El espacio
muestral est formado por el par (E,U). donde
E={cc,c+,-k:.++} y U=P(E)
La aplicacin que a cada suceso elemental le asocia el nmero de caras viene dada
por
X(cc)=2, X(c+)=1, X(+c)=l, X(++)=0
Veamos que se trata de una variable aleatoria. Para ello, tenemos que hallar las
imgenes recprocas de los intervalos de la forma (-oo,x], y comprobar que pertenecen
aU.
Sx<O.x/r.ooxy=0e{/.
240
tal que
(19)
241
Ejemplo 7.11
Consideremos, una vez ms, el experimento consistente en lanzar dos monedas.
Asociada a este experimento tenemos la variable aleatoria X, que hace corresponder a
cada suceso elemental el nmero de caras.
La distribucin est recogida en la siguiente tabla:
X
fx)
1/4
1/2
1/4
f . six <0
F(x) =
1
s0< x < 1
4
3
si 1 <x< 2
4
1. si x>2
242
-i-
f(x)>oyxe(X
(20)
^f(x)dx = /
(21)
3.
(22)
243
(23)
(24)
dF(x)
2. Si F(x) es derivable. f(x) =
(25)
1(1)5
244
La funcin de densidad es, por tanto
2/5(x+2). siO<x<l
0, resto
2) La funcin de distribucin se obtiene integrando f(x) en los distintos intervalos
en que est definida:
0. si x < 0
1 , 4
x' + x, si 0 < x < 1
F(x):
1, six>l
Observemos, una vez ms, el paralelismo con el estudio de la variable estadstica.
La grfica de la funcin de densidad (figura 7.9) corresponde a la curva de frecuen
cias, y la grfica de la funcin de distribucin (figura 7.10) corresponde a la curva
acumulativa de frecuencias u ojiva.
2 Este trmino tan expresivo para designar el valor medio se establece en los orgenes del
"Clculo de Probabilidades", hacia el sigo XVII. en que los juegos de azar eran el campo de
aplicacin de la Estadstica, y el inters del jugador se centraba en la "esperanza" de conseguir un
premio.
245
(26)
- 5>.
si X es discreta; y, si X es continua, es
(27)
\iX = E(X) = J xf(x)dx,
Se supone la convergencia absoluta de la serie y de la integral. Cuando no haya
lugar para la confusin, la esperanza matemtica de X se denotar por \i en lugar de
ux.
Veamos cmo la esperanza matemtica generaliza el concepto de media aritmtica.
Para ello, consideremos un experimento aleatorio en el que se han realizado n pruebas,
habindose obtenido n, veces el valor x,, n, veces el valor x,,..., nk veces el valor xk,
siendo n1+n,+...+nk=n.
Entonces, la media aritmtica ponderada es:
A =
11112
1)
E(X)=^xf(x) = 0-- + l-- + 2-- = - + - = l
Este resultado se interpreta en el siguiente sentido: si lanzamos dos monedas,
como promedio, obtendremos una cara cada vez.
2)
1 *x >
E(X)=)~xflx)dx = \'ox-(x + 2)dx=- l~3X+X
ir1!- 1
246
7.12.1. Esperanza de una funcin de una variable aleatoria
Sea (E,U,P) un espacio probabilstico, y sea X una variable aleatoria definida en l.
Consideremos la funcin real de una variable real /i:9 91 tal que la imagen de la
variable aleatoria X est contenida en el dominio de h.
Podemos hablar entonces de la funcin compuesta h-X=h(X), que es una aplica
cin de E en 9? tal que
(h-X)(a)=(h(X))(a)=h(X(a)), para a perteneciente a E.
Si la imagen inversa por h(X) de cualquier intervalo de la forma (-lx,,x] es un suceso
de U, h(X) ser una variable aleatoria. Una condicin suficiente para que h(X) sea una
variable aleatoria es que h sea uniforme y continua.
Dada una variable aleatoria X, si h(X) es una variable aleatoria, se puede hablar de
la esperanza matemtica de h(X):
Proposicin 7.2: Sea X una variable aleatoria con distribucin de probabilidad
f(x) y sea h(X) una variable aleatoria. Entonces la esperanza matemtica de
h(X) es
i.,v, = E[/iW] = 5>M/W,
(28)
si X es discreta; y, si X es continua, es
uM.J = E[h(X)] = '~h(x)f(x)d*
(29)
Ejemplo 7.14
Si, para la variable aleatoria X del ejemplo 7.12, definimos la funcin h(X)=2X+l, la
esperanza matemtica de esta nueva variable aleatoria ser:
V
2
2(i
,
31
E(2X + l) = ]o(2x+l)-(x + 2)dx = -)J2xr + 5x + 2)dx =
7.12.2. Propiedades de la esperanza matemtica
1. Sea X una variable aleatoria. Si las funciones de X, g(X) y h(X), son dos varia
bles aleatorias tales que existen E[g(X)] y E[h(X)], entonces existe tambin E[g(X)h(X)]
y es
E[g(X)h(X)]=E[g(X)]E[h(X)]
(30)
247
(31)
(32)
(33)
(34)
(35)
(36)
248
Tambin aqu se supone la convergencia absoluta de la serie y de la integral. Si no
hay lugar para la confusin, se escribe a2 en vez de ox2, para designar la varianza de X.
Desviacin tpica: La desviacin tpica de la variable aleatoria X, que se
representa por O ox, es la raz cuadrada positiva de la varianza de X.
Ejemplo 7.15
Las varianzas y desviaciones tpicas correspondientes a las variables aleatorias de
los ejemplos 7.10 y 7.12 son:
n
V"
1 1
1 1
,1111
i ri
a=r2'2
o =-
2)
7 , 14 , 208 2 128
o2 = Jx-\iff(x)dx = ^ 4X + 15 x ' 225 x + 225 X.
37
450
^=\\-^=0,28
\450
(37)
249
2. Sea X una variable aleatoria con distribucin de probabilidad f(x), y sea g(X)
una funcin de la variable aleatoria X. Entonces la varianza de la variable aleatoria
g(X) es:
(38)
(39)
Demostracin:
>
(40)
(41)
(42)
250
pica pequea corresponde a un rea comprimida alrededor de la media, mientras que a
una desviacin tpica grande le va a corresponder un rea ms expandida.
El teorema de Tchebycheff proporciona una relacin entre el valor de la desviacin
tpica y la fraccin de rea comprendida entre dos ordenadas simtricas respecto de la
media, lo cual es una razn poderosa para usar la desviacin tpica como medida de la
dispersin.
Teorema de Tchebycheff: La probabilidad de que una variable aleatoria X tome
un valor que diste de la media menos de k desviaciones tpicas, siendo k>0, es
al menos 1-l/k2 , esto es:
P(\-ha <X<\i+ko)>1-
k~
(43)
i*)
\i+ka
por ser J
(x-\iff[x)dx > 0-
a > t""(x - u f f(x)dx + ~Jx - u f f(x)dx > t^k'a f(x)dx + j^k'cr f(x)dx
Ahora bien, como
ttak2crf(x)dx + ^ k2crf(x)dx = k2a\ tkf(x)dx + t f(x)dx
251
resulta que
ct > k2a[tkflx)dx + i~koflx)dx]
P(\i-ko<X<\i+ka)Zl--j ,c1d.
En el caso particular en que k=2, 1-1/4=3/4, lo que significa que la probabilidad de
que X est en el intervalo (|i-2a, |i+2a) es al menos 3/4; en otras palabras, las tres
cuartas partes de las observaciones o quiz ms caen en el intervalo (u-2o, u+2a).
Si k=3, es 1-1/9=8/9. luego por lo menos los 8/9 de las observaciones estn en el
intervalo (u-3a, |i+3ct).
A pesar de todo, el teorema de Tchebycheff no es preciso; nos dice que la proba
bilidad de que una variable aleatoria caiga dentro del intervalo (|i-2a, |i+2a) no es
menor de 3/4, pero no nos dice cul es esa probabilidad.
Ejemplo 7.17
Una variable aleatoria X tiene de media u= 1 0 y como varianza a:=4, siendo desco
nocida su distribucin de probabilidad. Queremos hallar: 1) P(5<X<15); 2) P(IX-1I<3);
3)P(IX-10I>3).
Solucin: 1 ) Utilizando el teorema de Tchebycheff, tomando k=5/2, resulta:
5
5 "|
/
4
21
r= 1- =
P(5 < X < 15) = P 10-- 2< X <10 + - 2 \>12
2 )
(5/ 2 y
25 25
Luego P(5<X<15)>21/25.
< 3
3)45
2)p{\X-ia<3) = P(-3<X-10<3)=P(10-3<X<10+3)=P 10--.2<X<10+-.2\> /--=2
2
4 9
3
3)14
3) P(\X-10\>3) = 1- P{\X-10\<3) = 1- P 10--.2<X<10+-.2\<
;=2
2 ) (3/2 r 9
4
luego H\X-10\>3)<-
252
7. 1 5. Cambio de variable
Dada una variable aleatoria X con distribucin de probabilidad f(x), si Y=h(X) es
una variable aleatoria, tambin Y tiene una distribucin de probabilidad. El problema
de encontrar la distribucin de esta nueva variable lo vamos a tratar distinguiendo
dos situaciones posibles, segn se trate de una variable aleatoria discreta o continua.
(44)
En efecto: t(y)=P(Y=y)=P[X=g(y)]=f[g(y)]
Ejemplo 7.18
Tratamos de determinar la distribucin de Y=3X+1, siendo X la variable aleatoria
discreta dada por la siguiente tabla:
X
10
21
Rx)
0'3
O'l
0'6
19-1
P(X =6) = 0.3
3 )
253
31-l)
,P(X = 10)=0,1
g(3l) = P(Y=3l),
19
31
64
yi
0'3
O'l
0'6
(45)
Ejemplo 7.19
Sea X una variable aleatoria continua, cuya funcin de densidad es
/
flx) =
, si a < x < b
b -a
,u
/ --y
l/--7^3 b-a
/
si -3b < y < -3a
3(b-a)
254
7. 16. Momentos
Momento de orden r respecto de un punto: Sea X una variable aleatoria, r un
nmero natural y C un nmero real cualquiera. Se llama momento de orden r
respecto a C, y se denota por M (C) a la esperanza matemtica de (X-C)r, esto es:
M(C)=E[(X-Cfl
(46)
Mr(Q^(x-CfJ(x)
(47)
(48)
(49)
a, = xrf(x)dx
(50)
"r = I>-u/./W
(51)
(52)
255
Como casos particulares, estn:
u=l,u=0yn=ox
(53)
di
i =0
Esta proposicin nos indica que el momento de orden r respecto al origen coincide
con el valor de la derivada de orden r de Mx(t) en el punto t=0.
Ejemplo 7.20
Sea X una variable aleatoria con funcin generadora de momentos
Mx(t) = {pe +q)', donde 0<p<l, q=l-p, y n un nmero natural.
Vamos a hallar la media y la varianza.
1) La media es u=a =M'X(0)
M'x(t)=n(pe' + q)"' pe', luego M'x(0) = n(p + q)" p = np,
ya que p+q=1.
256
2) Para hallar la varianza. necesitamos la derivada segunda de la funcin generado
ra de momentos:
M"x(t)= np\e'(n-1)(pe' + q)
luego
y por tanto, ser:
pe' + (pe' + q) c\
M "x(0) = np[(n - 1 )p + /] = a:
7. 1 8. Ejercicios propuestos
7.1. Se selecciona una carta de una baraja de 52 cartas. Llamemos A al suceso obte
ner espadas y B al suceso obtener as. Calcular: P(A). P(B) y P(AnB)
7.2. Consideremos un dado cargado de tal forma que la probabilidad de que salga un
nmero es proporcional a dicho nmero.
1 ) Describir el espacio probabilstico. 2) Hallar la probabilidad de que salga un
nmero impar. 3) Hallar la probabilidad de que salga un nmero mayor que 2. 4) Hallar
la probabilidad de que salga un nmero impar mayor que 2.
7.3. De un lote que contiene 10 piezas, de las cuales cuatro tienen defecto, se extraen
dos al azar. Hallar la probabilidad de que:
1 ) las dos piezas tengan defecto; 2) ninguna de las dos piezas tenga defecto; 3) al
menos una de las piezas tenga defecto.
7.4. En una ciudad se publican 3 peridicos. A, B y C. Por una encuesta realizada, se
estima que, de las personas adultas, el 20% lee A, el 16% lee B, el 14% lee C, el 8% lee
A y B, el 5% lee A y C, el 4% lee B y C, y el 2% lee los tres peridicos.
1) Cul es el porcentaje de los que leen al menos uno de los tres peridicos?
2) Qu porcentaje no lee ningn peridico?
257
7.5. Sea E un espacio muestral que consta de tres puntos muestrales, E={a,,a,,a,}.
Averiguar si las funciones siguientes definen un espacio de probabilidades:
1) P(a,)=l/2, P(a>l/3, P(a,)=l/3.
2) P(a,)=l/2, P(a>-1/4, P(a,)=l/2.
3) P(a,)=l/3, P(a2)=l/3, P(a,)=l/3.
7.6. Se sacan tres cartas simultneamente de una baraja espaola. Hallar la probabili
dad de que:
1) las tres cartas sean reyes; 2) dos sean rey y otra caballo; 3) las tres cartas sean
de distinto palo.
7.7. Un experimento consiste en lanzar dos dados y anotar la suma de puntos de sus
caras superiores. Hallar la probabilidad de:
1) obtener una suma igual a 13; 2) obtener una suma igual a 10; 3) obtener suma
mayor que 5.
7.8. Una urna contiene 10 bolas blancas y 6 rojas. Si se extraen sucesivamente dos
bolas, hallar la probabilidad de que:
1) las dos bolas sean rojas; 2) la primera bola sea blanca y la segunda roja; 3) una
bola sea blanca y la otra roja.
7.9. En una facultad universitaria, el 30 por ciento de los estudiantes son extranjeros.
De ellos, el 20 por ciento disfrutan de beca. Tambin son becados el 10 por ciento de
los estudiantes nacionales. Hallar la probabilidad de que un estudiante elegido al azar
tenga beca.
7. 10. Tres matrimonios salen a cenar juntos. El camarero del restaurante les asigna un
puesto al azar en la mesa. Hallar la probabilidad de que:
1) se sienten juntas las mujeres; 2) coincida un matrimonio concreto; 3) no coinci
da un matrimonio concreto.
7.11. Un submarino dispone de 9 misiles, siendo 3/5 la probabilidad de hacer blanco
con uno cualquiera de ellos. Si lanza 5 misiles sobre un portaaviones, hallar la proba
bilidad de:
1) hacer blanco con dos misiles; 2) acertar al menos con uno.
7.12. Un experimento consiste en lanzar un dado y una moneda al aire. Hallar la
probabilidad de obtener:
1 ) cara en la moneda y 5 6 en el dado; 2) cara en la moneda y cualquier resultado
en el dado; 3) 1 , 2 3 en el dado y cualquier resultado en la moneda.
258
7.13. Dos urnas tienen las siguientes composiciones: la primera tiene 8 bolas azules, 6
blancas y 4 rojas, y la segunda tiene 12 azules, 6 blancas y 8 rojas. Se saca una bola
al azar de la primera urna y se traslada a la segunda. A continuacin se extrae una bola
al azar de la segunda urna, que resulta ser roja. Cul es la probabilidad de que la bola
que se traspas de la primera a la segunda urna sea azul?
7.14. Tres cazadores, disparando a la vez, matan un len, acertndole con dos impac
tos. La probabilidad de que el primer cazador haga blanco es de 5/6, la del segundo es
de 4/6 y la del tercer cazador es de 3/6. Cul es la probabilidad de que sean los dos
ltimos los que han acertado?
7.15. En una factora hay dos mquinas que fabrican la misma pieza. Se sabe que la
primera produce un 5% de las piezas con defecto, y la segunda un 6%. Un cierto da,
en que se han producido 100 piezas con la primera de las mquinas y 200 con la
segunda, se realiza una inspeccin, que consiste en elegir una pieza al azar.
1) Hallar la probabilidad de que la pieza elegida tenga defecto. 2) Si la pieza selec
cionada es defectuosa, cul es la probabilidad de que haya sido fabricada con la
primera de las mquinas?
7.16. Un vendedor llama al domicilio de una familia que tiene dos hijos. Le abre la
puerta uno de los hijos, que resulta ser varn. Cul es la probabilidad de que los dos
hijos sean varones?
7. 17. Carlos y Luis juegan una partida de dados. Comienza Carlos lanzando un dado,
luego lo lanza Luis, y se repite el proceso hasta que uno de los dos gana. Ganar
Carlos si sale un 2, sin haber salido 4, y ganar Luis si sale 4 sin que haya salido el 2.
Cul es la probabilidad de que gane Carlos?
7.18. Disponemos de 20 urnas, seis de las cuales tienen 3 bolas blancas y 6 rojas,
cinco tienen 4 blancas y 4 rojas, siete tienen 5 blancas y 5 rojas, y dos tienen 6
blancas y 4 rojas. Se elige una urna al azar y se saca una bola que resulta ser blanca.
Hallar la probabilidad de que la urna elegida tenga 5 bolas blancas y 5 rojas.
7.19. La distribucin de probabilidad de una variable aleatoria discreta viene dada por
la siguiente tabla
X
11
fU)
0'05
0'25
O'IO
0'30
OTO
0'20
259
7.20. La variable aleatoria X tiene como distribucin de probabilidad
f(x) = ~x,x=l,2
20
-10
x)
1/4
1/4
12
1/3
1/6
0, si x<2
I
F(X)--
x- 1, si 2 < x <4
1, six>4
- . si 0 < x < n
0, si x > n
260
7.26. Un juego consiste en sacar una carta de una baraja espaola, de modo que, si la
carta extrada es un caballo o un rey, el jugador percibe 500 ptas., y, si se trata de un
as o un tres, percibe 1000 ptas.; en cambio, si se extrae otra carta diferente de las
anteriores, el jugador tiene que pagar 400 ptas. Hallar: 1) la ganancia media esperada;
2) la varianza de la ganancia.
7.27. Una variable aleatoria, cuya distribucin de probabilidad es desconocida, tiene
como varianza s2=0'004. Determinar el valor que debe tener r para que se verifique que
P[\X-E(X)\<r]>0,9
7.28. Sea X una variable aleatoria, cuya distribucin de probabilidad viene dada por la
siguiente tabla:
X
ti/4
7t/2
3ji/4
Rx)
0'3
0'5
0'2
;x - 1, si 2 < x <4
F(x) =
1, six>4
Hallar: 1) P(X<0,3); 2) P(X<3); 3) P(X>5).
7.30. La variable aleatoria discreta X tiene como distribucin de probabilidad:
X
0.1
0.4
0.6
f(x)
0'2
0'3
0'5
261
Hallar: 1 ) El tiempo medio de espera; 2) la probabilidad de que un enfermo tenga
que esperar ms de 10 das.
7.32. La variable aleatoria discreta X tiene como distribucin de probabilidad:
X
fix)
O'l
0'3
0'6
CAPITULO 8
MODELOS DE DISTRIBUCIONES
8. 1 . Distribuciones probabilsticas
La necesidad de inferir los valores de los parmetros de una poblacin a partir de
una muestra exige el conocimiento de la distribucin de la muestra.
Algunas de estas muestras poseen una distribucin de frecuencias que se aproxi
ma a una de las distribuciones tericas mediante las cuales se describen ciertas pobla
ciones naturales.
A dichas poblaciones se les denomina poblaciones aleatorias, y son descritas
por medio de las distribuciones probabilsticas tericas que sirven de modelos para
numerosos fenmenos naturales.
Con frecuencia nos encontramos con muestras, cuyas observaciones, procedien
do de distintos experimentos, se comportan de igual forma. Las variables aleatorias a
que dan lugar dichas observaciones tienen idntica distribucin, por lo que se expre
san mediante la misma frmula.
En realidad, la mayora de las variables aleatorias que se dan en la prctica, pueden
ser descritas por medio de unas pocas distribuciones de probabilidad.
Analizaremos tres de las ms importantes distribuciones discretas: la distribucin
uniforme, la de Poisson y la binomial. Esta ltima se aplica siempre que aparecen sucesos
del tipo xito-fracaso, como sucede en el control de calidad de un proceso, curar-no
curar a un enfermo en Medicina, obtener cara-cruz al lanzar una moneda,...
Especial atencin merece la distribucin normal o de Gauss, modelo de distribu
cin continua al que se adaptan gran parte de los fenmenos empricos.
La distribucin normal es adems el fundamento sobre el que se construye la
Inferencia Estadstica, que nos va a permitir sacar conclusiones acerca de los parmetros
de la poblacin a partir de los datos de una muestra. Adems, la distribucin de
algunos estadsticos muestrales tiende a la normal cuando el tamao de la muestra es
suficientemente grande.
Otras distribuciones discretas y continuas pueden verse en el apndice B.
264
8.2. Distribuciones discretas
Una variable discreta X est determinada por su distribucin de probabilidad:
P(X = x,)=pi = l,2,...
que cumple la condicin
Una variable aleatoria discreta tambin queda determinada por su funcin de dis
tribucin:
F(x) = P(X < x)
xn
(1)
V- =
n ,/
y<f = 7.f
-n/
Demostracin:
U = E[X] = YjX.Uixiin) = x,- = -x
i.i
i.i n n,
(2)
265
i.I
n ,=i
Ejemplo 8.1
Consideremos el lanzamiento de un dado regular sobre el tablero. En este caso, la
probabilidad de cada uno de los resultados posibles es 1/6. Luego:
/
E[XJ = -(l + 2 + 3 + 4+5 + 6) = 3'5
6
a\ = -[(l-3'5f + (2-3'5f+...+(6-3'5f]= = 2'9I66
o
'12
8.2.2. Distribucin binomial
Consideremos un experimento aleatorio tal que cada vez que tiene lugar, pueden
darse dos resultados: A (al que llamaremos xito) o su contrario A' (fracaso), de modo
que la probabilidad de xito es:
P(A)=p
y la probabilidad de fracaso:
P(A')=q=l-p
permaneciendo invariables dichas probabilidades durante toda la experiencia.
Un experimento con estas caractersticas se conoce como experimento de Bernoulli.
Supongamos que se realizan dos pruebas consecutivas e independientes. Enton
ces el espacio muestral estar formado por los cuatro sucesos:
AA, AA, A A, A A
a los que corresponden, respectivamente, las probabilidades:
p2, pq, qp. q2
Si definimos la variable aleatoria
X= nmero de xitos en dos pruebas consecutivas
la distribucin de probabilidad de X viene dada por la siguiente tabla:
X
p,
q2
2pq
p2
266
Generalizando el experimento para n pruebas, tendremos el proceso de Bernoulli,
que se caracteriza por:
I. La realizacin de n pruebas sucesivas independientes.
II. Los resultados de cada una de las pruebas pueden ser calificados como xito o
fracaso.
III. La probabilidad de xito permanece constante para todas las pruebas.
La variable aleatoria
X= nmero de xitos en n pruebas consecutivas independientes
recibe el nombre de variable aleatoria binomial, y la distribucin de probabilidades
de esta variable aleatoria discreta es llamada distribucin binomial; la representare
mos por B(x;n,p).
El espacio muestral E se obtiene asignando los valores A y A' de todas las formas
posibles a las componentes de la n-upla (x,,x2,...,xn), lo que supone 2n elementos (varia
ciones con repeticin de dos elementos, A y A', tomados de n en n).
Al ser p la probabilidad de xito y q=l-p la probabilidad de fracaso en una prueba
particular, ser:
p'q"'
la probabilidad de un suceso de r xitos y n-r fracasos.
Ahora bien, el suceso obtener r xitos y n-r fracasos se puede dar de
n!
r!(n-r)!
formas distintas, que coinciden con las permutaciones con repeticin de n elementos
en que r son A y n-r son A':
AA...r.AAA\.."r.A'
La probabilidad de que X=r ser:
r!(n-r)!
(3)
267
(p + q)"=l
En efecto:
!(">,
ya que p+q=l.
La funcin de distribucin de la binomial ser
F(x) = P(X < x)
i("K'
L-L
~L
0
Figura 8.1:
12
0)23456789
)0
268
cuando se atiende al carcter tener alas vestigiales. La extraccin de n bolas conse
cutivas de una urna que contiene bolas de dos colores, cuando se extraen con reem
plazamiento, es otro ejemplo de distribucin binomial.
Proposicin 8.3: La media y la varianza de la distribucin binomial B(x ;n,p)
vienen dadas por
H =np y ct:=npq
(4)
Vr /
l(fjl
Derivando con respecto a t, se tiene:
dMy(t)
= n(pe'+q)" pe'
dt
d:Mx(t)
~' = np\e(pe +q) +(n- l)(pe +q] pe e'\
dt
I
u =np = 10-=25
b) la desviacin tpica:
a=Jn~p~q=JlO.-.-='875
c) la probabilidad de que
de alas vestigiales es
te haya menos de 3 moscas de
P(X < 3) - I x O'25'075' ' = tT5256
269
Estas probabilidades estn tabuladas para distintos valores de n y p. Ver tabla A. 1
del apndice A.
8.2.2.1. Ajuste de una distribucin de frecuencias por una binomial
Una variable estadstica puede satisfacer las condiciones para ser considerada
binomial. Sin embargo, su distribucin se separa del modelo terico a causa de las
fluctuaciones del muestreo, segn veremos en el prximo captulo.
Para que una distribucin emprica coincida con la distribucin terica, habra que
realizar infinitas experiencias.
Cuando una distribucin de frecuencias satisface las condiciones necesarias para
ser considerada binomial, la distribucin terica que mejor se ajusta es la que tiene la
misma media que la distribucin emprica.
Por ello, para efectuar el ajuste, se calcula la media de la distribucin emprica de
frecuencias, x, y se utiliza la binomial de parmetro p = xln, ya que la media de la
binomial B(n,p) es x = np.
Una cuestin importante es establecer una medida de la bondad del ajuste, pero
esta cuestin se aborda en el captulo 1 2.
Ejemplo 8.3
Consultados 100 grupos de 50 jvenes sobre el tema de la eutanasia activa, se
obtuvieron las siguientes respuestas:
N de jvenes favorables
10
11
13
14
16
17
18
19
N de grupos
13
14
25
16
12
Para ajustar la binomial. hay que identificar la media de la distribucin, que viene dada
por el cociente de dividir el nmero de jvenes ( 1 300) entre el nmero de grupos ( 1 00):
-A
1300
/00
luego 1 3 jvenes de cada 50 son favorables a la eutanasia activa por trmino medio.
Si suponemos que la probabilidad de que un joven sea partidario de la eutanasia
activa es p, como cada grupo de jvenes se compone de 50, se trata de una binomial
B(50,p), siendo
x 13
P=n =
50 = 0'26
Por tanto, admitimos que la opinin de los jvenes sobre el tema de la eutanasia
activa sigue una distribucin binomial B(50,0'26).
270
8.2.3. Distribucin de Poisson
Aquellos experimentos en que una variable aleatoria representa el nmero de su
cesos independientes que tienen lugar en un intervalo de tiempo dado o en una
regin especfica del espacio se conocen como experimentos de Poisson.
Un ejemplo tpico es el nmero de llamadas que atiende una central telefnica en
un cierto perodo de tiempo.
Otro ejemplo de experimento de Poisson es el nmero de partculas que emite una
porcin de material radioactivo.
Un experimento de Poisson viene caracterizado por cumplir las siguientes condi
ciones:
A) La probabilidad de que un suceso tenga lugar en un intervalo de tiempo o en una
regin es proporcional a la amplitud de dicho intervalo o regin.
B) El nmero de sucesos que tienen lugar en un intervalo o regin es independiente
del nmero de sucesos que tienen lugar en otro intervalo o regin.
Definicin 8.3: La variable aleatoria X que re presenta el nmero de sucesos
que tienen lugar en un intervalo de tiempo o en una regin especfica t. se
llama variable aleatoria de Poisson, cuya distribucin de probabilidad representaremos por
P(x;h) = P(X = x) = e
(5)
x! ,x = 0,1,2...
siendo A>0 una constante que representa el nmero promedio de resultados por uni
dad de tiempo o regin.
El nmero promedio de resultados se calcula a partir de u=Xj. donde t es el tiempo
o regin especfica, con lo que la distribucin de probabilidad es de la forma
x!
La variable aleatoria de Poisson tericamente puede tomar cualquier valor entero,
I ,.
0 1
2 3 4
01
3 45678
01234
56789
10
271
pero la probabilidad de que tome un valor alto disminuye rpidamente cuando x toma
un valor superior a \i.
Proposicin 8.4: La distribucin de Poisson es una distribucin de probabili
dad.
En efecto, veamos que ,P(X, HJ = 1
r
ili:
E(X)=pe^^=t^^ = ^p^^l
Haciendo y=x-1, se tiene la ltima igualdad, pues
(x-l)!
,.o
y!
Por lo tanto:
E(X)=\il=\l
Veamos ahora el clculo de la varianza. Para ello, utilizaremos la expresin
var(X) = E{x2)-[E(X)]2
(6)
272
Ahora bien
.*"
x=O
A>'
J-0
.*'
Como los dos primeros sumandos del anterior sumatorio son nulos, se tiene
con lo que
var(X) = U-) - [E(X)\ = u : + u - u * = H
Ejemplo 8.3
Se sabe que es 8 el nmero promedio de llamadas telefnicas que atiende una
central telefnica por minuto. Con los medios tcnicos de que dispone la central, se
pueden atender como mximo 12 llamadas por minuto, producindose una
sobresaturacin en la lnea si se sobrepasa dicho nmero. Hallar la probabilidad de
que, en un determinado minuto, haya sobresaturacin en las lneas.
Si representamos por X el nmero de llamadas que se reciben por minuto, se trata
de hallar:
P(X>12) = l-P(X<12) = l-Y Pfo*} = / - 0'9362 = 0'0638
En este ejemplo, la media de llamadas por minuto y la varianza valen 8. Utilizando
la desigualdad de Tchebycheff, podemos llegar a ver que, con una probabilidad de al
menos 0'75. el nmero de llamadas que se reciben por minuto est comprendido entre
)i-2o y n+2o. es decir, entre 2'34 y 13'65.
Luego las tres cuartas partes del tiempo, la central telefnica atiende entre 3 y 1 3
llamadas.
273
Cuando una distribucin de frecuencias cumple las condiciones que permiten con
siderar que sigue la ley de Poisson, la distribucin que mejor se ajusta es aquella que
tiene la misma media que la distribucin emprica.
Para efectuar el ajuste, se calcula la media de la distribucin emprica, y se utiliza la
distribucin de Poisson de parmetro igual a dicha media.
La distribucin de Poisson puede utilizarse para aproximar distribuciones binomiales
cuando la probabilidad p de xito es prxima a 0 y el nmero de pruebas muy grande.
La siguiente proposicin, cuya demostracin omitimos, establece las condiciones para
que la aproximacin sea buena.
Proposicin 8.6: Sea X una variable aleatoria con distribucin de probabilidad
B(x;n,p). Cuando n> p>0 y n=np permanece constante, se verifica
B(x;n,p)->P(x;u,)
(7)
274
Definicin 8.4: Una variable aleatoria X sigue una distribucin normal con
parmetros |i y o, siendo |i un nmero real cualquiera y o>0, cuando su fun
cin de densidad es
f(x) = p-FT , Vx 9?
oV27t
(8)
1)
f(x)>Oyxeft
2)
jfMdx = /
Demostracin
1 ) Que f(x)>0 es inmediato, ya que se trata de una funcin exponencial.
2) Veamos que se cumple la segunda condicin:
Si hacemos el cambio y =
x- M
1
, se tiene dv = dx, con lo cual
o
o
dz
dz
Luego
2 7 r
2 7 /
/ Jl\ 1 ,fix)dx = 72i
l e7dy = im
! z:e^dz - iz\ir
^rn - '
275
Para deducir la ltima igualdad, hemos utilizado la propiedad de la funcin matemtica P :
= Vrc
a
8.3.1. Propiedades
La funcin de densidad de una variable aleatoria X, cuya distribucin es normal
N(x;u,o), cumple las propiedades:
I. El dominio de f es todo el campo real y su imagen est contenida en el conjun
to de los nmeros reales positivos.
II. Es simtrica respecto de la recta x=|i.
III. Tiene una asntota horizontal, y=0.
/
IV Alcanza un mximo absoluto en el punto MoJJk
Y Es creciente en el intervalo (-,n) y decreciente en (n,-H!).
VI Posee dos puntos de inflexin en x=|i-a y x=|i+a.
VIL La funcin generatriz de momentos viene dada por
g(t) = em~2~yte'X
VIH. Los parmetros |i y o son, respectivamente, la media y la desviacin tpica de
la distribucin normal.
Pasamos la demostracin de las propiedades al apndice de este captulo.
276
el 100% de los individuos de la poblacin (si las frecuencias se expresan en porcenta
jes).
Si dibujamos dos curvas normales con la misma desviacin tpica, pero distintas
medias, |ll[ y u,2, las dos curvas tienen la misma forma, aunque estn situadas en
distintas posiciones con respecto al eje de abscisas: la primera centrada en \i y la
segunda centrada en uv
m=m
Figura 8.4: Curvas normales con la misma
varianza y distintas medias.
En cambio, dos curvas normales con la misma media y distintas varianzas estarn
situadas en la misma posicin sobre el eje de abscisas; la curva con mayor desviacin
tpica ser ms baja y dispersa. Esto es as, porque el rea bajo las dos curvas tiene
que ser igual a 1 .
La proporcin de la poblacin, cuyos valores estn comprendidos entre dos pun
tos x, y x2, es el rea bajo la curva y sobre el eje de abscisas comprendida entre las
ordenadas correspondientes a dichos puntos, que, en otras palabras, es la probabili
dad de que la variable aleatoria X tome cualquier valor entre x, y x,.
El clculo de dicha probabilidad o rea se realiza por medio de integrales definidas:
P(x,<X<x2)= f(x)dx
Estas integrales han sido tabuladas, pero es necesario tipificar la variable antes, ya
que los datos tabulados corresponden a la normal tipificada.
277
es tambin una variable aleatoria cuya distribucin es normal de parmetros |i=0 yo=1.
Al cambio de variable
Z=
X-u
a
f(z)=^e''yze*
(9)
278
F(z)= ]-=e'!dt,VzeX
(10)
Esta integral proporciona el rea que hay bajo la curva normal tipificada y sobre el
eje de abscisas en el intervalo (-,z\.
La funcin de distribucin da la probabilidad de que la variable tipificada Z tome
un valor menor o igual que z.
F(z) = P(Z<z)
La representacin grfica de la funcin de distribucin es la curva de distribucin.
Se trata de la curva
acumulativa de frecuencias, que
estudiamos en el captulo 1. que
es montona no decreciente, est
acotada entre 0 y 1 , y pasa por el
punto P(0, 1/2).
La funcin de distribucin ve
rifica la siguiente propiedad:
Figura 8.8: Cuna de distribucin de
la normal tipificada.
F(-z) = l-F(z),Vze 9?
(11)
279
Esta propiedad resulta evidente por
la simetra de la grfica de la funcin
de densidad de la normal tipificada.
Nos dice que el rea bajo la curva
de la normal tipificada a la izquierda
del valor -z es igual al rea que queda
a la derecha de z.
U-n\2
~dx
Esta rea depende de los valores de |i y o. La figura 8.10 nos muestra el rea bajo
dos curvas normales, N(x^^) y N(x;|i,,o\). comprendida entre dos valores x, y x,. Se
puede apreciar cmo las dos regiones son de distinto tamao.
Este resultado parece indicar la necesidad de elaborar infinitas tablas, una por
cada media y cada desviacin tpica, para calcular el rea comprendida entre los valo
res x, y xr
El siguiente resultado, sin embargo, nos va a permitir calcular el rea bajo una
curva normal cualquiera comprendida entre dos valores, por medio del rea bajo la
normal tipificada comprendida entre los valores transformados de los anteriores.
280
Proposicin 8.8: Sea X una variable aleatoria normal, cuya funcin de distri
bucin es Fx(x) y sea F?(z) la funcin de distribucin de la variable aleatoria
tipificada Z=(X-u.)/a. Entonces se verifica que
{x<x}Jz = ^<^.z
se deduce
Fx(x) = P(X<x)--
JLfj<fjQ
P(Z<z) = Fz(z)
Esta proposicin nos permite relacionar reas bajo una curva normal general con
reas bajo la normal tipificada.
En efecto, acabamos de demostrar la siguiente igualdad:
(12)
Por tanto, el rea bajo la curva normal general comprendida entre las ordenadas
x=a, y x=a2 es igual al rea bajo la curva normal tipificada comprendida entre sus
transformadas z=b y z=bv
f (z)
La distribucin normal N(z;0.1) est tabulada. Las tablas A. 3 del apndice propor
cionan el rea bajo la curva normal tipificada correspondiente a P(Z<z). La tabla A. 3.1
da reas para valores negativos de la variable, comenzando en -3 '49 y terminando en
281
0. La tabla A.3.2 proporciona reas
correspondientes a valores positivos
de la variable, comenzando en cero
y terminando en 3'49.
Para cada valor de z, las tablas
A. 3.1 y A.3.2 dan el rea desde el
comienzo de la curva hasta la orde
nada que corresponde a z.
As:
0,01
0,02
0,03
0,04
0,09
0,0
03000
03040
03080
03120
0.5160
0,5359
1,2
1.3
0,8849
0.90320
0.8869
0.90490
0,8888
0.90658
0,8907
0,90824
0,8925
0.90988
0.90147
0,91774
Ejemplo 8.5
Sabiendo que la variable aleatoria X sigue una distribucin normal de media u=10
y desviacin tpica a=2'5, vamos a calcular:
a) la probabilidad de que la variable aleatoria X tome un valor menor o igual que
12; b) la probabilidad de que X tome un valor comprendido entre 9 y 12; c) la proba
bilidad de que X sea mayor que 12.
Solucin: a) Para calcular P(X<12), tipificando la variable, resulta:
P(X < 12)
t 2'5
12-10'
: P(Z < 07}) = (Y7881
2'5
282
I x l
10
12
O'B
b)
P(9<X<12)=
P(X>12) = 1-P(X<12) = 1
X-10 12-10"
<
= /-P(Z<C8):
25 " 25
= 1-0'7881 = 0'2119
Ejemplo 8.6
Una empresa que tiene 2000 empleados paga a stos un salario cuya media es de
800 ptas. por hora de trabajo, con una desviacin tpica de 75 ptas.
Si los salarios estn distribuidos normalmente, se trata de hallar:
a) el porcentaje de empleados que cobra menos de 650 ptas. a la hora:
b) el porcentaje de empleados que ganan ms de 900 ptas. a la hora:
c) el porcentaje de empleados que ganan un salario comprendido entre 700 y 900
ptas. por hora de trabajo;
d) la probabilidad de que un empleado elegido al azar gane un salario inferior a 750
ptas. por hora de trabajo;
e) el nmero de empleados que ganan por debajo de las 750 ptas. a la hora;
f) el valor del salario por hora de trabajo, por encima del cual se encuentran el 20%
de los empleados que ms ganan.
Solucin: a) El porcentaje de empleados con salario inferior a 650 ptas. se obtiene
de multiplicar por 100 la probabilidad de que la variable aleatoria X tome un valor
menor o igual que 650.
Para calcular esta probabilidad, tenemos que tipificar la variable, haciendo
X-800
283
'X-800
con lo que
650 -800 a
P(X>900) = 1-P(X<900):
1-P\Z<
900-800
= 1-P(Z<'33).
75
1-0'9082 = 0'0918
P(700<X<900) =
(700-800
900-800
= p\
<z<
{
75
75
= P(-1'33 <Z< '33) = P(Z < 1'33)-P(Z < -1'33) = 0'9082 - 0'091 8 = 0'8164
lo que supone el 81% de los empleados.
d)
Z<
750-800]
= P(Z < -O'66) = 0'2546
75
284
O El valor, por encima del cual se encuentran el 20% de los empleados que ms
ganan, coincide con el valor por debajo del cual se encuentran el 80% de los emplea
dos que menos ganan.
Luego se trata de hallar, en primer lugar, el valor de la variable tipificada z, tal que
P(Z<z,)=0'80.
La tabla A. 3. 2 del apndice nos proporciona el valor z =0'84. Este valor correspon
de a la variable tipificada. Deshaciendo el cambio, resulta:
x,-800
84 =
de donde x =800+0" 84x75=863.
Luego el 20% de los empleados que ms ganan perciben un salario superior a 863
ptas. por cada hora de trabajo.
285
Cuando se realiza la aproximacin, hay que tener en cuenta que se est aproximan
do una variable discreta por una variable continua, lo que exige una correccin de
continuidad, que consiste en utilizar la siguiente igualdad:
P(a <X<b) = P(a-O'05 < X <b + 0'05)
(13)
Esta igualdad nos indica que, para calcular la probabilidad de que la variable
binomial tome valores enteros mayores o iguales que a y menores o iguales que b. se
aproxima por el rea bajo la normal comprendida entre a-0'5 y b+0'5, lo que supone
aadir la mitad de las reas de los rectngulos extremos, que, de otro modo, se perde
ran.
En el caso particular en que X tome un determinado valor entero r, la correccin de
continuidad viene dada por la igualdad (14). Se aproxima por el rea bajo la normal
comprendida entre los valores r-0'05 y r+0'05, que es una aproximacin del rea del
rectngulo cuya base est centrada en r.
P(X =r) = P(r-0'05 <X< r + 0'05)
(14)
Ejemplo 8.7
Una variable aleatoria X sigue una distribucin binomial B(x;n,p) con n=10 y p=0'4.
Veamos la aproximacin que se consigue con la normal, calculando las probabilidades
P(X=5) y P(3<X<6) mediante:
a) la tabla de la binomial;
b) la aproximacin por la normal.
Solucin:
Dibujaremos el histograma correspondiente a la binomial B(x;10,0'4), superponien
do despus la curva normal de media |i=np=4 y varianza o:=npq=2'4.
Esta grfica nos facilita una primera panormica de la bondad del ajuste.
286
a) Las tablas de la binomial nos proporcionan, para n=10, r=5 y p=0'4, el valor
0'2007.
Si aproximamos el valor de P(X=5) por la normal, hay que evaluar el rea bajo la
normal de media n=10x0'4=4 y varianza a2=10x0'4x0'6=2'4, comprendida entre los va
lores 4'5 y 5'5:
4'5-4
5'5-4)
P(4'5<X<5'5) = P\ <Z< =P((y32<Z <0'96) =
= P(Z < (Y96) - P(Z < (Y32) = (Y8315 - (y6255 = (72060
Se obtiene 0'2060, que es un valor muy prximo al valor 0'2007 que se obtuvo por
medio de la binomial.
b) Calculemos P(3<X<6), en primer lugar, por la binomial:
P(3<X<6)=0'21 50+0'2508+0'2007-tO' 1 1 15=0'7780
Utilizando la normal:
(25-4
6'5-4)
P(3<X<6) = P(2'5 <X<6'5) = f
<Z<
: P(-ff96 <Z< 1'61) :
l 1'55
1'55 ,
= P(Z < l'61)-P(Z<-ff96) = 0'9463-0'16S5 = 0'7778
Resulta as el valor 0'7778, que es prximo al valor que se obtuvo mediante la
binomial, 0'7780.
En el siguiente ejemplo, al ser n bastante grande, es preciso aproximar la binomial
por la normal.
Ejemplo 8.8
Un profesor decide hacer un examen en forma de test con un cuestionario de 100
preguntas. Cada pregunta va acompaada de 5 respuestas, de las cuales una sola es
la correcta.
El profesor est interesado en averiguar la probabilidad de que un alumno, que
responde eligiendo al azar una de las 5 respuestas, obtenga entre 10 y 30 respuestas
correctas.
Solucin:
Se trata de una distribucin binomial, donde el nmero de preguntas es n=100 y la
probabilidad de responder correctamente a cada una de las preguntas es p=l/5=0'2.
Al ser np=100x0'2=20>5 y nq=100x0'8=80>0, se puede aproximar por una normal
N(x;20,4).
Entonces
9'5-20
T0S -20'
P(10 < X <20)= P(9'5 < X < 2'05) = P\
<Z<
\ 4
4
287
288
1) Ajustar una distribucin binomial a la distribucin emprica observada. 2) Hallar
la probabilidad de que un da determinado se d un fallo, usando la distribucin
terica.
8.8. Se sabe que el 25% de los estudiantes de una universidad son fumadores. Se
selecciona al azar una muestra de ocho estudiantes. 1) Cuntos de ellos se espera
que sean fumadores? 2) Hallar la probabilidad de que ninguno sea fumador. 3) Hallar
la probabilidad de que tres sean fumadores.
8.9. Una factora del automviles adquiere 500 componentes para montar en sus co
ches. La empresa suministradora le comunica que uno de cada 100 componentes tiene
defecto. Calcular: 1 ) la probabilidad de que 5, 6 7 sean defectuosos; 2) la media y la
desviacin tpica de la variable X= nmero de componentes defectuosos; 3) los
extremos del intervalo entre los que se encuentran las 3/4 partes del nmero de com
ponentes defectuosos (utilizar la desigualdad de Tchebycheff); 4) la probabilidad co
rrespondiente al intervalo del apartado anterior.
8.10. De una urna, que contiene 15 bolas rojas y 20 blancas, se extraen seis bolas con
reemplazamiento. Si se define la variable X = nmero de bolas rojas extradas, 1)
qu distribucin sigue la variable X?; 2) cul es el nmero medio de bolas rojas
extradas?
8.11. La llegada de aviones a un aeropuerto sigue una distribucin de Poisson de
parmetro 1 '4. Hallar las probabilidades de los siguientes sucesos:
1 ) Que el nmero de aviones que lleguen sea mayor que cuatro.
2) Que lleguen entre tres y cinco aviones.
3) Que llegue algn avin.
8.12. Una mquina saca con defecto un 20% de las piezas que fabrica. Si se seleccio
nan seis piezas fabricadas por la mquina, hallar la probabilidad de que: 1 ) dos de ellas
tengan defecto; 2) tengan defecto ms de dos; 3) ninguna tenga defecto.
8.13. En un paquete de 25 lmparas hay tres que estn fundidas. Hallar la probabilidad
de que, al sacar 3 al azar, una al menos de las tres est fundida.
8.14. Dada una distribucin normal N(z;0,l), calcular las siguientes probabilidades:
1) P(Z<2'25); 2) P(Z>0'35); 3) P(Z<-1 '34); 4) P(Z2'28); 5) P(-1'5<Z<0,96)
8.15. Dada una distribucin normal N(x;l,2), calcular las siguientes probabilidades:
1)
289
8.16. Dada una distribucin normal N(z;0,l ), calcular el valor de a tal que:
1 ) P(Z<a)=0'9798
2) P(Z<a)=0' 1 762
3)P(0'34^<a)=0'1664
4) P(a<Z<r%)=0'6765
8.17. Una variable aleatoria X. que sigue una distribucin normal, es tal que
P(X>4)=0'3085 y P(X<7'5)=0'8944
Hallar su media y su desviacin tpica.
8.18. Se sabe que la estatura de los jvenes espaoles en edad de cumplir el servicio
militar sigue una distribucin normal de media 1 '69 m. y desviacin tpica 0'08 m. Si se
incorporan al ejrcito 10000 jvenes, hallar:
1 ) El nmero de reclutas cuya estatura est comprendida entre 1 '60 y 1 '70 cm.
2) El nmero de reclutas que miden menos de 1 '60 m.
3) El nmero de reclutas que miden ms de 1 '70 m.
8. 19. Se sabe que la talla de una poblacin de pigmeos se distribuye segn una normal
de media 1,35 y desviacin tpica 0'6. Hallar:
1 ) Entre qu valores en torno a la media de la poblacin se encontrarn el 80% de
los pigmeos.
2) La altura, por encima de la cual, se halla el 15% de los ms altos.
8.20. Si se lanza un dado 400 veces, cul es la probabilidad de que salga un 3 un 4
ms de 1 00 veces, pero menos de 1 30?
8.21. Un equipo de bilogos midi la longitud de 365 arbustos de una determinada
especie, obteniendo los siguientes resultados:
Longitud (cm.)
N arbustos
15-16
16-17
17-18
18-19
19-3)
31-21
21-22
22-13
23-24
24-15
15-26
26-27
17
22
59
78
62
53
34
20
290
Apndice al captulo 8:
Demostracin de las propiedades de la distribucin normal
I. Se trata de una funcin exponencial, que est definida para todo nmero real y
toma valores estrictamente positivos.
II. La simetra respecto de x=u resulta evidente, puesto que
f(u-x)=f(M+x)III. y=0 es una asntota horizontal, ya que mf(x) = 0
IV. La derivada primera es
1-5
f^i44*ffl-4.-
/ => (X - u Y = cr
de donde se deduce:
o
y, por tanto:
x - u = o y x - u = -o => x = u + o y x = u - o
291
luego los puntos de abscisa x=|i-s y x=|i+s pueden ser dos puntos de inflexin. Los
intervalos de concavidad y convexidad se obtienen fcilmente:
Si -<x<u-o, es f"(x)>0 y la curva es cncava,
si |i-o<x<|i+o, es f"(x)<0 y la curva es convexa,
si n+0<x<+, es f'(x)>0 y la curva es cncava.
Esto corrobora que en x=n~o y x=n+o hay dos puntos de inflexin.
VII. Por definicin, la funcin generatriz de momentos es
t vi 7)e"-^e~-^rdx
1
iV'rf
g(t)=E[e,x]=
Pero
~7=e -(z-aif
2 ' (or
? dz = el"e (or
-' "T
J ~7=]
g iz.ar
' e 2 d\ = I .
ya que J T
- \27t
VIII. Si utilizamos la funcin generatriz de momentos, resulta:
i)
g'(t) = e'--r(Vi+tdl)
Entonces E(X)=g'(0)=|i.
)
g'(t)=e,u-~h(\l+tat r + crV"*^
dz
TERCERA PARTE
ESTADSTICA INFERENCIAL
CAPITULO 9
INFERENCIA ESTADSTICA
9. 1 . Fundamento terico
Las poblaciones, con cuyos datos trabaja el estadstico, son habitualmente dema
siado amplias, de tal forma que no suele ser posible recoger la informacin de todos
sus elementos, ni siquiera de una parte importante de los mismos.
Incluso en poblaciones menos numerosas, la recogida de datos no siempre es
fcil, unas veces porque lo impide el coste de la propia toma de la informacin y otras
porque la informacin lleva consigo la destruccin de los individuos que la compo
nen.
Ante estas situaciones, el investigador puede optar por la seleccin de un
subconjunto de elementos de la poblacin (muestra), del que recopilar la informacin
que necesita.
El estadstico, por lo tanto, slo utiliza los datos que le proporciona la muestra
seleccionada, y, sin embargo, las conclusiones que obtiene deben ser vlidas para
toda la poblacin.
Conseguir las tcnicas necesarias para realizar inferencias acerca de una poblacin
completa a partir de los datos de una muestra de la misma es el objeto de la Estads
tica Inferencial, cuyo fundamento terico est basado en el modelo matemtico del
Clculo de Probabilidades.
9.2. Objetivos
La Estadstica Inferencial posee mltiples aplicaciones en todos los campos de la
investigacin, por lo que sus mtodos se describen de forma genrica.
En la prctica diaria, el investigador lo que desea es sacar conclusiones para toda
la poblacin a partir del conocimiento de una parte de la misma.
296
Ejemplo 9.1
Supongamos el caso de un fabricante de lmparas que quiere ensayar un nuevo
mtodo de produccin que supone una importante inversin econmica para su in
dustria.
Considera que dicho mtodo es interesante para la empresa si mejora la vida media
de las lmparas en un cierto nmero de horas. Para ello, tiene la posibilidad de expe
rimentar con una muestra de 60 lmparas elaboradas previamente segn los nuevos
criterios.
El inters del fabricante, en un principio, est en hacer una estimacin de la vida
media de todas las lmparas que vaya a producir a partir del resultado que le propor
cionarn las 60 lmparas de que dispone. La vida media de las lmparas de la muestra
de 60 le permite acceder a una primera estimacin de la vida media de la poblacin.
Pero a nuestro fabricante le gustara tener una idea ms precisa de la proximidad
entre el valor estimado y el valor real de la media de la poblacin; est interesado en
obtener un intervalo pequeo, que incluya el valor de la duracin media real de las
nuevas lmparas con una probabilidad alta.
Suponiendo que la muestra le proporciona una duracin media superior a la de las
lmparas que ya produce, sera muy interesante saber si la ganancia en horas obteni
da es una garanta que le permite concluir que las nuevas lmparas forman parte de
una poblacin cuya vida media es distinta de la vida media de la poblacin actual.
Estos objetivos se corresponden con las tres categoras de problemas que aborda
la Estadstica Inferencial:
A) La estimacin de los valores de los parmetros de la poblacin.
B) La determinacin de un conjunto de valores (suele ser un intervalo) con una
probabilidad alta, dada, de contener al verdadero valor del parmetro.
C) La evaluacin de ciertos resultados cuando se cumplen determinados valo
res de los parmetros de una poblacin.
El conjunto de mtodos utilizados para la estimacin de un parmetro de la pobla
cin a partir de la informacin que proporcionan los datos de la muestra constituye la
estimacin puntual.
La estimacin por intervalo da respuesta al segundo de los objetivos plantea
dos.
Estos dos mtodos son el objeto de la Estadstica Inferencial Inductiva, que
desarrolla tcnicas para la estimacin de los parmetros de la poblacin:
a) bien a partir de los datos de una muestra, proporcionando una medida de la
incertidumbre de la propia induccin, como actan los mtodos clsicos de esti
macin.
b) bien combinando la informacin muestral con una informacin previa, como
hacen los mtodos bayesianos.
La respuesta a la tercera de las alternativas la proporciona la "Estadstica Inferencial
297
Hipottico-Deductiva", que facilita procedimientos para aceptar o rechazar una hip
tesis, generalmente sobre un parmetro desconocido de la poblacin, dando una me
dida del posible error cometido.
Hemos de sealar tambin que, para que las conclusiones de la "Estadstica
Inferencial" sean vlidas, las muestras seleccionadas deben ser aleatorias y represen
tativas de la poblacin. La "Teora de Muestras" y el "Diseo de Experimentos" son
dos ramas de la "Estadstica" que tienen por objeto el estudio de la seleccin y
representatividad de las muestras.
Las consideraciones anteriores ponen de manifiesto la necesidad de introducirnos
en el conocimiento de algunas tcnicas basadas en estas disciplinas, que permiten
obtener las distribuciones muestrales de los estadsticos y encontrar una medida del
error debido al muestreo.
298
En el proceso de seleccin de una muestra, puede suceder que, una vez seleccio
nado y computado un elemento, ste sea devuelto a la poblacin, pudiendo ser selec
cionado de nuevo para formar parte de la misma muestra. En tal caso, se habla de
muestreo con reemplazamiento.
En cambio, si una vez seleccionado un elemento, no puede volver a formar parte
de la misma muestra, se habla de muestreo sin reemplazamiento.
Cuando utilizamos el mtodo de muestreo con reemplazamiento, el resultado de la
extraccin de cada elemento es independiente de los resultados anteriores. Adems,
en el muestreo con reemplazamiento, el nmero de individuos de la poblacin no se
acaba nunca, por lo que se puede dar el hecho de muestras con tamao mayor que el
nmero de individuos de la poblacin.
En poblaciones finitas, si el muestreo es sin reemplazamiento, el resultado de una
extraccin depende de los resultados de las anteriores.
299
La distribucin de probabilidad conjunta de la muestra, al ser las variables inde
pendientes, viene dada por
f(xx
x>f(x,)fiX)...fiX)
9.6. Estadstico
Sea (X,,X2,...,Xn) una muestra aleatoria simple. Si ahora, para cada muestra posible,
definimos una funcin numrica de sus datos:
l(X,,X2,...,Xn)
los valores as obtenidos junto con las probabilidades de obtener las respectivas
muestras constituyen una distribucin del estadstico 1 en el muestreo.
El estadstico 1(X .Xy...X ) es, por tanto, una variable aleatoria. A este estadstico
nos referamos en el apartado 1 .2.3, llamndolo entonces estadstico inferencial para
indicar que se trataba de un estadstico cuya funcin es la de inferir o estimar el valor
de algn parmetro de la poblacin; en adelante, le llamaremos estadstico solamente.
Si el estadstico 1 sirve para estimar el parmetro poblacional L, se dice que 1 es un
estimador' de L.
La notacin ms frecuente consiste en designar al parmetro de la poblacin por
una letra del alfabeto griego (n ser la media, O la desviacin tpica,...) y al estadstico
que se utiliza como estimador de dicho parmetro con la misma letra sobre la que se
coloca el acento circunflejo:
MT,...
central.
B) La cuasivarianza y la desviacin tpica muestral, como estimadores de los
parmetros de variabilidad.
Las definiciones de estos estadsticos coinciden con las que se dieron en los
primeros captulos para las caractersticas de una variable estadstica. Aparecen aho
ra, como novedad, la cuasivarianza y la desviacin tpica muestral.
1
Un estimador tambin recibe el nombre funcin de decisin, siendo la estimacin particular
la decisin que se toma.
300
J -
-/
%x]
(2)
i-i
n(n - )
Demostracin: Desarrollando el cuadrado, resulta:
s~ =
1 "
I "
:.x,-xf =
-Xx2,-2xxl + x:) =
n-li,
n-li.i
n
I n
jrf -2x^x, + nx:
n-1
14
Teniendo en cuenta que x - J,*,
si se multiplica y divide por n, se tiene:
"~
n,jn-n
Y.x-2nx~ + nx~ =
Mn-lKZ
n(n-l)
n^x,'- Xr
,.i
V.w
n(n-l)
3JM
9.7. Distribucin de los estimadores
La distribucin muestral del estadstico 1 (X,,X, Xn) depende de los parmetros
de la variable aleatoria poblacional X, y estos parmetros son generalmente descono
cidos.
Consideremos una poblacin cuya distribucin tiene de media |i, sea (X,,X ,...,X )
una muestra aleatoria de tamao n, y sea
-
X, + X2+... + X.
la media muestral.
Para cada muestra particular k, tenemos un valor particular de la media muestral
x + xi+... + x
x,=
n
Con estos valores j podemos construir una distribucin de frecuencias, con lo
que tendramos la distribucin muestral de la media.
Ejemplo 9.2
Consideremos el experimento aleatorio consistente en lanzar un dado sobre el
tablero y observar el nmero que aparece en su cara superior. Podemos admitir que la
probabilidad de cada uno de los seis sucesos posibles (obtener 1 . 2. 3, 4, 5, 6) es de
1/6.
Si imaginamos todos los pares de valores que se pueden obtener cuando realiza
mos dos lanzamientos independientes, tenemos definida la muestra (X^X,). Se trata
de una variable aleatoria bidimensional.
Cada uno de los pares de valores particulares obtenidos, por ejemplo (3.5). es una
realizacin de la muestra.
La variable aleatoria bidimensional (X|5X2) tiene una distribucin de probabilidad,
dada por los 36 sucesos elementales formados por todos los pares posibles:
E={(1,1),(1,2)
(1,6)
(6.6)}
todos ellos con probabilidad igual a 1/36, al ser independiente el resultado de cada
una de las pruebas, por tratarse de muestreo aleatorio.
Si consideramos la media muestral de los pares de valores obtenidos en cada
muestra, tenemos el estadstico
y Xl + X2
X=
2
Se trata de una variable aleatoria bidimensional. que puede tomar los valores 1;
1'5; 2; 2'5; 3; 3'5; 4; 4'5; 5; 5'5 y 6, cuyas probabilidades se pueden obtener a partir
de la distribucin de (X ,X,).
302
As, por ejemplo:
12
303
304
entonces poco probable un salto de 7'50 metros, pero mucho menos probable ser
obtener una muestra completa de 40 jvenes cuyo salto medio sea de 7'50 metros.
Es menos probable obtener un valor extremo de la media muestral que obtener el
mismo valor extremo en un salto particular.
Este razonamiento nos lleva a pensar que ser menor la dispersin de la media
muestral que la de la distribucin de la poblacin, disminuyendo la dispersin muestral
a medida que aumenta el tamao de la muestra.
El teorema central del lmite permite estimar la dispersin de la distribucin de las
medias muestrales a partir de una muestra.
Teorema central del lmite: Dada una poblacin de media \i y varianza finita
O2, la distribucin en el muestreo de la media tiende, cuando aumenta el tama
o n de la muestra, a la distribucin normal
(3)
VnJ
Por tanto, en las hiptesis del teorema1, la media muestral ser u- = u y la varianza
de la media muestral a-r =
n .
En la prctica, si n>30, se considera vlido el uso de este teorema. Cuando la
poblacin es normal, el teorema tambin es vlido para n<30.
La desviacin tpica de la media muestral proporciona una medida de la calidad de
la estimacin del parmetro; es igual a
a,--?v
(4)
a, --L
(5)
Vn
3 El teorema central del lmite es vlido en el caso discreto y en el caso continuo (slo exige
que la varianza sea finita), dependiendo el grado de aproximacin del tamao de la muestra y del
tipo de poblacin.
4 La mayora de los autores al error tpico estimado le llaman error tpico nicamente.
305
9. 1 2. Estimacin puntual
Las tcnicas para realizar inferencias acerca de los parmetros de la poblacin
estn basadas en el conocimiento de los diferentes estadsticos que se utilizan para
estimar dichos parmetros.
Los estadsticos son variables aleatorias que dependen de la muestra y que tienen
una distribucin de probabilidad, a la que hemos llamado distribucin muestral del
estadstico. Esta distribucin depende de la poblacin, del tipo de muestreo que se
realiza y del tamao de la muestra, segn acabamos de comprobar en el teorema
central del lmite.
306
3. La distribucin de ji es N
4. La distribucin de
i-|i
t= normal N(0. 1 ) cuando a es conocida.
o I yin
307
b) Z-
s/ Jn
c) (
Ejemplo 9.5
Los siguientes datos corresponden al nmero de flexiones que realizan 80 alumnos
de primero de Bachillerato elegidos al azar de entre los distintos centros de la provin
cia de Toledo. Suponiendo la normalidad de la caracterstica nmero de flexiones,
hacer una estimacin de la media y de la varianza de la poblacin de todos los alum
nos de la provincia.
N" flexiones
35
41
46
48
50
52
53
54
56
60
N alumnos
10
15
11
10
A) p es un estimador insesgado de p.
\ ri( I n )
pMi-v)
(6)
308
Ejemplo 9.6
Se han cruzado dos moscas Drosophila melanogaster, obtenindose 189 mos-cas, de las cuales 101 tienen los ojos blancos. Dar una estimacin de la proporcin de
moscas de ojos blancos para un gran nmero de cruces, as como de la desviacin
tpica de la distribucin muestral de la proporcin de moscas con ojos blancos.
Una estimacin de la proporcin ser:
A 101
-189-0'54
"
Propiedades:
1. |1 es un estimador insesgado de u.
2. \i es un estimador de mnima varianza, siendo o^J
(7)
Ejemplo 9.7
Se han llenado 95 cmaras de recuento con un cultivo bacteriano diluido,
obtenindose los nmeros de bacterias por cuadrcula que figuran en la siguiente
tabla. Sabiendo que sigue una distribucin de Poisson, hallar una estimacin del
parmetro.
309
Nmero de bacterias
10
11
Nmero de cmaras
(1
16
16
18
13
487
La estimacin es u>-jr=-=J'
13
O2
ni
ni
V
v
Entonces Z
X-Y-(\l,-\l2)
a,
a^
+
II I
(Si
II2
310
Entonces Z =
(?)
X - Y -( u - u )
,
'
es normal N(0, 1 ).
Si
S2
+
n,
ri2
ii) n +nn<30
En esta situacin, debemos considerar dos posibles alternativas, segn sean las
varianzas poblacionales desconocidas guales o distintas:
a) Varianzas iguales:
El estadstico f -
X-Y-(y*r\i2)
r~. j sigue una t de Student con n^n^-2 gl,
s +
V n, ri2
(10)
ni +n2-2
B) Varianzas distintas:
El estadstico Z =
X - Y - ( u - u ,)
,
~- sigue una t de Student con w gl,
II I
II2
( 2
Si
2Y
S2
\nl
"-V
siendo
(11)
f 2V
S,
n, + 1
( 'V
S
n2 + /
Ejemplo 9.8
Un laboratorio quiere determinar si dos mtodos de anlisis producen los mismos
resultados, lo que ser cierto si las medias de las determinaciones con los dos mto
dos son iguales. Para ello, se hacen 10 determinaciones con el primer mtodo y 12 con
el segundo de un mismo compuesto, obtenindose los siguientes resultados:
311
Primera muestra
Segunda muestra
8'1 8'2 8'2 8'3 8'4 8'4 8'5 8'5 8'5 87 8'8 8'9
Ejemplo 9.9
Un equipo de cardilogos trata de decidir sobre la eficacia de dos tipos de
marcapasos con el fin de establecer las pautas de revisin de sus pacientes.
Para ello, disponen de los resultados experimentales obtenidos a partir de sendas
312
muestras que han dado los siguientes resultados en cuanto al nmero de horas con
tinuadas de funcionamiento correcto:
Tamao
Media muestra!
Varianza muestral
Ia muestra
35
26500
2100
2a muestra
40
32760
2650
Para tomar una decisin, los cirujanos necesitan hacer una estimacin del cociente
de las varianzas de la poblacin.
Suponiendo que las dos poblaciones sean normales, una estimacin de la razn de
las varianzas viene dada por el cociente de las varianzas muestrales:
s) 2100
-, =
= 079
s\ 2650
9. 1 2.6. Estimadores de la diferencia de datos apareados
Consideremos ahora dos poblaciones dependientes en que las variables aleatorias
X e Y correspondientes a las modalidades del carcter en estudio estn distribuidas
normalmente, la primera con una distribucin normal N(u,,a ) y la segunda con una
distribucin normal N(u.,,a,). pero que no sean independientes.
Un ejemplo de uso frecuente es el caso en que se asignan pares de valores a los
mismos individuos, como puede ser la evaluacin de las reacciones de las mismas
personas antes(X) y despus(Y) de un cierto acontecimiento.
El estadstico / = =^ sigue una t de Student con n-1 gl.
siendo D = -d, , D = X - Y y 4 =
rXv0, ~d)'
(12)
Ejemplo 9.10
El candidato nmero uno de un determinado partido poltico desea conocer la
influencia del mensaje electoral que va a transmitir a travs de la televisin. Para ello,
selecciona una muestra aleatoria de 15 telespectadores de quienes solicita que evalen
de 0 a 100 el programa electoral de su partido antes de pronunciar el mensaje y
despus de hacerlo. Los resultados son:
Telespectadores
Punt. antes
l'iint. despus
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
48 56 65 60 43 28 62 39 70 29 31 57 51 18 54
41 59 70 60 49 50 50 50 75 15 40 57 60 30 61
313
Se trata de hacer una estimacin de la media de las diferencias de valoraciones, as
como de la desviacin tpica de la distribucin muestral de la media de dichas diferen
cias.
Al ser las puntuaciones apareadas tomadas del mismo sujeto, las muestras son
dependientes. Una estimacin de la media de las diferencias es
D
,D, = (-66)=-4'4
P2O-P2)
IIi
II .
N P,-P2.
(13)
es normal N(0,1).
Pi(l-Pt) P2(l-P2)
n,
Ejemplo 9.11
Para conocer la eficacia de una vacuna anticatarral, se suministra sta a una mues
tra aleatoria de 50 personas. Se observa que slo 4 de ellas se han acatarrado.
314
315
N de flexiones
35
41
45
46
48
50
52
53
54
56
60
N" de alumnos
10
15
11
10
316
En efecto, si tomamos a=0, el intervalo estar formado por la recta real completa,
pero no hemos conseguido informacin alguna; ya sabamos que el parmetro era un
nmero real.
Los valores ms usuales para a son a=0'05 a=0'01, siendo preferible el valor
0'05 que proporciona un intervalo de confianza del 95%; pero la eleccin depender,
en cada caso, de las necesidades y exigencias del investigador.
Una vez seleccionado el nivel de significacin a, hay que determinar a partir de la
distribucin del estadstico A, dos valores X y X , que dependen de a, tales que
P(X,<X<X2) = l-a
(14)
La construccin de un intervalo de confianza depende de la distribucin del esta
dstico y, por tanto, del parmetro.
Conviene aclarar, antes de continuar con el proceso, que, una vez seleccionada la
muestra y obtenido un intervalo particular, no tiene sentido decir que hay una proba
bilidad de que el intervalo particular cubra el verdadero valor del parmetro. El interva
lo particular es posible que cubra o no el verdadero valor del parmetro.
A/
Si elegimos un nivel de significacin a=0'05, tendremos que hallar dos valores Xi
y X2 tales que
P(Xi<Z<X2) = l-a
(15>
317
Ot/2.0025
a/2.0'02b
= l-a
o
a
-za/2-r<X-n<za/,^
V/I
/-a
-o
/-a
Multiplicando ahora por -1 cada uno de los trminos, se invierte el orden de las
desigualdades, resultando:
\n
= l-a
a ~
o 1
X ~ Zn /z ~7= , X + za 12 ~7=
(16)
Este intervalo es tal que contiene el valor del parmetro con una probabilidad igual
al-a.
Una vez realizado el experimento, para una muestra concreta, se obtiene un valor
particular de la media muestral xo.
318
Para este valor, se obtiene el intervalo no aleatorio
(17)
h
V'i
\rt.
y, como el tamao de la muestra es n=80, se tienen los datos necesarios para hallar un
intervalo confidencial:
2'75
2'75
4978 - 1'96 -r= < u < 4978 + 1'96 -=
y80
y80
4978 - 0'60 < n < 4978 + 0'60
49']8 < n < 50'38
El intervalo de confianza del 95% para la media del nmero de flexiones es
/ = [49'18.50'38J
que, al ser un intervalo particular, podr cubrir o no el verdadero valor del parmetro.
319
Distintas muestras darn diferentes valores de la media y, por tanto, darn lugar a
distintos intervalos de confianza. As pueden observarse los intervalos de la figura
9.3; todos ellos son de la misma amplitud, ya que sta depende nicamente del valor
crtico, una vez se ha fijado el tamao de la muestra.
Los centros de los intervalos sealan las diferentes estimaciones puntuales. No
todos los intervalos cubren el valor del parmetro.
tal que
Como t =
(18)
X-ti
X-ti
t=, sera P -ta/2< , r<ta/2 = /-c(
s/Vn
/=
(19)
320
Para una muestra particular, se tendrn los valores Xa y sa que darn lugar al
intervalo particular
Io =
Jlo-
~SoX-o-ta/2 ,X-o + ta/2 r~
(20)
Ejemplo 9.13
Se trata de hallar un intervalo de confianza del 95% para cubrir la vida media de
una poblacin de lmparas halgenas a partir de los resultados que se han obtenido
en una muestra de 20 lmparas, cuyos perodos de duracin (expresados en horas)
han sido:
480
436
345
451
427
466
386
394
432
422
429
412
378
507
440
433
434
480
503
429
Se supone que la duracin de las lmparas sigue una distribucin normal, pero se
desconocen la media y la varianza de la poblacin.
Como estimador de la media, se toma la media muestral, y, como estimador de la
varianza, la cuasivarianza. Calculando sus valores, resulta:
Yo = 434'2
so = 40'63
Si fijamos un nivel de significacin a=0'05, al ser n=20, la variable
s / yjn
sigue una distribucin de Student con 19 gl. El nivel a=0'05 proporciona en las tablas
un valor crtico t0,o2j=2'093.
El intervalo de confianza del 95% es, por lo tanto:
40'63
434'2 - 2'093
40'63
434'2 + 2'093
420
es decir:
I=[415'18,453'21]
Este intervalo puede cubrir o no el verdadero valor del parmetro (vida media de
las lmparas).
}2\
Tn
cuando la varianza de la poblacin o: es conocida.
La estimacin por intervalo de la media poblacional, en este caso, se basa en la
misma distribucin, obtenindose como lmites de confianza:
o v
o
V
v71
donde se puede observar cmo la amplitud del intervalo depende tambin del error
tpico de la media muestral.
En el caso de que la varianza de la poblacin sea desconocida, se acta de modo
similar, salvo que es necesario utilizar la cuasivarianza como estimador de la varianza
poblacional.
Entonces se toma como medida estimada de la precisin en la estimacin por
punto
s
y el intervalo tiene como lmites de confianza
yin
yin
y la amplitud del intervalo depende del error tpico (ahora estimado) de la distribucin
de la media muestral.
Hablando, por tanto, en sentido de amplitud, no se puede afirmar que el intervalo
de confianza proporcione mayor calidad que la estimacin por punto.
322
9. 16. Seleccin del tamao de la muestra
Una muestra pequea puede proporcionar resultados poco fiables, mientras que
una muestra grande puede resultar demasiado costosa. Por ello, en numerosas ocasio
nes, interesa determinar previamente el tamao de la muestra.
Se trata de determinar el tamao n que debe tener una muestra para que la distan
cia entre la media poblacional y la media muestral sea menor que un cierto valor e al
que llamaremos error.
Debe ser, por lo tanto
\X-\i\<e
o, lo que es equivalente
(21)
X-e< u <X+e
X-za/2-r<\i<X + za/2-r
Si igualamos los lmites de confianza a los lmites del intervalo, tenemos:
-
X-e
.X-Za,2-T
V/l
a
X+E =X + za/2
fn
de donde se obtiene
e =za/2-=
Despejando n en la igualdad anterior, resulta:
(22)
e
Ejemplo 9.14
El contenido en glucosa de los frutos de una determinada especie sigue una
distribucin normal, cuya varianza o2=0,2 es conocida. Cuntas observaciones son
necesarias para tener una confianza del 95% de que el error mximo cometido cuando
se estima la media poblacional por medio de la media muestral es 0' 1 ?
Solucin
Por tratarse de una distribucin normal, sabemos que, al ser l-a=0'95, es a=0'05,
y el valor crtico que proporciona la tabla de la normal N(0, 1 ) es z .= 1 '96. Luego
323
,
V2 a2 (1'96?0'2
-(**)
7^7 77
La muestra debe tener, por consiguiente, 77 elementos.
(n-l)s'
(23)
X =
p(xL,2<x2<x,2) = i-u
siendo Xa/2 el valor de la X ~ con n-1 gl. que deja un rea de ot/2 unidades a la derecha
y X ,.o^ el valor de la X ' con n-1 gl., que deja un rea de l-a/2 a la izquierda.
Sustituyendo el valor de X ' , resulta:
J 2
(n-l)s2
1-a
\
Si dividimos cada trmino de las desigualdades por (n-1)s2, al tratarse de una
cantidad positiva, se mantiene el orden de las mismas:
324
^ Xa/2
% l-a/2 >
Ejemplo 9.15
En una prueba efectuada a 25 animales de una determinada especie, cuya pobla
cin est distribuida normalmente, se obtuvo una media de 82 y una desviacin tpica
muestral de 0'85. Vamos a construir un intervalo de confianza del 90% para la varianza
de la poblacin.
Solucin:
La cuasivarianza es s2=0'852=0'7225
Entonces, para oc=0' 10, es a/2=0'05 y l-a/2=0'95.
Las tablas de la X ' para 24 gl y a=0'05, nos proporcionan los valores
%los.24 = 36'415 y Jw. = 1'3848
El intervalo de confianza para a2 vendr dado, por consiguiente por:
' 24 07225 24.0'7225\
(P'47,1'25)
36'415
13'848 )
Si extraemos las races cuadradas de los extremos del intervalo, se obtiene un
intervalo para la desviacin tpica a:
I
1 = {0'68,ril)
(25)
325
Este estadstico nos permite construir un intervalo de confianza para el cociente
de varianzas. En efecto, ser:
Gisl
= /-a
donde F2-a/2. r/. n2-, es el valor de la abscisa que deja a la izquierda un rea de aJ2, y
f
/7,n,-U,-l
Multiplicando cada uno de los trminos de las desigualdades por s22/s,2, e invirtiendo el sentido de stas, queda:
O]
i '
Si
1-a
<-7< .
^S2 r a/2.nrlMrl
^2 * I-a I2.nrl.nrl J
*'a/2,nr/,nr,
Fl-a/2.nrl.n2-l
( 2
5/
resulta
\S2 fa/2.nrl.n2-l
1-a
quedando finalmente como intervalo de confianza del (1-a) 100% para el cociente de
las varianzas a,/CJ2:
.
,,
(26)
$2 Fa/2.nrl.ni-1
/2,n -l,n -1
Ejemplo 9.16
Para probar el gasto de combustible de dos marcas de coches A y B, se seleccionan
al azar 9 coches de la marca A, que proporcionan una media de 18 km. recorridos por
326
cada litro de combustible, con una cuasivarianza de l'l km. por litro, y otros 12
coches de la marca B, que proporcionan una media de 15 km. recorridos por litro, con
una cuasivarianza de 2'9 km. por litro.
Si se supone que la distancia recorrida por cada litro de combustible sigue una
distribucin normal en ambas marcas, hallar un intervalo de confianza para el cociente
de varianzas.
Solucin: Si a=0' 10,
Fa/lnrlxrl = FffoS.S.u =2 95-1 Fa/2.n-l.n, I = Fffo5.II.K = 3 31
Entonces
sFov5.s.,i
2v
v-
2'9 2'95
1480
1610
1740
24
30
40
".
327
1 ) la probabilidad de que el peso total de los alumnos est comprendido entre 1960 y
2000 kgs.; 2) la probabilidad de que el peso total sea superior a 2000 kgs.
9.5. Una mquina produce 200 piezas diarias, siendo 0,2 la probabilidad de que una
pieza salga con defecto. Hallar: 1) la probabilidad de que 70 de las piezas fabricadas en
un da sean defectuosas; 2) la probabilidad de que las 3/4 partes de las piezas no
tengan defecto.
9.6. La calificacin media de los 2200 alumnos de Bioestadstica de una facultad de
Ciencias Biolgicas es de 5'5 puntos con una desviacin tpica de 2'3 puntos. Si se
selecciona una muestra aleatoria de 50 alumnos, hallar la probabilidad de que la media
muestral:
1) sea mayor o igual que 6; 2) sea menor o igual que 5; 3) est comprendida entre
5 y 6.
9.7. Una poblacin se compone de los nmeros 3, 4, 6, 8 y 10. Consideremos todas las
muestras posibles que se pueden formar de tamao 2, con reposicin. Hallar: 1) la
media y la desviacin tpica de la poblacin; 2) la media y la desviacin tpica de la
media en el muestreo.
9.8. Se ha medido la duracin (en horas) de 36 pilas producidas en una fbrica,
obtenindose los siguientes resultados:
13 19 12 16 13
3 10 7 10 18
7 8 15 16
5 13 6 10
7 19 27 10 4 10 15 7 5
7 13 7 9 13 22 18 25 14
328
9.12. Se sabe que los alumnos de la universidad A tienen un cociente de inteligencia
medio de 1 15, con una desviacin tpica de 5'2, mientras que los alumnos de la univer
sidad B tienen un cociente de inteligencia medio de 110, con una desviacin tpica de
3'6. Si se seleccionan al azar 40 alumnos de cada universidad, cul es la probabilidad
de que los alumnos seleccionados de la universidad A den un cociente de inteligencia
medio que supere en 6 puntos al de los alumnos de la universidad B?
9.13. Se extraen dos muestras aleatorias de tamaos 10 y 15, de dos poblaciones
distribuidas normalmente y con la misma varianza. Si s,2 es la cuasivarianza de la
primera muestra, y s,2 es la cuasivarianza de la segunda, hallar la probabilidad de que
el cociente de cuasivarianzas s^/s,2 sea menor que 5.
9.14. Un almacenista ha adquirido de una fbrica 100 lmparas, cuya duracin media
ha sido de 1000 horas. Sabiendo que la desviacin tpica de la produccin de lmparas
de la fbrica es de 40 horas, hallar un intervalo de confianza del 99% para la duracin
media de la poblacin.
9.15. Un cientfico est interesado en conocer la media poblacional de una variable
aleatoria a partir de una muestra extrada de la misma. Qu tamao debe tener la
muestra para que la probabilidad de que la media muestral difiera de la media de la
poblacin en ms del 20% de la desviacin tpica, sea 0'95?
9. 1 6. La calificacin media de una muestra aleatoria de 30 alumnos de primer curso de
una facultad es 5'2. Suponiendo una desviacin tpica poblacional a=0'7, encontrar
dos intervalos de confianza, uno del 95%, y otro del 99% que contengan la califica
cin media de todos los alumnos de primer curso.
9.17. Si se desea que la estimacin de la media poblacional difiera de sta en menos de
0'05, cul debe ser el tamao muestral para construir un intervalo de confianza del
95% para los datos del ejercicio 9.16?
9. 1 8. Una batera de campaa dispone de un aparato capaz de medir el alcance del
can con una desviacin tpica a=40 m. Se realizan 5 disparos en las mismas condi
ciones, obtenindose un alcance medio de 2000 m. Hallar un intervalo de confianza del
95% que contenga el alcance real del can en las condiciones dadas.
9. 19. Una muestra aleatoria de 100 automovilistas consultados por el servicio nacional
de trfico ha dado como resultado que un automvil recorre por trmino medio 1 6400
km. al ao con una desviacin tpica muestral de 2300 km. Hallar un intervalo de
confianza del 95% para el recorrido medio de un automvil en Espaa.
329
9.20. Cul debe ser el tamao de la muestra para el ejercicio anterior si se quiere tener
una confianza del 95% de que la media muestral difiera menos de 400 kilmetros de la
media real?
9.21. Suponiendo que la estatura media de los estudiantes de la universidad de CastillaLa Mancha est distribuida normalmente con media de 1 '71 m. y desviacin tpica de
0'35 m., hallar los lmites entre los que se encontrar la estatura del 90% de los
estudiantes de dicha universidad.
9.22. De una poblacin normalmente distribuida con desviacin tpica conocida o=3'5,
se quiere extraer una muestra. Qu tamao debe tener si la probabilidad de que la
media muestral diste de la media poblacional ms de 1 '5 debe ser igual a 0'05?
9.23. En un centro escolar, se sabe que el nmero de faltas de ortografa que cometen
los alumnos est distribuido normalmente. Se seleccionan dos muestras al azar, una de
8 alumnos de un grupo, y otra de 10 alumnos de otro grupo, a quienes se les hace un
dictado, que da los siguientes resultados:
Grupo 1
11
11
12
12
15
Grupo 2
11
11
11
11
13
13
14
CAPITULO 10
CONTRASTES DE HIPTESIS
332
Pueden presentarse dos situaciones:
1 ) La desviacin tpica o de la poblacin es conocida.
2) Se desconoce la desviacin tpica de la poblacin.
Un ejemplo sencillo nos va a servir para ilustrar la primera de las situaciones e ir
precisando, a la vez. los conceptos que intervienen en un contraste de hiptesis. Este
mismo ejemplo, con unas modificaciones, ser utilizado para ilustrar la segunda alter
nativa.
333
El significado de esta alternativa supone admitir que la diferencia entre el valor del
estimador y el valor del parmetro no se debe a un error de muestreo, sino a que la
hiptesis nula no es correcta. En otras palabras, si la hiptesis nula fuera correcta, se
habra producido un suceso suficientemente improbable como para rechazar dicha
hiptesis, lo cual supone admitir que la muestra seleccionada pertenece a otra pobla
cin con una media distinta de 4950.
//. Decisiones posibles:
Fijadas las hiptesis nula y alternativa, al fabricante de bateras se le ofrecen las
siguientes opciones:
A) Aceptar la hiptesis nula H :
Entonces puede suceder que:
1) La vida media de la nueva produccin sea 4950. Al aceptar Ho, el fabricante
habr procedido correctamente.
2) La vida media de la nueva produccin no sea 4950. Aceptando Ho, el fabri
cante habr cometido un error (error de tipo II), que ocasiona las prdidas que
suponen la inversin en una nueva patente ms el coste de adaptacin de la
maquinaria,...
Acepta H0
Decisin correcta
Error de tipo II
Rechaza Ho
Error de tipo I
Decisin correcta
334
///. Nivel de significacin
El problema se centra ahora en averiguar cundo se puede afirmar que el suceso
obtener un valor de la media muestral de 5025 siendo la media de la poblacin
u=4950 es suficientemente improbable.
Se utilizan diferentes criterios para medir cundo un suceso es suficientemente
improbable, dependiendo de la importancia que se quiera dar al riesgo de cometer un
error de tipo I. Se suelen establecer tres valores, que reciben el nombre de nivel de
significacin y que corresponden al valor de la probabilidad por debajo del cual un
suceso se considera suficientemente improbable:
1 ) a=0'005, y se dice que el resultado ha sido muy significativo.
2) a=0'05. y se dice que el resultado ha sido significativo.
3) a=0'01, y se dice que el resultado ha sido casi significativo.
El nivel de significacin especifica, por tanto, la probabilidad de cometer un
error de tipo I (rechazar la hiptesis nula, siendo cierta). Este nivel se fija previa
mente, teniendo en cuenta, en el momento de fijarlo, que cuando disminuye la
probabilidad de cometer un error de tipo I, aumenta la probabilidad de cometer un
error de tipo II1.
El nivel de significacin ms generalmente utilizado en la investigacin cientfica
es0'05.
Se debe aclarar que el criterio estadstico que ha llevado a tomar esta decisin no
garantiza que dicha decisin sea correcta, ya que una garanta total slo se tendra si
se pudieran probar todas las bateras que se van a producir. Cabe, segn sealamos
antes, la posibilidad de cometer un error que favorecera a la competencia.
Sin embargo, la Estadstica indica cul es el modo de tomar la mejor decisin sobre
una poblacin a partir de
los resultados obtenidos
en una muestra de la mis
ma.
Vamos a utilizar un ni
vel de significacin
a=0'05. con lo que, si se
ha de rechazar la hipte
sis nula, el resultado ser
significativo.
Las reas de rechazo
Figura 10.1: Colas o reas de rechazo.
de la hiptesis nula co
1
La probabilidad de cometer un error de tipo II no se fija previamente. Ser analizada
cuando se estudie la potencia de un contraste en el apartado 10.5.
335
rresponden a las dos colas de la figura 10.1. El rea de cada cola es a/2=0'025, y el rea
total de rechazo, tambin llamada regin crtica, es la suma de las reas de ambas colas:
0'025-tO'025=0'05
que es el valor del nivel de significacin elegido.
IV. Seleccin del estadstico adecuado
Para poder adoptar una decisin, se necesita conocer la distribucin del estadsti
co adecuado, que, en nuestro ejemplo, es la media muestral.
Sabemos que la media muestral X sigue una distribucin normal
.V
es normal N(0,1).
o/V
El conocimiento de la normal tipificada, cuyos valores lmites estn tabulados,
permitir encontrar la regin crtica o rea de rechazo, que llevar a rechazar la
hiptesis nula cuando el valor de la media muestral caiga en ella.
V. Determinacin del valor crtico
Si el valor de la variable tipificada Z obtenido se encuentra fuera del intervalo
(-1 '96, l'96), estar en el rea de rechazo.
En efecto, para un nivel de significacin a=0'05. hay un rea de 0'025 en cada una
de las colas de la normal N(0,1 ), lo que supone un rea de 0'975 a la izquierda del valor
correspondiente a la variable tipificada z , si dicho valor es positivo.
Para una probabilidad de 0'975 la tabla A.3.2 de la normal tipificada N(0, 1 ) propor
ciona un valor de la variable z/,= l'96, denominado valor crtico, ya que determina la
regin crtica, zona de rechazo de los valores de la variable tipificada. En nuestro
caso, la regin crtica, en virtud de la simetra de la grfica, est formada por los
valores Z menores de -1'96 o mayores de 1 '96.
336
VI. Decisin final
Volviendo al ejemplo de las bateras, para el valor de la media muestral 5025 y el
valor de la desviacin tpica poblacional ct=350, que se supone conocido, se obtiene
una estimacin de la variable tipificada:
Z=
X-u
5025-4950 75
=
= = 2 14
<3/4n 350/JW 35
337
en el clculo de la cuasivarianza slo vanan libremente n-1 valores, lo que significa
que son n-1 los grados de libertad.
La distribucin t de Student viene tabulada para diferentes grados de libertad
(tabla A.4 del apndice A); cada fila se refiere a una distribucin distinta, correspon
diente a un determinado nmero de grados de libertad.
Ejemplo 10.2
Consideremos la situacin planteada en el ejemplo 10.1, pero modificada en el
sentido de que el fabricante desconoce la desviacin tpica de la poblacin, y ahora
dispone de una muestra de 20 bateras elaboradas segn el nuevo proceso de produc
cin, que han sido probadas, dando unos perodos de duracin (en horas) de:
4917
5136
4948
5084
5082
4909
5105
4935
4865
5120
5068
4936
4935
5014
5090
5125
5045
4933
5080
5088
Con estos datos, los valores obtenidos para la media y la desviacin tpica
muestrales son:
X = 502075 Y s = 87'94
luego el error tpico de la media es:
S
87'94
a-x = -= = f = 87'94
4n
V20
Como la media de la poblacin establecida en la hiptesis nula es u=4950, ser:
t=
338
Contrastbamos H0 = \i =X0 con //, = u *Xn, lo que caracteriza a los tests de
hiptesis bilaterales.
El siguiente ejemplo plantea una situacin en que el investigador no est interesa
do en un contraste bilateral.
Ejemplo 10.3
Supongamos el caso de un profesor que pretende ver si mejora el rendimiento en
las calificaciones de sus alumnos despus de realizar una serie de prcticas con me
dios audiovisuales.
El profesor conoce la calificacin media de los alumnos en este tema, 55 puntos, y
piensa que la realizacin de las prcticas no puede rebajar la nota media, por lo que no
est dispuesto a realizar un contraste bilateral que le obligara a reservar la mitad de la
regin crtica (2,5% si utiliza un nivel a=0'05) para valores extremos menores que la
media y que son descartados por l.
Quiere, por lo tanto, dedicar toda la regin crtica al extremo superior, ya que est
convencido de que, con las prcticas audiovisuales, la calificacin media de sus alum
nos no puede bajar.
Se trata de contrastar la hiptesis nula Hn = \i < 55 con la hiptesis alternativa
H =\l > 55 al nivel de significacin a=0'05.
Vamos a considerar dos situaciones, segn sea el tamao de la muestra:
A) Muestras pequeas (n<30)
Si el tamao de la muestra
(nmero de alumnos) es 26, el
valor de la t de Student con 25 gl
que deja el 5% de las calificacio
nes medias por encima del valor
crtico, (es decir, en la cola supe
rior de la distribucin), corres
ponde al valor crtico
W=1'708
Luego la hiptesis nula ser
rechazada si la variable tipificada
Figura 10.3: Contraste unilateral (n<30).
339
De esta forma, resulta ms fcil rechazar la hiptesis nula para el profesor cuando
los resultados se producen en el sentido por l previsto, ya que un contraste bilateral
exigira un valor de t superior: t,5nn,5=2'060.
B) Muestras grandes (n>30)
Si el nmero de alumnos cali
ficados es mayor o igual que 30.
se puede utilizar la distribucin
normal. En este caso, el valor cr
tico para la variable tipificada
Z=
O /4
que deja el 57c de las calificacio
nes por encima corresponde al
valor
W1'
340
h(X,,X2
XJy \2(XhX2
X.)
tales que
Ph(X,,X2
XJ<X<X2(X,.X:
X)]>l-a
x),X2(xi,x2
xj)
2)//,= u=5050
4)H,= n=5300
Se puede realizar un nuevo contraste para cada uno de los valores, pero resulta
ms interesante y cmodo construir un intervalo de confianza y comprobar si cada
uno de estos valores hipotticos del parmetro caen dentro o fuera de dicho intervalo.
Para la construccin del intervalo, se parte de una muestra terica de 20 bateras.
Fijado un nivel de significacin cc=0'05, para 19 grados de libertad y un contraste
bilateral, la tabla de la t de Student proporciona un valor crtico ^=2'093, lo que
indica que el valor ms alejado de la media muestral con respecto a la media de la
poblacin es de -2'093 s/J hacia abajo y de 2'093 sl4n hacia arriba.
En efecto, al ser
341
los valores ms alejados inferior y superiormente se obtienen para:
-7093 = /Vn
r= y 7093 = s/yjn
4~n
Luego los lmites del intervalo son:
lmite inferior:
X-7093-=
lmite superior:
X + 7093-^
Figura 10.5: Intervalo de confianza del 95% para la vida media de bateras.
Este es un intervalo aleatorio tal que la probabilidad de que cubra el valor de la media
de la poblacin es 0'95. Ahora bien, el fabricante dispone de una nica muestra y, para
esa muestra particular, el valor de la media muestral es en el ejemplo que nos ocupa:
X=5020'75
y el valor de la desviacin tpica muestral:
so = 8794
So
= 1966
luego
420
y, por lo tanto, se tiene el intervalo particular
342
343
Resulta evidente que el inters del investigador, adems de trabajar con un nivel
de significacin pequeo, est en que el contraste tenga la mayor potencia posible, de
tal modo que se disponga de una probabilidad alta de que sea aceptada la hiptesis
alternativa (que es la hiptesis de trabajo), cuando sta sea correcta.
344
con una hiptesis alternativa especfica, en que se fija un valor concreto del parmetro,
como puede ser:
H,= n = li0+2
Como medida del grado de falsedad de la hiptesis nula se utiliza el ndice de
discrepancia, T, que proporciona una medida de la diferencia entre las hiptesis nula
y alternativa, y que se expresa como un valor tipificado.
r=do
siendo d = u - u0
El ndice de discrepancia seala la diferencia entre los valores postulados en las
hiptesis, medida en desviaciones tpicas.
Este factor Y est relacionado con las restantes variables que intervienen en la
determinacin de la potencia, de forma que, si se aumenta el ndice de discrepancia,
crece la potencia, ya que resulta ms probable rechazar la hiptesis nula cuando
aumenta el grado de falsedad.
Por otra parte, si se mantienen constantes el resto de los factores, cuanto mayor
sea el ndice de discrepancia, menor es el tamao de la muestra necesario para obtener
un contraste significativo.
En la prctica, a veces no resulta fcil determinar el ndice de discrepancia ms
adecuado; en estas situaciones, se toma algn valor convencional de modo similar a
la forma en que se procede para fijar el nivel de significacin. Los valores que habitualmente se toman en estas situaciones son especficos de cada prueba. En el con
traste de la media, se suelen tomar los valores: r=0'2, T=0'5 T=0'8, segn se desee
una potencia pequea, media o alta.
345
1 -B=P(rechazar Hn, cuando H, es verdadera)=
=P( rechazar Hn, cuando u=|i,)
Bajo las condiciones establecidas, ser:
7-(3= P{x>a, u = u,, + d)
o
donde a = un + z^ j=, siendo z el valor crtico correspondiente al nivel de significaV
cin a para una prueba unilateral.
Cuando tiene lugar la hiptesis alternativa, la variable
X-(\i+d)
z=
a/V
sigue una distribucin normal tipificada N(z;0,l).
Entonces, la probabilidad de cometer error de tipo II es:
X-(\i+d)
P= P(x >a, u = uo + d)= P
J
a-(\l+d)
p\z<
a-(&,+d)
^,\i= \+d
a-\l
d
H-llg+tl -
/Vn
= P Z<za-
H = |i +
(li
o/Vn
De ( 1 ) se deduce que
(2)
"P ~ <Kt
a / 4
de donde se obtiene
2a +;
(3)
~Zp - Za
a / 4
de donde resulta
, /r + z =-V
(5)
Las ecuaciones (3) y (5) relacionan los errores de tipo I y de tipo II con el tamao
de la muestra y la distancia entre los valores del parmetro en la hiptesis nula y en la
hiptesis alternativa especfica.
346
y - ,
(6)
El factor de equilibrio coincide con el primer miembro de las expresiones (3) (5),
segn el tipo de prueba:
(7)
: Za /2 + Zp
(S)
347
El ndice de discrepancia, que mide la diferencia entre los valores del parmetro en
ambas hiptesis, viene dado en unidades de desviacin tpica. As, en la prueba
anterior:
r=d/a
La funcin f(n) depende del papel que n desempea en la expresin del error tpico
del estadstico que se utiliza para cada prueba. En el contraste anterior:
fin) = 4n~
Ejemplo 10.5
Supongamos que el fabricante de bateras de los ejemplos anteriores desea con
trastar la hiptesis nula H,=|i=4950 con la hiptesis alternativa especfica H =u=5000,
siendo u la media de una poblacin cuya desviacin tpica o=350 es conocida. Se trata
de hallar la potencia del contraste si el tamao de la muestra es n=100.
Solucin: Si tomamos a=0'05, es z a/2, =1 '96,' Jy
50
,u =n+d\=P Z>1'96-/4n~
350 /V 100 )
/-(3
Z>:
5= r-fin) = yf-
50
1100 = 1'42
350 '
Para 8=1 '42, a=0'05 y una prueba bilateral, la tabla A.7 proporciona, para la poten
cia, un valor de 0'3, que coincide con el resultado que acabamos de obtener.
Si se quiere una mayor potencia, habr que modificar alguna de las variables. As,
348
aumentando el tamao de la
muestra, aumentara la poten
cia del contraste.
En cambio, la potencia
disminuye si, manteniendo fi
jas las restantes variables,
tomamos un valor especfico
de la hiptesis alternativa ms
prximo al valor del parmetro
de la hiptesis nula, 4950,
como puede ser u=4975.
La hiptesis alternativa es
ahora:
Rechazo
r=
25
350
= = O'o7
y, por tanto
8 = Vf(n) = ff074wb = &7
Si o=0'7, para una prueba bilateral y un nivel de significacin a=0'05, la tabla A.7
proporciona un valor de la potencia
1-B=0'11
Observamos cmo, al acercarnos al valor real del parmetro, la potencia disminu
ye, mientras que la probabilidad de error de tipo II aumenta:
B=1-011=0'89
349
correspondiente a la hiptesis
nula y a el nivel de significacin.
Cuanto ms se aproxima el valor
especfico del parmetro en la
hiptesis alternativa al valor de
la hiptesis nula, mayor es el
error de tipo II y, en consecuen
cia, menor es la potencia. Para
un contraste bilateral, la poten
|J = Ho
cia es simtrica respecto de la
recta u=H0 y alcanza su valor
Figura 10.10: Curva de potencia.
mnimo para 1-P=^,.
Para el nivel de significacin prefijado a=0'05 y muestras de tamao 100, si con
trastamos diferentes pares de
valores, obtendremos distin
tos puntos, cuya representa
cin grfica nos dar la po
tencia correspondiente a
n=100ya=0'05.
Si trazamos las curvas de
potencia de un contraste para
diferentes valores de n, stas
se van cerrando segn au
menta n, ya que la potencia
aumenta al aumentar el tama
o de la muestra.
350
mente el tamao de la muestra. Por otra parte, es de desear una probabilidad alta,
como B=0'20, de cometer un error de tipo II, si se tiene en cuenta que el investigador
debe ser cauto a la hora de rechazar una hiptesis nula cuando sta sea verdadera,
pues ello le podra causar una notable falta de prestigio profesional.
Supongamos que, en lugar de predeterminar el tamao de la muestra, quisiramos
averiguar cul debe de ser el tamao adecuado de la misma en funcin de la potencia
y del nivel de significacin, para una prueba bilateral.
Las relaciones (3) y (5) nos permiten evaluar el tamao de la muestra en funcin
del nivel de significacin, de la potencia y de la distancia entre los valores del parmetro
correspondientes a las hiptesis nula y alternativa especfica, obtenindose:
(9)
tu '2+za)~ a
5-V
d2
d2
8(10)
" r2
Como
resulta:
50 50
T = = = 0.143
a 350
3'6
(y143
= 634
Se necesita una muestra de 634 bateras para conseguir una potencia de 0'95 con
un nivel de significacin del 5% en una prueba bilateral.
351
10.6. Ejercicios propuestos
10.1. De una poblacin normalmente distribuida con desviacin tpica a=4,3, se extrae
una muestra de tamao n=100, cuya media es 27,6. Efectuar el contraste de H,=|i=26
con H = n * 26 al nivel de significacin del 5%.
10.2. Un laboratorio farmacutico ha elaborado un frmaco en forma de comprimidos
cuyo peso est distribuido normalmente con una desviacin tpica de 0" 1 2 mg. Se
sabe que una dosis de comprimidos cuyo peso medio sea superior a 0'60 mg. produce
efectos muy perjudiciales. Por este motivo, el hospital comprueba el peso medio de
una partida de 150 comprimidos, que resulta ser de 0'64 mg. Hacer un contraste de
hiptesis con un nivel de significacin del 0'05 para averiguar si es posible adminis
trar la medicacin al enfermo sin riesgo.
10.3. La estatura media de las mujeres de Castilla-La Mancha se estima que es de 1 '65
m. con una desviacin tpica de 0'68 m. Se selecciona aleatoriamente una muestra de
60 mujeres de la provincia de Toledo, que da una estatura media de 1 '67 m. Se puede
sacar la conclusin de que las mujeres de Toledo son ms altas que las del resto de la
comunidad?
10.4. Una mquina, que llena botes de refrescos, se ajusta de modo que la cantidad de
refresco que deja en cada bote siga una distribucin normal de media 250 mi. y con
una desviacin tpica de 20 mi. Se realiza una prueba de inspeccin para ver si la
cantidad servida por la mquina est de acuerdo con la programacin establecida. La
prueba consiste en tomar una muestra aleatoria de 25 refrescos y medir su contenido,
resultando una media de 236 mi. A la vista del resultado, se puede llegar a la conclu
sin de que la mquina se ajusta a la programacin?
10.5. De una poblacin normalmente distribuida se ha extrado una muestra de tamao
n=20, obtenindose una media de 1 10 y una desviacin tpica muestral de 3,4. Con
trastar la hiptesis H,=|i=1 15 con Hi = u * 1 15 al nivel de significacin del 1%.
10.6. Con los datos del ejercicio 10.5, hacer el contraste de H,=u=l 15 con H =H<1 15.
10.7. De una poblacin normalmente distribuida con desviacin tpica conocida a=3'6,
se extrae una muestra de tamao 20, que da una media de 25 '4. Para un nivel de
significacin del 5% y una prueba bilateral, hallar la potencia del contraste de H, =H=27
con IL=i=30.
10.8. Con los datos del ejercicio 10.7, hallar el tamao mnimo que debe tener una
muestra si se quiere conseguir una potencia del 80%.
352
10.9. Cul debe ser el tamao mnimo muestra1, en el ejercicio 10.4, para conseguir un
nivel de significacin del 5% y una potencia del 80%, si se quiere contrastar la hip
tesis nula Hn:u=250 con la hiptesis alternativa especfica H,:n=240?
10.10. En una determinada regin de Espaa, se ha hallado que la vida media de una
muestra aleatoria de 90 personas que han fallecido en los tres ltimos meses, es de 71
aos. Si suponemos que la vida media de los espaoles sigue una distribucin normal
de media 69 aos y desviacin tpica 8'5 aos, se puede afirmar que la vida media en
esa regin es mayor?
10. 1 1 . La duracin de cierto modelo de neumticos de automvil es de 49000 km. con una
desviacin tpica de 3400 km. Un inventor presenta una patente asegurando que la
duracin media aumenta considerablemente. Para contrastar esta afirmacin, se prueban
15 neumticos fabricados con la nueva patente, obtenindose los siguientes resultados:
49500, 52000, 57000, 60000, 45000, 45000, 5 1000, 56000, 58000, 61000, 46000, 57000,
54000, 58000 y 55000.
1) Plantear el contraste de hiptesis adecuado. 2) Averiguar si el contraste es
significativo.
10.12. Se supone que el recorrido medio anual de un automvil en Espaa es de 16000
km. al ao. Para rebatir este aserto, una compaa de seguros, consulta a 20 automo
vilistas elegidos al azar, que le proporcionan una media de 17000 km. con una desvia
cin tpica muestral de 2400 km. Al nivel del 5%, puede llegar la compaa de seguros
a la conclusin de que la media en kilmetros recorridos por un automvil es superior
a los 16000?
10.13. La longitud de una poblacin de mazorcas sigue una distribucin normal de
media 26 cm. con una desviacin tpica de 4'5 cm. De una finca tratada con un nuevo
tipo de abono, se obtuvo una muestra de 60 mazorcas que dio una longitud media de
27'5 cm. Se puede asegurar al nivel del 5% que el abono es efectivo?
10.14. Construir un intervalo de confianza del 95% para el ejercicio 10.13, y hallar la
potencia del contraste para una hiptesis alternativa especfica H :H=27 cm. en una
prueba bilateral con un nivel de significacin del 5%.
10.15. Se sabe que una poblacin est distribuida normalmente con media |1=12 y
desviacin tpica a=30. Determinar el tamao que debe tener una muestra para efec
tuar el contraste de H,=u=12 con H=u=6, si se quiere conseguir una potencia de 0'95
y un nivel de significacin o(=0'05.
353
10.16. Un industrial de la rama del fro quiere demostrar que la vida media de sus
motores para frigorficos es superior a las 90000 horas. Para ello dispone de una
muestra de 35 frigorficos.
1 ) Qu tipo de contraste debe formular? 2) Cmo cometera un error de tipo I?
3) Cmo cometera un error de tipo II?
10.17. Un fabricante de hilo de acero afirma que el hilo fabricado por su empresa tiene
un coeficiente de ruptura de 120 Kgs. con una desviacin tpica de 4'5 Kgs. Se
selecciona una muestra de 40 hilos de acero y se miden los coeficientes de ruptura,
dando una media de 1 1 5 kgs.
1) Disear una prueba para contrastar la hiptesis H=|i=120 con la hiptesis
alternativa H =u<120. 2) Si se establece la hiptesis alternativa H,=ii=l 18, determi
nar la potencia del contraste para a=0'05.
CAPITULO 1 1
DIFERENCIAS DE MEDIAS Y PORCENTAJES
356
1 1 .2. Inferencias sobre diferencias de medias
El contraste de la diferencia de medias de dos poblaciones es un problema muy
frecuente en todas las reas que se sirven de la estadstica como instrumento de
trabajo. As, un ingeniero puede estar interesado en averiguar la diferencia en la
precisin de dos aparatos de medida, lo que conseguir contrastando la diferencia de
las medias de dos conjuntos de mediciones realizadas con cada uno de ellos; un
pedagogo puede estar interesado en la eficacia de un nuevo mtodo de enseanza,
para lo cual ensayar la diferencia de las medias de las calificaciones obtenidas por un
grupo de alumnos a los que ha aplicado las tcnicas del nuevo mtodo y otro grupo
de alumnos con los que utiliz un mtodo clsico de enseanza.
En todos estos casos, hay un modelo comn de trabajo, que consiste en seleccio
nar dos muestras, una formada por individuos de la poblacin en los que se va a
ensayar la nueva experiencia, por lo que recibe el nombre de grupo experimental, y
otra segunda muestra a la se aplica el mtodo clsico y que se utiliza para contrastar
los resultados, por lo que se le llama grupo de contraste.
Cuando se efecta el contraste de la diferencia de medias de dos poblaciones, se
han de tener en cuenta tres aspectos fundamentales:
a) la normalidad de las poblaciones,
b) la homogeneidad de las poblaciones,
c) el tamao de los grupos experimental y de contraste.
La normalidad de las poblaciones se refiere al hecho de que stas sigan o no una
distribucin normal, mientras que la homogeneidad hace referencia a la igualdad de
las varianzas de ambas poblaciones. Ms adelante veremos cmo es posible contras
tar la homogeneidad de las varianzas as como la bondad de ajuste de los datos a un
tipo de distribucin.
Por ahora, baste con decir que, cuando nos planteamos un contraste de este tipo,
admitimos, como hiptesis de trabajo, que las muestras que van a formar los grupos
experimental y de contraste son aleatorias y tales que:
1) las poblaciones de donde son extradas tienen una distribucin normal.
2) las varianzas de ambas poblaciones son iguales (a^oV).
Otro factor importante que interviene en el contraste de la diferencia de medias es
la independencia o dependencia de las muestras. Los mtodos que se utilizan cuan
do las muestras son independientes no son vlidos cuando hay una relacin de
dependencia entre los datos.
En cuanto al tamao de las muestras, es conveniente que ambas tengan el mismo
tamao, aunque no siempre esto va a ser posible. En cualquier caso, cuanto mayores
sean los tamaos de las muestras, ms correctos sern los resultados del contraste.
Hablaremos de muestras grandes, cuando su tamao sea mayor o igual que 30, y de
muestras pequeas, cuando su tamao sea inferior a 30.
Sin embargo, para obtener un resultado satisfactorio, no siempre es imprescindible
357
el cumplimiento de las hiptesis de homogeneidad y normalidad. Tras los trabajos
publicados por Boneau en 1960 y las aportaciones posteriores de estadsticos como
Edwards, las conclusiones sobre las condiciones exigibles para que un contraste de
diferencia de medias produzca un buen resultado son:
/. Muestras grandes:
A) La distribucin t de Student produce buenos resultados en general, incluso
cuando no se satisfacen las condiciones de homogeneidad y normalidad. Se utiliza
el estimador
(x-r)-(nrn.)
t=
Sx-r
que se distribuye segn una t de Student con n +n,-2 grados de libertad, donde
(n,-l)s)+(n2-l)s] 1
Sxr = i'
1
+_
(x-y)-(n,-l0
z=
+
til
n2
358
11.3. Muestras independientes
11.3.1. Contraste de diferencias con muestras grandes
Entendemos por muestras grandes aquellas cuyo tamao es mayor o igual que 30,
para las cuales son vlidos los contrastes de diferencias de medias que se basan
tanto en la t de Student como en la distribucin normal.
Ambos mtodos dan un buen resultado; su finalidad es comprobar si la diferencia
entre los resultados de las medias muestrales es un reflejo de una situacin real en las
poblaciones o se trata de una diferencia debida al azar.
En todos los campos de la investigacin se presentan a menudo situaciones simi
lares a la que plantea el siguiente ejemplo:
Ejemplo 11.1
Un profesor de Matemticas realiza un programa de ordenador, en que se simula un
modelo para estudiar los conceptos de Estadstica Descriptiva de primero de Bachillerato.
La finalidad del modelo es la de afianzar los conocimientos y agilizar los clculos
de las principales medidas de centralizacin y de dispersin.
Para comprobar la eficacia del programa, el profesor elige al azar un grupo formado
por 38 alumnos (grupo experimental) con el que va a ensayar el programa. Del mismo
modo, selecciona un segundo grupo en el que hay 32 alumnos (grupo de contraste)
para comparar los resultados.
Despus de trabajar el tema en los dos grupos, se hace pasar a todos los alumnos
por el ordenador, desarrollando con el primer grupo el programa de simulacin, en
tanto que los alumnos del grupo de contraste trabajan con un programa no relaciona
do con el tema de estudio. De este modo, el profesor trata de evitar la influencia
psicolgica que pueda ejercer el hecho de trabajar con el ordenador.
Finalizada la experiencia, los alumnos son evaluados obteniendo los siguientes
resultados:
Calificaciones
N alumnos G.E.
Na alumnos G.C.
1
2
3
4
5
6
7
8
9
10
0
0
1
3
7
8
5
6
7
1
1
1
1
2
7
6
4
6
4
0
359
Efectuados los clculos, las medias y cuasivarianzas de ambas muestras con sus
tamaos figuran en el siguiente cuadro:
G. experimental
G. de contraste
Media
6'68
6' 15
Cuasivarianza
3' 10
4'00
38
32
Tamao muestral
Por medio de esta prueba, el profesor quiere saber si el incremento que se observa
en la nota media del grupo experimental es una garanta de que el modelo de simula
cin supone una mejora en el rendimiento escolar de los alumnos.
En otras palabras, hay que conocer si la diferencia entre las calificaciones medias
de ambas muestras es motivo suficiente para afirmar que las medias de las respectivas
poblaciones son tambin diferentes y, por tanto, lo son las propias poblaciones, o
bien, si dicha diferencia se debe nicamente al error que introduce el azar al seleccio
nar cada muestra.
El inters se centra en discernir si la diferencia H, - n, entre las medias de las dos
poblaciones, que se suponen distribuidas normalmente, es igual a cero', o lo que es
igual, si |i, = |i, .
Luego las hiptesis nula y alternativa para un contraste bilateral son:
Por tratarse de muestras grandes de dos poblaciones cuyas varianzas son desco
nocidas, se realiza el contraste por medio de la t de Student.
Bajo la hiptesis nula, el estadstico
X-Y
/=Sx-Y
+ I
Sxr
n + ri2-2
~
n + n2 -
1 Tambin podra contrastarse la hiptesis de que la diferencia de medias tome otro valor
distinto de cero.
360
que es la media ponderada de las cuasivarianzas muestrales, y proporciona el error
tpico de la diferencia de medias:
S,y = ,
I
1)
(n,-I)s;+(n2-l)s-;
+
~
\n
1n? ,
0'53
40'202
6'68-6'15
37 3'10 + 3I 4( 1
I
+
68
(38 32
0'53
= 1'18
0'45
361
guente, la hiptesis alternativa. Tampoco, en este caso, se debe tomar el resultado
como decisivo, puesto que exista una probabilidad de cometer un error de tipo I.
Sera conveniente que el investigador (en este caso, el pedagogo) repitiera el
experimento para ratificar que el modelo de simulacin ejerce influencia en el rendi
miento del alumno.
C) En el caso de que se hubiera producido un resultado estadsticamente significa
tivo, surge el problema de averiguar cul es la intensidad de la relacin entre las dos
variables.
Interesa tambin dar una medida de dicha intensidad para saber si el paso de los
alumnos por el ordenador tiene una influencia grande, moderada o dbil en su rendi
miento.
Una medida de esta intensidad la proporciona el coeficiente de correlacin, segn
vimos en el captulo sexto y, cuyo valor en la poblacin debe ser inferido a partir de la
muestra.
362
a-d
\ *x).x2
*i,%
P =P(XrX2<a,\i,-\i:=d) = P
donde
-- \(nrl)s] + (n,-l)s::(l + 1 \
\
71/ +712 -2
\rti
n: )
se distribuye segn una t de Student con n,+n,-2 grados de libertad. Luego, para una
prueba unilateral, se tiene
(
P-Jh
\ f
d,
-,uru,=</ .P\t<ta-
\
,|ir|i, = </
y, por tanto
tu +/p =.
Fi-F,
(I)
363
(2)
S.V
Y.
/
I n,
resulta
di
di nn.
S I
1 1
+
S V/ + '
i/fc
(3)
/ +/u
i V /+:
nn2
fa/.' + fp
(4)
S V /// + B2
M,-n.= 0
M, . M,= d
H,-H,0
H,- m- d
Cuando los tamaos de las muestras son distintos, se toma como tamao comn
a ambas muestras la media armnica de sus tamaos:
2
2it/7i2
]-
]-
fl i
ll:
n + n.2
de donde resulta
n + ll:
364
Las expresiones (3) y (4) quedan entonces en la forma:
'"+'9=7\
(5)
t,2+h =-
(6)
siendo
(ni-Dsl+(n2-l)s2
n +n.2-2
El factor de equilibrio ser:
8=t+tB, si el tipo de prueba es unilateral
8=t -+L, si el tipo de prueba es bilateral
Las expresiones (5) y (6) permiten determinar el tamao de cada una de las mues
tras, una vez han sido fijados el nivel de significacin y la potencia del contraste. En
efecto, despejando n, se obtiene
2(ta+tfj)'s
(7)
2(ta/2 + t)'s2
d
(Si
(8^
(9)
Ejemplo 11.2
En el ejemplo 11.1, queremos contrastar la hiptesis nula H^)^-u^O con la hip
tesis alternativa especfica H,^1,-^=0'S.
1 ) Cul ser la potencia del contraste para un nivel de significacin a=0'05 y una
prueba bilateral?
365
P =P-ta,2\
d
-<'<//2^
Sxix2
Sxrx:
= 1'87
Entonces resulta:
.
d n
0'5
35
La tabla A.7, para a=0'05 y un valor del factor de equilibrio de 1 '087 en una prueba
bilateral, proporciona un valor de la potencia de 0'2, que coincide con el que acaba
mos de obtener por el mtodo directo.
2) Determinacin del tamao muestral:
Si a=0'05 y 1 -B=0'90, la tabla 1 .7 proporciona el valor 8=3'25.
Entonces
d
(.T5
r= =
= ff267
s V 87
366
con lo que
(3'25
2 148 = 296
Se necesitan, por lo tanto, dos muestras de tamao 296 para obtener un nivel de
significacin del 5% y una potencia del 90%.
j
Figura 11.3: Grfico de cajas hemliitus
367
En la figura 11.3, puede apreciarse cmo la diferencia en la localizacin de los
grupos experimental y de contraste del ejemplo 11.1 no es significativa.
/
n,
2 5%
ll2
Se trata de contrastar la hi
ptesis nula H^|i^|i^O con la
hiptesis alternativa H ^|i^|i^O.
Entonces, si elegimos el ni
vel de significacin a=0'05, bajo
frfrrrrTr,-
368
la hiptesis nula, se obtiene como valor de la variable tipificada
A Y
7'5-6'S
/=
= '25
1 20 + 24
que, comparado con el valor crtico, 1 '96, correspondiente a la normal N(0,1 ) para un
contraste bilateral con un nivel de significacin a=0'05, conduce al mismo resultado
que la t de Student. Ya vimos que la t, cuando el nmero de 'grados de libertad es
grande, tiende a confundirse con la normal N(0.1 ).
1 1.3.2.2. Potencia del contraste
Se trata de contrastar la hiptesis nula // = u / = u , =0 con la hiptesis alternati
va especfica //, = u ( - u , = d para la diferencia de medias de dos poblaciones, de las
que se conocen sus desviaciones tpicas G y a,.
La potencia del contraste viene dada por
/-P =i>(\xrY>a,nr\i-d)
siendo a = ;o/2-sj.j},
y la probabilidad de cometer error de tipo II:
P =P(-a<~X,-~X2<a,\ir\l2 = d) =
.-a-d
= <
O'i
o}
XrX.-d
a-d
.V,-V2 = d
= <
o}
o}
+
tl
B2
tl:
se distribuye segn una normal N(z;0.1 ), por lo que, para una prueba bilateral, resulta:
i
P=/> .z*,r
<Z<za/2-
n:
Tt/
it: )
369
Por tanto
"Zli "Mt/
(10)
fn
Za/2 + Z|J -
(11)
Vo/+o
Cuando los tamaos muestrales son distintos, se puede tomar como tamao co
mn de ambas muestras la media de n, y n,.
La expresin (11) nos indica que podemos tomar como ndice de discrepancia
d
r=
Vo/+o:
y como funcin del tamao muestral
f(n) = V77
donde n es la media de n, y n cuando las muestras experimental y de contraste
tienen distinto tamao, quedando como factor de equilibrio
X
.j
Si despejamos n en la expresin ( 1 1 ), se obtiene la relacin
u, ..+2n)"(cr; + cr:)
n =
(12)
d2
que nos proporciona el tamao que deben de tener las muestras experimental y de
contraste para un nivel de significacin a y una potencia dada 1-B.
Si el contraste es unilateral, la expresin (11) toma la forma
V^
u T .p
Vo/+o;'
(13)
370
(*=/i -Y96-
V5
<Z<1'964'41 725
20 + 24
0'5
4'41 725
20 * 24 )
= P(-785 <Z< 1'06) = P(Z < 1'06)- P(Z < -785) = 0'8532
Luego la potencia del contraste es
/ - p = 7 - 0'8532 = 0'1468 = 0'15
B) Utilizando la tabla A.7 del apndice A: Calculamos el factor de equilibrio
0'5
fn
J4'41 + 725
que depende del tamao de las muestras. Al ser los tamaos distintos, tomando como
tamao de ambas la media de n y n.,, resulta
20 + 24
n = - = 22
371
Luego
o
<y5
Para 8 = 0'90, a = 0'05 y una prueba bilateral, la tabla A.7 proporciona una potencia
de 0' 15, que coincide con el valor que acabamos de encontrar.
2) Tamao de la muestra
Si a=0'05 y l-B=0'95, ser B=0'05, luego
zaQ=l'96yze=l'65
Por tanto
n=
372
mayor y la menor de las cuasivarianzas; un cociente grande o pequeo seala una
diferencia notable entre las cuasivarianzas, en cambio, un cociente prximo a uno es
seal de una diferencia pequea.
Las condiciones en que se puede aplicar este contraste de homogeneidad vienen
dadas en las hiptesis de la siguiente proposicin, y son la independencia de las
muestras y la normalidad de las poblaciones.
Proposicin 11.1: Si s{2 y s,2 son las cuasivarianzas de dos muestras indepen
dientes de tamaos n, y n,, respectivamente, procedentes de poblaciones dis
tribuidas normalmente, el estadstico
s]/a2,
S2/O2
1'7
373
F,2.12.oo5=2,6866yF,,,,ol=4'1553
Entonces, al ser el valor F=l '21 menor que los valores crticos a los niveles 0'05 y
0'O1, aceptamos la hiptesis nula, o lo que es igual, la igualdad de las varianzas
poblacionales.
Sx-r
Sxy
(ni-l)sl + (n2-l)s2 (1
+ '
nl + n2-2
1'4
ros
1\
12 1'72 + I2 1'4 Y /
24
13 + 13
El valor obtenido en el contraste. 2'03, es menor que el valor crtico, 2'064, por lo
que el contraste no es significativo y podemos concluir que no hay motivo suficien
te para pensar que el nuevo fertilizante mejora la produccin de trigo.
Sin embargo, el valor obtenido para t es muy prximo al valor crtico, por lo que
sera aconsejable repetir la experiencia antes de tomar una decisin definitiva.
374
tims =
donde
t, es el valor de la t de Student con n,-1 gl y nivel a=0'05
t2 es el valor de la t de Student con n,-1 gl y nivel a=0'05
X es la media del grupo experimental.
Y es la media del grupo de contraste.
S. =
'
n - 1
v4 + Si
que se compara con el valor t0 proporcionado por la frmula de Cochran-Cox, de
forma que, si el valor de la variable t es menor que el valor que proporciona la frmula,
se acepta la hiptesis, y si es mayor, se rechaza.
Ejemplo 11.6
Un laboratorio farmacutico pretende averiguar si un nuevo frmaco detiene una
cierta enfermedad. Dispone de 1 9 cobayas en las que acaban de provocar la enferme
dad. Se seleccionan 10 de ellas al azar y se les administra el nuevo frmaco, compro
375
bando los das de supervivencia del grupo de estas 10 cobayas y de las 9 restantes,
a las que se les administra el frmaco tradicional. Los resultados obtenidos (expresa
dos en horas) son los siguientes:
Tratados
No tratados
1503
620
790
3%
681
898 1024
630 1030
745
910
Con los datos del ejemplo, para un nivel del 0'05, se obtienen los siguientes
valores:
n=10,
n2=9,
X = 1244'3,
Y = 789'33,
s=530'54,
s2=204'07,
s,2=281479'7
s22=41644'7
376
Los cuadrados de los errores tpicos de las medias muestrales son:
s2,
2814797
s\x = n,-l7 =
= 31275'52
9
r
s
m-1
416447
8
5205'58
7962174
36481'! 1~
y ]5i
Este es el valor crtico, al nivel del 5%, que se toma para comparar el valor de la
variable t, que, para los datos del ejemplo 1 1.6, es:
X-Y
1244'3 -789 33
454'97
t= i ,
= ,
=
= 2'38
t]s2x + s J31275'52 + 5205'58
191
Este valor de t=2'38 es mayor que el valor t005=2' 1 8 que proporciona la frmula de
Cochran-Cox para un nivel a=0'05, por lo que se rechaza la hiptesis nula, llegando a
la conclusin de que el nuevo frmaco es efectivo para detener la enfermedad.
//. Mtodo de los grados de libertad:
Se basa en la siguiente propiedad:
Si las muestras son independientes y las distribuciones de las poblaciones norma
les o aproximadamente normales, siendo las varianzas poblacionales distintas y des
conocidas, el estadstico
(x-y)-(ivu.,)
r=
n,
n,
377
El valor de la variable t, para los datos del ejemplo, es:
1244'3 -789'33
454'94
t= ,
=
= 2'51
\530'542 204'072 18V04
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
48 56 65 60 43 28 62 39 70 29 31 57 51 18 54
Puntuaciones despus
41 59 70 60 49 50 50 50 75 25 40 57 60 30 61
378
1 1 .4. 1 . Contraste de hiptesis
Los datos se dan apareados, no habiendo independencia entre las muestras, ya
que cada par de valores proceden de la misma persona.
El estadstico que se utiliza, segn se vio en el captulo 9, es:
t=
Sn
que sigue una t de Studenl con n-1 gl.
/
ni=l
D. ,
/>
siendo
n el nmero de pares y
sb =
D,=
~. {D, - D)
Como hiptesis nula se establece que la diferencia de las medias de las valoracio
nes antes y despus de la recepcin del mensaje es cero. Si se pretende hacer un
contraste bilateral, las hiptesis nula y alternativa son:
sb
V
sigue una t de Student con n-1 gl.
Con los datos de la muestras, resulta:
-
/
n l=l
66
15
s:n=^-yD-D)'=-l-973'6=69'54
Luego
D
4'4
4'4
4'4
379
Como el valor obtenido t=2'04 es menor que 2' 145, se acepta la hiptesis nula,
concluyendo que el mensaje no ha ejercido influencia en el electorado.
11.4.2. Intervalo de confianza
En el caso de dos muestras dependientes, el estadstico
f~P-H0
Sd
V n
acabamos de recordar que se distribuye segn una t de Student con n-1 gl. Luego el
intervalo de confianza aleatorio del 95% ser:
Comot a/2,14
,,, =T 145, ser:
D - 2'145-1 < H D < D + 7145,1
V n
\ n
Si se toman los valores proporcionados por las muestras, se tiene el intervalo
particular:
4'4 - 71454^64 < u < 4'4 + 7145^64
4'4-4'62<\iD<4'4 + 4'62
-0'22<\in<9'02
que contiene el valor 0 correspondiente a la hiptesis nula del contraste que se haca
en el apartado anterior, segn era de esperar, puesto que el contraste no result
significativo.
380
Antes de someterla a referndum, el gobierno encarga un sondeo de opinin, que
produce el siguiente resultado: de las 350 personas consultadas, 1 89 son favorables a
la nueva ley, mientras que 161 manifiestan que votarn en contra.
A la vista de estos datos, puede el gobierno tener una garanta suficiente de que
saldr adelante la mencionada ley?
La aprobacin de la ley es fundamental para la continuidad del gobierno, que la
someter a referndum si los resultados del sondeo le garantizan que la ley ser
votada por un porcentaje superior al 50% de la poblacin.
La decisin que tome el gobierno se debe basar en el conocimiento de que:
a) dispone de una muestra aleatoria de 350 personas que han manifestado su
intencin de voto.
b) el 54% de las personas consultadas ha manifestado que votar afirmativamente.
c) el 46% de los consultados votar no a la ley.
Para simplificar, se han eliminado los casos de votos indecisos y las abstenciones.
El problema estadstico consiste en la realizacin de un contraste de hiptesis
sobre proporciones.
Un estimador insesgado de la proporcin de individuos de una poblacin es la
proporcin de individuos de la muestra, que, segn vimos, sigue una distribucin
normal
P(l-P)
Y
0'04
00267
V49
381
1 1.5.1. Intervalo de confianza
Si se quiere un intervalo de confianza que contenga todos los valores probables
de la proporcin p de la poblacin, habr que utilizar el valor particular del parmetro
para hacer una estimacin del verdadero valor de p.
Esto es posible siempre que el tamao de la muestra sea suficientemente grande
para que la estimacin que se hace de p no afecte mucho al error tpico de la proporcin
-P(1-P)
p-r96ah <p<p+V96ah
que, al ser p=O'54 y tomar p=p, ser:
a 54(1-0' 54)
=0026
350
382
H,FP=0.5
Supongamos que se desea contrastar con la hiptesis alternativa de que hay una
diferencia de 5 centsimas, utilizando una prueba bilateral:
prP, 0'55-0'50
-0'05-0,
yjpji-PJ Jff50.(l-ff50)
0'5 '
El factor de equilibrio, 8, viene dado, del mismo modo que en el caso del contraste
de la media, por
5 =rV^
por lo que
8 =07 4350 = J'87
Llevando este valor a la tabla de potencias, para 6=1 "87 y a=0'05, se obtiene el
correspondiente valor de la potencia:
1-B=0'44
Una potencia de 0'44 debe hacer pensar que, aunque el resultado del contraste fue
no significativo, esta conclusin no se puede considerar determinante, ya que supone
una probabilidad de cometer error de tipo II bastante alta:
B=0'56
383
Como 8 = rv , ser:
"T
Para determinar n, se busca, en la tabla A.7, el valor de 8 correspondiente a una
potencia 1-B=0'80 y un nivel de significacin a=0'05. resultando:
6=2'8
Entonces
(2'sY
n=[j=28- = 784
Como puede apreciarse, para conseguir en las mismas condiciones, una potencia
de 0'80, se necesita una muestra de tamao mucho mayor.
P,<,
iti
n2
384
z=:PrPzHPrP2)
PAijP2l2
/=
/"/ '.''
que se distribuye segn una normal N(z;0,l).
En la prctica, para calcular el valor de Z, hay que estimar los parmetros p y q.
Para ello, se usa la siguiente estimacin combinada de la proporcin
xi+x2 n,p,+n,p,
P= n,+n,
Si sustituimos p por/? y q por q=l-p, el valor del estadstico Z viene determina
do por la expresin
A A
(PrP,)
z=
itt\
El contraste se realiza por medio de la normal tipificada, de modo que, fijado un
nivel de significacin a, para una prueba bilateral, si el valor de la estimacin del
estadstico Z es mayor que el valor crtico z o menor que -z^, se rechaza la hipte
sis nula, aceptndose en caso contrario.
Ejemplo 11.9
El equipo rector de una universidad plante una consulta sobre la necesidad de
una asignatura de Clculo Automtico en los planes de estudios de las licenciaturas
en Ciencias Geolgicas y Biolgicas. Con este motivo, se elabor un cuestionario, al
que contestaron 1 10 gelogos y 95 bilogos; 50 gelogos y 62 bilogos respondieron
que consideraban necesaria dicha disciplina.
Se trata de contrastar la significacin de la diferencia de proporciones de las
respuestas de cada uno de los grupos consultados.
Solucin:
Proporcin de gelogos que ven la necesidad: /?,=yr-r=0'45
385
q=14)'54=0'46
Por lo tanto, la estimacin del estadstico es
ff45-0'65
Z= ,
= -789
7
6
8
9
11
9
10
9
8
6
9
8
10
9
11
10
8
8
9
6
10
7
X
9
7
10
9
386
Realizar un contraste para la media de las diferencias en la presin arterial antes y
despus de tomar el medicamento, y construir un intervalo de confianza del 95%.
1 1.4. Una factora de automviles quiere decidir si, con un nuevo tipo de neumticos,
se logra reducir el consumo de combustible. Para ello, realiza dos pruebas con 15 de
sus coches: una, con los neumticos habituales y la otra, con el nuevo tipo de neum
ticos en las mismas condiciones de recorrido y con los mismos conductores.
Los resultados de ambas pruebas fueron los siguientes (expresados en kilmetros
recorridos por litro de combustible consumido):
Nuevo
5*3 6'1 4'8 5'2 71 4'9 5'3 5'1 5*3 67 6'8 6'6 5'8 4'9 6'3
Habitual
5'1 5'9 47 5'3 6'8 47 5'4 4'9 5'0 6'4 67 6'4 5'9 57 5'9
21
18
20
16
25
10
17
26
23
25
20
I8
Despus
20
22
18
25
21
29
16
21
29
22
27
23
21
387
media de 26 mg. por litro con una desviacin tpica de 4 mg. por litro. Una segunda
muestra de 20 botellas de agua tratada con los productos de la otra industria da una
media de 24 mg. por litro con una desviacin tpica de 2'5 mg. por litro.
Suponiendo que la concentracin de nitritos en el agua sigue una distribucin
normal, se pide:
1 ) Realizar un contraste de homogeneidad de varianzas al nivel de significacin del
0'05.
2) Hacer un contraste para averiguar si el segundo mtodo es ms eficaz que el
primero con un nivel de significacin a=0'05.
1 1.9. Determinar el tamao que deben tener dos muestras procedentes de poblaciones
independientes y homogneas, de las que desconocemos su varianza. para contrastar
una diferencia entre las medias de 3 unidades, con un nivel de significacin a=0'05 y
una potencia de 0'80 en una prueba bilateral. Se dispone de una estimacin de la
varianza de 10'3.
1 1.10. Una cadena de televisin realiz una encuesta para averiguar las preferencias
de programacin entre sus telespectadores, a la que respondieron 180 mujeres y 134
hombres. 64 mujeres y 30 hombres mostraron su preferencia por uno de los progra
mas. Se puede concluir, con un nivel de significacin del 0'05, que hay una preferen
cia en cuanto al sexo por ese programa?
11.11. De los 50 alumnos consultados de primero de Bachillerato de un centro de
Madrid, han aprobado 5 en la convocatoria de junio. En otro centro, de 36 alumnos de
primero consultados, aprobaron 3.
1 ) Hay una diferencia significativa entre el nmero de alumnos de primero que
aprueban en junio en ambos centros?
2) Hallar un intervalo de confianza para el porcentaje de aprobados en el primero
de los centros.
1 1 . 1 2. Un grupo de 1 2 alumnos que trabaja con un programa de ordenador especialmente
diseado para adquirir destreza en el clculo, realiza una serie de ejercicios antes y
despus de trabajar con el programa. Los tiempos invertidos en su resolucin fueron:
Previo
30
41
44
36
25
37
22
46
32
44
15
38
Posterior
27
36
37
33
26
38
20
44
26
40
25
33
Se puede decir que hay una diferencia significativa entre los tiempos empleados
antes y despus de utilizar el programa?
11.13. Se han seleccionado dos muestras, de tamaos 132 y 166, de estudiantes de
tercero de Ciencias Qumicas de dos Universidades A y B, a quienes se les ha pro
388
puesto una prueba de conocimientos. Los estudiantes de la universidad A han ob
tenido, en la prueba, una calificacin media de 58 puntos con una desviacin tpica de 4,
y los de la universidad B han obtenido una media de 53 con una desviacin tpica de 5'7.
1 ) Puede inferirse de estos resultados que los alumnos de la universidad A estn
mejor preparados en conocimientos que los de la universidad B? 2) Se puede
concluir que los estudiantes de A superan a los de B en 7 puntos en la media de
conocimientos? 3) Hallar los lmites del intervalo entre los que estar la diferencia
entre las puntuaciones medias de ambas universidades.
11.14. En una ciudad, se han seleccionado dos muestras aleatorias de 180 y 90 jve
nes. El 18% de los jvenes de la primera muestra y el 23% de la segunda resultaron
fumadores.
1 ) Se puede decir que hay una diferencia significativa entre las dos muestras en
cuanto al nmero de fumadores?
11.15. Se pretende demostrar la hiptesis de que, en una determinada especie animal,
la proporcin de machos es mayor que la de hembras. Para ello, se selecciona una
muestra aleatoria de 35 individuos, resultando 22 machos y 13 hembras. Qu conclu
sin se puede sacar a partir de estos datos?
11.16. Un hospital materno-infantil ha facilitado la talla media de los 12 ltimos nios
nacidos en l, que ha sido de 50'63 cm. con una desviacin tpica de 2' 87 cm. Tambin
dispone de las tallas de las 12 ltimas nias que han nacido, con una media de 49'68
cm. y una desviacin tpica de 3'02 cm.
Existe una diferencia significativa en el tamao de los recin nacidos de ambos
sexos?
11.17. Se ha medido la fluidez verbal de los jvenes de dos zonas de una ciudad. Una
muestra de 18 jvenes de la primera zona dio una fluidez verbal media de 30 palabras
con una desviacin tpica de 3.5. Una muestra de 16 jvenes de la otra zona dio una
media de 27 palabras con una desviacin tpica de 4,1. Se puede decir que hay una
diferencia significativa entre la fluidez verbal de los jvenes de ambas zonas al nivel
de significacin del 5%?
1 1.18. Se han seleccionado 18 personas de una zona rural y 12 de una zona urbana, a
quienes se les ha pasado un test preparado para medir el nivel de conciencia frente al
problema de la droga. La zona rural ha dado una puntuacin media de 38 con una
desviacin tpica de 7'2, mientras que la media de la zona rural ha sido de 39' 1 con una
desviacin tpica de 3'2.
1 ) Hacer un contraste para la homogeneidad de varianzas. 2) Se puede sacar la
conclusin, al nivel de significacin del 0'05. de que los habitantes de la zona rural
estn ms mentalizados frente al problema de la droga que los de la zona urbana?
CAPITULO 12
AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD
390
12.2. Test de bondad de ajuste
Esta prueba tiene una aplicacin fundamental cuando se pretende determinar la
bondad o calidad del ajuste de una distribucin emprica por medio de una distribu
cin terica.
Tiene especial inters la prueba de normalidad, en que se trata de averiguar si la
distribucin emprica que resulta de cuantificar los datos de una muestra se aproxima
a la distribucin normal, condicin que es requerida en numerosas situaciones.
En una prueba de bondad de ajuste interviene una nica variable que presenta
diversas categoras o niveles, de modo que. observada una muestra, se contabiliza el
nmero de individuos que presentan cada una de dichas categoras y se compara con
el nmero de individuos que presentaran esa misma categora en una distribucin
hipottica.
Ejemplo 12.1
Consideremos el experimento consistente en lanzar un dado sobre el tablero y
observar el nmero que aparece en su cara superior. Para que el experimento tenga
xito, necesitamos saber que el dado es regular, es decir, que los resultados que se
obtienen al lanzarlo sobre el tablero siguen la distribucin uniforme, teniendo, por
tanto, cada uno de los seis resultados posibles una probabilidad de 1/6.
Se realizan 240 lanzamientos con el dado y se registran sus resultados, que son:
Resultados (X)
Frecuencias (O)
12
42
40
43
38
37
35
De acuerdo con estos datos, se puede inferir que las discrepancias con respecto
a los valores esperados son debidas a las fluctuaciones en el muestreo?, o debera
mos concluir que el dado est cargado y la distribucin resultante no es uniforme?
En el problema interviene una variable, que es el nmero que aparece en la cara
superior del dado. Las categoras o niveles son los seis posibles valores: 1 , 2, 3, 4, 5, 6.
Los resultados obtenidos nos muestran las frecuencias observadas, que represen
taremos por CL As:
0=42 es el nmero de veces que sali el nmero 1.
Establecida la hiptesis nula, que consiste en suponer que cada uno de los
resultados tiene una probabilidad de salir igual a 1/6, se obtienen las frecuencias
esperadas, que representaremos por E, y son:
E1 =240/6=40
391
El estadstico que se utiliza para el contraste de la bondad de ajuste es la variable
(1)
cuya distribucin muestral es aproximadamente la de una y- con k-1 gl, donde O y Et
representan las frecuencias observadas y esperadas, respectivamente.
Cuando las diferencias entre las frecuencias observadas y esperadas son peque
as, es pequeo el valor de la y2. Cuando las diferencias son grandes, lo es tambin
el valor de y-.
Entonces, si las diferencias fueran tan grandes que slo pudieran darse en el 5%
o menos de los casos, cuando la hiptesis nula fuera cierta, se rechazara dicha hip
tesis; en caso contrario, se aceptara.
En la prctica, la significacin del contraste se comprueba eligiendo previamente
un nivel, como puede ser a=0'05, y comparando el valor obtenido en la expresin de
y- con el valor crtico que proporciona la tabla A. 5 del apndice A.
La y1 es una familia de distribuciones que depende del nmero de grados de
libertad, y stos del nmero de categoras, no del tamao de la muestra.
Si se dispone de una variable que presenta k categoras o niveles, el nmero de
grados de libertad es k-1, ya que, una vez ha sido determinada la frecuencia de k-1 de
las categoras, la frecuencia de la k-sima categora queda perfectamente determinada.
Volviendo a nuestro ejemplo, si se tabulan los datos segn aparecen en el siguien
te cuadro, el clculo de la y} se simplifica:
Nmero
OrE
40
40
40
40
40
40
4
-3
3
-2
0
-5
1
2
3
4
5
6
44
37
43
38
40
35
((W (CW/E,
16
9
9
4
0
25
0.400
0,225
0,225
0,100
0,000
0,625
1,575
392
Como 1'575 es menor
que el valor crtico, se acep
ta Ho, concluyendo que no
hay razn para pensar que
el dado est cargado.
Vamos a analizar un
segundo ejemplo que
plantea un tipo de prueba
habitual en nuestros das,
como es una encuesta de
opinin. Se hace patente
el contraste de las fre
cuencias de unos datos
Figura 12.1: Valor critico para 5 gl v nivel a=0.05
empricos obtenidos por
medio de una muestra con las frecuencias tericas que se daran si se acepta la
hiptesis de que los datos de la poblacin se distribuyen de una determinada forma.
Ejemplo 12.2
El alcalde de una ciudad quiere saber el estado de opinin de los ciudadanos
sobre tres posibles proyectos alternativos de remodelacin para la ciudad. Con este
fin. una agencia se encarga de seleccionar una muestra aleatoria de 200 personas a
quienes se les pide que manifiesten su preferencia al respecto. El resultado fue de 74
respuestas favorables al primero de los proyectos, 64 al segundo y 62 al tercero.
A la vista de estos datos, el alcalde debe decidir si la opinin de los ciudadanos
est dividida en tres partes iguales, como pensaba en un principio.
En el problema aparece una variable, la opinin favorable de los ciudadanos, que
se reparte en tres categoras, segn sea favorable al primero, segundo o tercero de los
proyectos.
La hiptesis nula establece que los tres proyectos gozan de las mismas preferen
cias por parte de los ciudadanos. Luego, si se cumple la hiptesis nula, las frecuen
cias esperadas sern todas iguales a 200/3=66'6. (Se utiliza una cifra decimal por
tratarse de frecuencias tericas).
Las operaciones necesarias para calcular el valor de la x2 vienen dadas en la
siguiente tabla:
Proyecto 1
Proyecto 2
Proyecto 3
O,
0,-E,
((W
(OrE^
74
64
62
66"6
66"6
66-6
74
-2'6
5476
6'76
3116
0'82
0'I0
0"31
-46
1'23
393
A partir de los datos se
obtiene, para el estadstico, el
valor:
r = '23
La tabla A.5. para a=0'05
y 2 gl. da un valor crtico:
394
Cuanto mayor sea el nmero de grados de libertad de la X. menor ser la exigencia
en cuanto al valor mnimo de la frecuencia.
Frecuencia
15-20
20-25
25-30
30-35
35-40
4045
45-50
50-55
55-60
60-65
65-70
1
3
3
5
6
15
11
6
5
3
2
395
cin obtenida por cada uno de los alumnos), que presenta 1 1 categoras (los interva
los de clase).
Las tres primeras categoras tienen una frecuencia menor de 5, por lo que se
agrupan en una sola categora, as como las dos ltimas. Quedan 8 categoras y, por
tanto, sern 7 los grados de libertad.
La siguiente tabla recoge las nuevas categoras y sus frecuencias observadas y
esperadas ms las columnas adicionales con los clculos necesarios para obtener el
valor del estadstico:
Puntuacin
15-30
30-35
35 - 40
40 - 45
45-50
50-55
55 - 60
60-70
o,,
0,E,
(OrE,):
(0,-E.)7E.
7
5
6
15
11
6
5
5
7'1
7
9'6
106
9"9
7'6
4'5
37
-O'l
-13
-3'6
4'4
0'01
4"00
12"%
19\36
T21
2'56
0'25
T69
0001
0'57
1'35
1'82
0'12
0'34
0.06
O'45
n
-T6
0'5
4711
(X-43 30-43]
<
P(Z<-1'18)
\ 11
11
396
Para hallar la frecuencia correspondiente a la segunda categora, [30,35), se debe
calcular:
(30-43
X-43
35-43\
= p(-ri8<z<-0'72) =
: P(Z < -0'72) - P(Z < -1'18) = 0*2358 -ff1190 = 0'I 168
Luego
Ev=0' II 68x60=7
De modo anlogo se cal
culan las frecuencias espera
das de las restantes catego
ras.
El valor que resulta para
el estadstico es:
-118
-072
-0'27 0't8
063
109
1.54
X:=4'714
Como las categoras se
han reducido a 8 al combinar
las frecuencias de clases contiguas, el nmero de grados de libertad es 7.
La tabla A.5. para 7 gl y un nivel de significacin a=0'05, proporciona un valor
crtico
ran5: = 1'4067
Puesto que el valor del estadstico, 4714, es menor que el valor crtico, 14'067, se
acepta la hiptesis, y, por consiguiente, que las puntuaciones del test se ajustan a
una distribucin normal de media 43 y desviacin tpica 1 1 .
Figura I2..V rea correspondiente a cada categora.
397
donde DQ es el valor del dato observado, DA el valor del dato ajustado y R el
residual. En concreto, vamos a trabajar con la expresin del residual en funcin de las
frecuencias:
R, = X,-X'i
(3)
T,(X) ,
(5)
(6)
l-yll + 4X',, si X, = 0
398
Puntuacin
\" estudiantes
40-50
50-60
60-70
70-80
80-90
90-100
100-110
82
108
123
115
46
16
10
X'
J2 + 4X
y/l + 4X'
DRR
0164
0'216
0'246
0'230
O092
0'032
0'020
0"1096
0'2154
02699
0'2140
01073
0'0342
O0074
1'629
T692
1'727
1708
T538
1458
1442
1'286
1'364
1'408
1'385
ri69
T062
1'099
0.343
0'328
0319
0323
0'369
03%
0403
En la ltima columna de la tabla figuran los residuales de doble raz. Como ninguno
de los valores cae fuera del intervalo (-T96, 1,96), aceptamos la hiptesis nula y. en
consecuencia, que la distribucin emprica de los datos se ajusta a la normal.
399
En la celda interseccin de la fila i y de la columna j se sita la frecuencia conjunta
(nmero de individuos que forman parte de la categora i de la primera variable y de la
categora j de la segunda.
Las sumas de las frecuencias de cada fila y de cada columna corresponden a las
frecuencias marginales de las diferentes categoras de cada variable.
La hiptesis nula Ho establece la independencia de ambas variables.
Ejemplo 12.5
Se desea comprobar si las calificaciones en las asignaturas de Fsica y Qumica del
Curso de Orientacin Universitaria de un determinado centro son independientes.
Para ello, se selecciona una muestra de 155 alumnos que cursan dichas asignatu
ras. Las calificaciones se dividen en tres categoras: suspensos, calificaciones medias
(aprobados y bien) y calificaciones altas (notables y sobresalientes).
Hecho el recuento de datos, las frecuencias observadas aparecen reflejadas en la
siguiente tabla de contingencia:
Calificaciones en Qumica
Suspensos C. medias
C. altas
Calificaciones
Suspensos
32
21
57
en
Fsica
C. medias
15
40
22
77
C. altas
6
53
11
14
31
72
40
155
La prueba se basa en las diferencias entre los valores de las frecuencias observa
das y de las frecuencias esperadas. Las frecuencias esperadas son las que tendran
lugar si H fuera verdadera; se obtienen fcilmente si se estiman las probabilidades de
que se den simultneamente las categoras A y B de ambas variables a partir de las
frecuencias marginales.
Consideremos los siguientes sucesos:
A=tener suspenso en Fsica,
B =tener suspenso en Qumica,
A,=tener calificacin media en Fsica,
B,=tener calificacin media en Qumica,
A,=tener calificacin alta en Fsica,
B,=tener calificacin alta en Qumica.
Las probabilidades de cada uno de los sucesos se estiman a partir de las frecuen
cias marginales:
P(A,)=57/155.
P(A>77/155.
P(A,)=31/155
P(B,)=53/155.
P(B,)=72/155.
P(B,)=40/155
400
(7)
La siguiente tabla de contingencia recoge todas las frecuencias; en cada celda, las
frecuencias esperadas figuran entre parntesis junto a las observadas:
Calificaciones en Qumica
Suspensos C. medias
Calificaciones
en
Fsica
Suspensos
C. medias
C. altas
32 (15'8)
15 (21 '4)
6 (8'6)
53
21 (26'5)
40 (35'8)
11 (14'4)
72
C. altas
4 (14'7)
22 (19'9)
14
(8)
40
57
77
31
155
401
2 v(Q,-,):
X =1
donde k=rs. siendo r el nmero de filas y s el nmero de columnas.
La distribucin de este estadstico es aproximadamente la de una ^con
(r-D(s-1)gl.
Para efectuar los clculos, dispondremos los datos en la forma:
0,
22
21
4
15
40
22
6
11
14
(X-E
(O.-e^/E,
158
6'2
26'5
-5'5
-107
-6'4
743
ri4
0'49
0'22
0'79
0'80
4'5
14'4
-2'6
-3'4
38'44
30'25
1 14'49
40'%
17"64
4'41
6'76
11 "56
36
147
2T4
35'8
199
8'6
4'2
2'1
779
T91
20'07
Se obtiene, para el estadstico, el valor:
X = 2O07
Los grados de libertad son: (3-1 )x(3-1 )=2x2=4.
En efecto, si nos fijamos en los 53 suspensos de Qumica, el nmero de suspensos
en Fsica es 32 y el de calificaciones medias 15. lo que suma 47; luego la siguiente
categora debe ser necesariamente 53-47=6, lo que significa que no hay libertad para
cambiar. Anlogamente sucede con las calificaciones medias y altas de Qumicas. Por
tanto, los grados de libertad son 2x2=4.
La tabla A.5 nos proporciona, para 4 gl y un nivel de significacin a=0'05. un
valor crtico:
XL,=^49
Como el valor del estadstico, 20'07. es mayor que el valor crtico, se rechaza la
hiptesis nula, aceptando, por consiguiente, la hiptesis alternativa de que hay una
relacin de dependencia entre las calificaciones en Fsica y en Qumica.
402
(8)
Esta correccin consiste en restar el valor 0'5 cuando la frecuencia observada es
mayor que la esperada, y sumar el valor 0'5 en caso contrario.
Hay quienes opinan que, cuando el nmero de grados de libertad es 1, se debe
utilizar siempre la correccin de Yates. En realidad, lo que sucede es que, para mues
tras grandes, los resultados son prcticamente iguales cuando se usa la frmula con
correccin o sin ella.
Pero, cuando se trabaja con pequeas muestras, si la frecuencia esperada tiene un
valor entre 5 y 10, es conveniente utilizar ambas frmulas y comparar sus resultados.
Si los valores obtenidos conducen a la misma conclusin al nivel de significacin
a=0'05. la conclusin es correcta; si no es as, se debe incrementar el tamao de la
muestra o utilizar otro tipo de contraste.
403
Ejemplo 12.6
El Seminario de Matemticas de un Instituto de Bachillerato desea comprobar la
homogeneidad a la hora de calificar de tres profesores Bl, B2 y B3, que imparten una
misma asignatura.
Con este fin, se seleccionan tres muestras aleatorias de 38, 40 y 32 alumnos que
han sido calificados respectivamente por cada uno de los profesores. Se tendr en
cuenta nicamente si la calificacin es positiva o negativa.
Contabilizados los resultados, se obtuvo la siguiente tabla de contingencia:
Prof. Bl Prof. B2 Prof. B3
C. negativa
17
15
20
52
C. positiva
21
25
12
58
38
40
32
110
Se asume como hiptesis nula que la proporcin de suspensos de cada uno de los
profesores es la misma, as como la proporcin de aprobados.
En definitiva, se trata de probar si las calificaciones dadas por los tres profesores
son homogneas con respecto al nmero de alumnos que suspende o aprueba cada
uno de ellos.
La asuncin de la homogeneidad como hiptesis nula supone que las frecuencias
estimadas se deben obtener de la misma forma que en la prueba de independencia, es
decir:
Frec. esperada de A, n B, =
donde
Ai es el suceso suspender
A, es el suceso aprobar
B es el suceso ser calificado por el profesor B 1.
B, es el suceso ser calificado por el profesor B2.
B es el suceso ser calificado por el profesor B3.
AinB, es suspender con el profesor Bl
AinB, es suspender con el profesor B2
AnB es suspender con el profesor B3
A,nB i es aprobar con el profesor B 1
A,nB, es aprobar con el profesor B2
A,nB, es aprobar con el profesor B3
(9)
404
Hechos los clculos, la siguiente tabla de contingencia recoge las frecuencias
esperadas entre parntesis junto a las frecuencias observadas:
Prof. Bl
Prof. B2 Prof. B3
C. negativa
17 (18)
15 (18*9) 20 (15'1)
52
C. positiva
21 (20)
25 (21'1)
12 (16'9)
58
38
40
32
110
o,
O.E
(O.-E^/E
17
15
20
21
25
12
18
18,9
15,1
20
21,1
16,9
-1
-3,9
4.9
1
3.9
.4$
1
15,21
24,01
1
15,21
24,01
0,05
0,80
1,59
0,05
0,72
1,42
4'63
Como el valor obtenido, 4'63, es menor que el valor crtico, 5'99, se acepta la
hiptesis nula, y, por tanto, la homogeneidad de las calificaciones de los tres profeso
res en cuanto al nmero de alumnos que aprueban y suspenden.
12.5. Prueba de igualdad de proporciones
Esta prueba es una generalizacin del contraste de diferencia de proporciones que
se estudi en el captulo 1 1 , donde se trataba de contrastar la igualdad de dos propor
ciones pt y pr Ahora generalizaremos la prueba al caso de r proporciones.
La hiptesis nula es:
H0:p=p,=...=pr
donde p ,p,,...,pr son los parmetros de r distribuciones binomiales B(p.,q.).
405
Hay que contrastarla con la hiptesis alternativa
H,: no todas las proporciones de la poblacin son iguales.
El contrate se verifica seleccionando r muestras aleatorias independientes de ta
maos nr n,
nr, respectivamente.
Como estadstico, se utiliza tambin la variable
= 1 (0,-E.):
cuya distribucin es aproximadamente una x2 con (r-1)x(2-1)=r-1 gl. El criterio, para
valorar las frecuencias esperadas, es anlogo al que hemos empleado para las pruebas
de independencia y homogeneidad.
Ejemplo 12.7
Una factora de electrnica se sirve, para elaborar sus productos, de circuitos
integrados que encarga a tres compaas ubicadas en Taiwan, Tokio y Hong-Kong.
La direccin de la empresa est interesada en conocer la proporcin de circuitos
defectuosos que se producen en cada una de las empresas subsidiarias. Con este fin,
analiza una muestra aleatoria de 600 circuitos que le han sido suministrados por las
tres factoras. Los datos estn recogidos en la siguiente tabla de contingencia:
Taiwan Hong-Kong
Con defecto
Sin defecto
Tokio
9
7
180
10
194
200
26
574
187
204
209
600
Con defecto
Sin defecto
Taiwan
Hong-Kong
Tokio
180 (187"9)
10 (8'8)
194 (195"2)
9 (9M)
200(199"9)
26
574
187
2(W
209
600
(8.1)
406
o,
7
10
9
180
194
200
0,-E
(O.-E^/E.
ir
i
8,1
S.S
9,1
178,9
1952
199,9
-1.1
1.2
-0,1
1.1
-1.2
0,1
1,21
1,44
0,01
121
1,44
0,01
0,15
0,16
0,01
0,01
0,01
0,00
0,34
La estimacin del estadstico es 0'34, que es menor que el valor crtico, 5'99, por lo
que se acepta la hiptesis nula, admitiendo que la proporcin de circuitos integrados
defectuosos que suministran las tres factoras es la misma.
12.6.1. Coeficiente 0
El coeficiente de contingencia O consiste fundamentalmente en convertir el esta
dstico x2 en un coeficiente de correlacin. Slo es vlido para tablas de dimensio
nes 2x2, y se define por:
407
(10)
O!
12.6.2. Coeficiente C
El coeficiente C se utiliza cuando la tabla de contingencia es superior a 2x2, y se
define como
(11)
Este coeficiente tiene la dificultad de que no se puede interpretar como un coefi
ciente de correlacin de Pearson, puesto que el valor mximo que puede alcanzar
depende, en cada caso, del nmero de filas y columnas de la tabla.
Se demuestra que el valor mximo que puede tomar es:
Cm
(12)
= 0'34
155+20W
que indica una relacin ms bien pequea en las calificaciones de Fsica y Qumica.
El valor mximo, en este ejemplo, sera:
408
(13)
O, =
N(h-l)
donde h=mn(r,s), siendo r el nmero de filas y s el nmero de columnas.
El coeficiente 4>c de Cramer es independiente del tamao de la tabla y, por tanto,
se puede utilizar con tablas superiores a 2x2.
Este coeficiente vara de 0 a 1, resolviendo los problemas de interpretacin que
originaba el coeficiente C.
Para el ejemplo 12.4, el valor del coeficiente Oc de Cramer es:
20'07
= 0'25
155(3-1)
O,
que confirma la relacin ms bien dbil entre las calificaciones en Fsica y Qumica.
El coeficiente C es ms usado que el coeficiente <P de Cramer; esto es as por la
fuerza de la tradicin en el uso de C.
Tratamiento 1
Tratamiento 2
Tratamiento 3
Curados
No curados
18
24
28
10
8
12
Se pueden considerar igualmente eficaces los tres tratamientos al nivel del 0'05?
12.2. Tres clases de individuos estn localizados geogrficamente segn se muestra
en la siguiente tabla:
Clase 1 Clase 2
Clase 3
Total
77
70
15
7
4
66
19
114
29
232
Zona A
Zona H
30
6
44
49
ZonaC
41
12
18
ZonaD
Total
89
409
Es independiente el hecho de pertenecer a una de las clases sociales de la localizacin geogrfica?
12.3. Un equipo de mdicos ha ensayado cinco tratamientos diferentes con 460 enfer
mos, observando si los pacientes mejoraban o no. Los resultados obtenidos figuran
en la siguiente tabla:
Tratamiento
N" de enfermos
N enfermos curados
A
95
17
B
108
10
C
82
13
1)
90
20
E Total
85
460
7
67
Medio
Alto
215
206
180
136
107
156
S
No
Prctica
Religiosa
26
30
37
34
39
31
410
Fumador
No fumador
19
31
20
28
Sexo
Con un nivel de significacin del 0'05, se puede afirmar que el hecho de ser
fumador es independiente del sexo?
12.8. Las calificaciones en Matemticas de los alumnos de primer curso de Ciencias
Qumicas han sido:
Calificacin
N de alumnos
1-2
2-3
34
4-5
5-6
6-7
7-8
8-9
9-10
15
31
40
26
10
20
Se puede considerar que estos datos proceden de una poblacin normal de media
6 y desviacin tpica 1 '2, al nivel de significacin del 0'05?
CAPITULO 13
ANLISIS DE LA VARIANZA
412
interviene una nica variable independiente, que presenta diversos niveles de trata
miento o causas asignables. Es tambin llamado anlisis de la varianza
unidireccional o diseo de factor nico.
El diseo completamente aleatorio se basa en la aplicacin de cada nivel de trata
miento a un grupo de unidades o sujetos experimentales, de modo que las unidades
se asignan a los grupos aleatoriamente, y los tratamientos son asignados tambin de
forma aleatoria a cada uno de los grupos.
La variable independiente puede ser causa de diferencias apreciables en la varia
ble dependiente, en cuyo caso se hace necesario controlar la variable independiente.
El control se puede ejercer clasificando los sujetos en bloques o grupos homogneos
con respecto a la variable independiente. La asignacin de los sujetos a cada bloque
se hace de forma aleatoria, y tambin los bloques son asignados aleatoriamente a
cada nivel de tratamiento. Este tipo de diseo se conoce como diseo de bloque
aleatorio.
Cuando el diseo completamente aleatorio incluye dos o ms variables experimen
tales independientes, presentando cada una de ellas dos o ms niveles de tratamien
tos, se tiene el diseo factorial o diseo de factor mltiple.
El diseo factorial se utiliza para estudiar los efectos que producen dos o ms
niveles de tratamientos.
Con el fin de optimizar los diseos generales, hay una serie de procedimientos,
como la replicacin o el equilibrio de los efectos, cuyo uso da lugar a diseos especia
les cuales son el diseo de bloques incompletos, el de parcela dividida y el
diseo jerrquico.
Nos vamos a limitar al estudio de los diseos generales, siguiendo la metodologa
habitual, partiendo, en cada situacin, de un ejemplo tipo.
413
En estas condiciones, se formula la hiptesis nula de que las medias de las
poblaciones son todas iguales, es decir:
Ho:u=u2=...=u
Como hiptesis alternativa, se establece la negacin de la hiptesis nula:
H.: al menos dos de las medias no son iguales.
Se parte, pues, de n poblaciones diferentes, que se suponen independientes y
normalmente distribuidas con medias u.,,u.,,..,u.n y la misma varianza a2.
Estas poblaciones se clasifican de acuerdo con los diferentes niveles de tratamiento,
formndose, de este modo, n grupos o muestras de tamao m de cada una de las
poblaciones. Hablaremos de n grupos o niveles de tratamiento (j=1,2,...,n) con m ob
servaciones o rplicas en cada uno, siendo mn=N.
Muestras
1
XTI
X
X 12
X
X Ii
X
X In
X
Xmi
X m2
Xmi
X mn
Unidades
Mtodo 2
Mtodo 3
Mtodo 4
65
72
59
70
64
82
SO
91
89
67
71
72
80
62
69
59
63
70
58
65
414
Se trata de determinar si hay diferencia significativa entre los cuatro mtodos de
enseanza, una vez elegido un nivel de significacin a.
El problema se podra abordar contrastando la diferencia entre cada dos muestras,
lo que supondra 6 pruebas diferentes. Esto, adems de la laboriosidad que supone,
implica un incremento notable del error de tipo I.
En efecto, si hay h medias, se pueden hacer r=h(h-1)/2 comparaciones pareadas.
Entonces, si es a la probabilidad de cometer error de tipo I en una de las pruebas, la
probabilidad de rechazar al menos una de las hiptesis, siendo verdadera, es l-(l-a)'; a
esta probabilidad se le llama probabilidad de error de tipo experimental.
La probabilidad de error de tipo experimental en el caso de 4 medias, para un nivel
de significacin cc=0'05, es l-0'956=0'26.
Analicemos lo que sucede si comparamos la variacin que experimenta una de las
calificaciones con respecto a la media de su grupo y a la media global:
A) Medias correspondientes a cada grupo:
X, = 66, X2 = V16 . Xj = 7'08, X4 = 63
B) Media global:
X = 704
Si elegimos una de las calificaciones, por ejemplo, la cuarta de la segunda muestra,
89, su variacin respecto de la media global es:
89-70'4=18'6
Esta variacin es la suma de la variacin con respecto a la media de la segunda
muestra, a la cual pertenece, ms la variacin de la media global con respecto a la
media de la segunda muestra:
89-70'4=(89-8 1 '6H<8 rf>70'4)=74+ 1 1'2= 1 8'6
-11,2-
-7
70'4
81 '6
89
La igualdad anterior es cierta para cada puntuacin con respecto a la media de su
correspondiente muestra:
X - X = (X- Xj + (X. - X.)
(1)
415
Esta diferencia no puede deberse a la influencia del mtodo utilizado por el profesor,
puesto que se sigui el mismo mtodo con todos los alumnos del grupo 2; se trata,
por tanto, de una diferencia que no tiene explicacin a no ser que se haya producido
un error a causa del mismo proceso de muestreo.
La diferencia entre la media global y la media del grupo aporta, en cambio, la
influencia del mtodo seguido en cada muestra ms la parte de error que corresponda
al propio muestreo.
La igualdad (1 ) surge de admitir un modelo matemtico lineal, que supone aceptar
la aditividad de los efectos de las causas asignables y no asignables.
y llamamos
a la diferencia entre la media de cada tratamiento y la media de la poblacin, ser:
u,= u+a,
Entonces, sustituyendo este valor en (2), resulta:
= li +a ,+8
(3)
X* .u = a, +o
(4)
Xy
o, lo que es igual:
donde Xa i = 0,
,. -i
En efecto:
i-i
i-i
i.i
416
La ecuacin (3) corresponde a un modelo matemtico terico, donde:
1 ) u. es la media de todas las observaciones, y representa la parte de actuacin que
se puede atribuir al hecho de ser un miembro de la poblacin (un estudiante) de la
que se extraen las muestras;
2) a representa el efecto debido al tratamiento j;
3) 8i es una medida de la observacin j-sima del grupo i-simo, y representa la
parte de actuacin que corresponde al hecho de que se trata de un individuo
nico, cuya actuacin no se ha explicado, por lo que se le llama error.
El nico elemento de la expresin (3) que podemos observar realmente es X; los
otros elementos representan componentes del modelo hipottico que hemos elegido.
Si se repite el experimento, haciendo observaciones sobre un cierto nmero de
sujetos (estudiantes) de cada grupo, se pueden obtener estimaciones empricas de las
componentes del modelo terico:
X es un estimador de |i,
X , - X es un estimador de a ,
Xn . X , es un estimador de 8i ,
siendo x = XXx la media global y x, ^X la media de cada grupo j.
" M M
m 1=
Como los errores 8 se distribuyen segn una normal N(0,o:), los Xi siguen una
distribucin normal N(|i,a).
Se establece la hiptesis nula Hn de que las medias de todos los tratamientos son
iguales, es decir
H= |i, = n, para j= 1,2
H = a, =0, paraj=l,2
o lo que es equivalente
417
varianza poblacional: estimador de la varianza intragrupo y estimador de la
varianza intergrupos.
En efecto, si partimos del modelo dado por la ecuacin (4), utilizando los estimadores
de las componentes del modelo, se obtiene la igualdad
x,1-x=(xo-x,) + (x,-x)
en que se basa la construccin de estos estimadores.
El estimador intragrupo es una medida de la dispersin de los datos de cada
muestra o grupo con respecto a los restantes datos del propio grupo.
El estimador intragrupo viene dado en funcin de las diferencias de las observa
ciones y la media de cada grupo; a la suma de estas diferencias se le llama suma de
cuadrados intragrupo o debidos al tratamiento (SCA):
(5)
donde x.i es Ia media del j-simo grupo y X son las distintas observaciones. Al
tratarse de n grupos, una vez evaluadas n-1 diferencias, la siguiente es obligada,
luego a la suma de cuadrados intragrupo corresponden
gla=n- 1 grados de libertad.
El estimador intergrupos es una medida de la dispersin de las medias de los
diferentes grupos.
El estimador intergrupos, por tanto, viene dado en funcin de las diferencias de
las medias de los distintos grupos y la media global X.,-X
A la suma de los cuadrados de dichas diferencias le llamamos suma de cuadrados
intergrupos o suma de cuadrados debidos al error (SCE):
(6)
En cada grupo hemos supuesto m rplicas u observaciones, por lo que hay m-1
grados de libertad para cada grupo; como son n grupos, a la suma de cuadrados
intergrupos le corresponden
gle=n(m-1)=nm-n=N-n grados de libertad.
Proposicin 13.1: Cuando se cumple la hiptesis nula, los estimadores
MCA =
SCA
.^
SCE
y MCE = n-l
n(m-l)
(7)
418
MCA es la media cuadrtica intragrupo o media cuadrtica debida al trata
miento y MCE es la media cuadrtica intergrupos o media cuadrtica debida al
error.
El anlisis de la varianza se basa en que el estadstico
MCA
MCE
(8)
(9)
donde X,=aX y X =
X
=/ i=1
lW H
ni
Hll[X-x1)' + 2j,J,(X-XJ)(xi-x.)+Il(x,-l).'
.i J.1
i.1 i.1
Y(XirxiX%-x) = %(xrX)%\Xv-xi)
,i i.i
,i
Ahora bien,
XU,rxJ = o
,i
419
por ser la suma de las desviaciones de los elementos de cada grupo respecto a su
media.
,
Por consiguiente
'L(xi-Xj^L[Xii-xJ) = 0
i=i
m
quedando
in
'
(11)
420
Ya hemos sealado, en efecto, que el estadstico
F=
MCA
MCE
SCT = J,^(xrx):
Para su clculo, es ms cmodo utilizar la expresin equivalente:
\'m "
XI>.
T
(12)
422
b) se suman los cuadrados de todas las observaciones(C):
C=65:+72:+...+65:= 1 00870
c) se divide el cuadrado de la suma de todas las observaciones entre el nmero
total de observaciones(D):
D=1408720=99123'2
d) la suma de cuadrados total es:
SCT=C-D=100870-54915,2=1746,8
B) Suma de cuadrados intragrupo (SCA):
m
scx=2ux-x)
Para el clculo, es ms cmodo utilizar la expresin equivalente:
(13)
409:
+
354: 3152
+ +
= 1001 44'4
422
2) Grados de libertad:
A) Grados de libertad intragrupo (gla):
gla=n-1=4-1=3
B) Grados de libertad intergrupos (gle):
gle=n(m- 1 )=nm-n=N-n=20-4= 1 6
C) Grados de libertad totales (glt):
glt=20-1=19
Se puede comprobar que no hay error, teniendo en cuenta que:
glt=gla+gle=3+16=19
3) Medias cuadrticas:
A) Media cuadrtica intragrupo (MCA):
MCA=SCA/gla= 1 02 1 ' 2/3=340'4
B) Media cuadrtica intergrupos (MCE):
MCE=SCE/gle=725'4/l 6=45'35
4) Estimacin del estadstico (F):
El valor del estadstico F es:
F=MCA/MCE=340'4/45'35=7'5
Para la distribucin F con 3 y 1 6 grados de libertad, la tabla correspondiente nos
proporciona, para niveles 0'05 y 0'Ol, los valores:
F
F
=3'24
=V>9
'005. 3. 16 J "
423
SC
gl
MC
Intragrupo (Tratamiento)
Intergrupos (Error)
10212
725'6
3
16
340-4
45'35
7-5
Totales
1746'8
19
Origen de la variacin
t=
(14)
JMCE
424
sigue una distribucin t de Student con N-n grados de libertad, donde N es el nmero
total de observaciones, n el nmero de grupos, mh el nmero de observaciones de la
h-sima muestra y m^ es el nmero de observaciones de la k-sima muestra.
Utilizando este estadstico, se pueden ir contrastando cada pareja de medias por
separado, rechazando aquellas parejas que den un resultado significativo al nivel de
significacin elegido previamente.
En el caso particular de que todas las muestras tengan el mismo nmero de ele
mentos (mh=mk=m), se puede determinar, para un nivel de significacin a, la menor
de las diferencias significativas (LSD: Least Significant Difference) entre las medias,
necesaria para que el contraste d un resultado significativo. En efecto, basta con
hallar
LSD =U MCE
(15)
luego:
X.J
X,
X.}
X.2
X,
3
0
X.3
X.i
7,8
4.8
0
18,8*
15,8*
11,0*
0
425
13.3.5.2. Prueba de Scheffe
La prueba anterior se poda haber realizado elevando t al cuadrado, con lo que
(Xk-Xkf
I
1
MCE +
^nth
ml J
xj
X,
X,
x2
3
0
A' .
7,8
4,8
0
18,8*
15,8*
11.0
0
426
13.3.5.4. Prueba de Duncan
Esta prueba se basa en la nocin de rango estudentizado, cuya idea es que el
rango de cualquier subconjunto de h medias debe sobrepasar un cierto valor antes de
que se encuentre que cualesquiera de las h medias son diferentes.
Este valor es el rango menos significativo para las h medias, y lo designaremos
por RD en el caso de la prueba de Duncan.
El rango menos significativo es el producto del rango estudentizado menos
significativo de Duncan, rD, por la desviacin tpica de la diferencia de medias, oD:
siendo
on ,
427
X.4
X,
X.}
Xa
X,
3
0
x2
Xj
7,8
4.8
0
x2
18,8*
15,8*
11,0*
0
MCE
siendo a, =
Los valores del rango estudentizado de Tukey vienen tabulados en la tabla A.9
del apndice A. Si el valor absoluto de una de las diferencias es mayor que RT, se
consideran las medias correspondientes significativamente diferentes.
Apliquemos la prueba de Tukey al problema planteado en el ejemplo 13.1.:
El valor del rango de Tukey, para a=0'05, k=4 y gle=16, nos lo da la tabla A. 9, y es
r=4'05
Como la desviacin tpica de las diferencias es oT=4'26, el rango menos significa
tivo de Tukey es
Comparando las diferencias entre las distintas medias y disponindolas en una tabla,
se obtiene el mismo resultado que daba la prueba de Scheff (ver tabla pg. 428).
De la prueba de Tukey se deduce, por tanto, que las diferencias significativas se
dan entre la primera y segunda, y entre la segunda y cuarta medias.
Observamos cmo la diferencia entre la segunda y tercera medias no es detectada
como significativa por las pruebas de Scheff y de Tukey, mientras que s es detecta
da esta diferencia por la prueba de Duncan y la prueba t protegida.
428
x4
X.4
X,
X2
3
0
7,8
4,8
0
18,8*
15,8*
11,0
0
Xj
X.i
X.i
Este valor nos indica que hay una relacin bastante fuerte entre los distintos
mtodos de enseanza y las calificaciones del alumno.
429
A,III'
. ,, A.,,
.,...,' A mil, .
211'
//
/
7/
Al
co
c,,
A?
c.
c-
Hl
B2
B3
IW
nmero de sujetos adecuado para los diferentes niveles de tratamiento de cada varia
ble, as como en el momento de hacer una interpretacin de los resultados.
Con el fin de facilitar las frmulas generales, vamos a considerar un experimento de
dos factores A y B, en el que las observaciones se asignan de modo aleatorio. Se
consideran n niveles de tratamiento para el factor A y p niveles de tratamiento para el
factor B, obtenindose as np celdas de tratamiento, distribuidas en n filas y p columnas.
Cada una de las celdas contiene m observaciones, que constituyen m rplicas de
combinaciones de tratamientos de los diversos niveles de cada factor.
En concreto, trabajaremos sobre un ejemplo tipo, con dos variables independien
tes (dos factores A y B), presentando el primer factor dos niveles de tratamientos (Al
y A2), y el segundo, cuatro niveles (B1, B2, B3, B4). Tenemos as 2x4=8 celdas.
El diagrama de la figura nos puede ayudar a comprender el diseo.
En la celda Cn estn las m observaciones o rplicas Xn,,X,n,...,Xml,, que correspon
den a la combinacin de los tratamientos Al y B1.
Ejemplo 13.2
430
Realizada la cosecha, se obtuvieron los siguientes resultados (expresados en fane
cas por hectrea):
Al
Bl
8
10
13
11
8
Variedades
B2
B3
11
7
8
13
9
13
6
11
6
6
B4
14
7
11
11
12
10
12
11
13
11
3
8
8
5
6
4
3
8
7
8
Fertilizantes
A2
9
10
16
11
14
(17)
(18)
o, lo que es igual:
431
Se admite la homogeneidad entre todas las varianzas de las np poblaciones.
Las restricciones del modelo vienen dadas por:
1 A
yk es la media de cada celda.
ni
J P
432
H0': Las interacciones entre los tratamientos debidos al primero y segundo factor
son nulas, es decir:
H':Ylk=0,j=1.2 nyk=1.2 p.
Esta hiptesis se contrasta con la alternativa:
Hi': Yk*0, Para algn par de valores j,k.
Las dos primeras hiptesis se refieren a la no existencia de diferencias entre las
medias de la poblacin. La tercera hiptesis contrasta la interaccin debida a los dos
factores.
(19)
sc,-XXXta-xJ2
(20)
SCI = t(XrXy
,=l i-1 k-l
(22)
433
2-SZZU-*-*-)2
(23)
(24)
MCI
SCI
,11
(26)
SC2
MC2.
(27)
g'2
C) Media cuadrtica de la interaccin (MCJ2):
MC12 =
SC12
gll2
(28)
SCE
gle
(29)
MCE =
434
En el caso concreto del diseo 2x4, se comprueban tres hiptesis nulas que hacen
referencia al primero y segundo factor y al efecto conjunto de ambos factores.
La primera prueba trata de comprobar el efecto del primer factor (tipo de fertilizan
te) sobre la cosecha. Se utiliza el estadstico
F=
MCI
MCE
(30)
(31)
MC12
MCE
(32)
Al
A2
Suma columnas
Bl
B2
B3
B4
Suma filas
50
57
107
40
30
7(1
50
60
110
55
30
85
195
177
Total=372
1) Sumas de cuadrados:
A) Suma de cuadrados total (SCT): Se calcula del mismo modo que en el anlisis
unidireccional, utilizando la igualdad:
435
Ix
N
]>>,
l>,
SC1 =
mp
mp
/ , / . xod
2^2-,2^ ^'Jk
im
) \m i.l M
J
-+...+mp
N
S , P
)
+... + -
SC2 =
mu
mu
mn
436
a) hallar la suma(T) de los cuadrados de los totales de cada columna divididos por
el nmero de elementos de cada columna:
1072 702 11O2 852
T = -,o-+w+lo+ Jo-356T4
b) restar de T el valor D, ya evaluado para el clculo de SCT:
SC2=T-D=3567'4-3459'6=107'8
D) Suma de cuadrados para la interaccin: La suma de cuadrados para la interaccin
se obtiene, en la prctica, utilizando la expresin:
( '"
SC12 = y-'
fm
Y
) .
-+...+
fm
.S-T+L
SCE=380'4-8' 1-107'8-79'3=185'2
2) Grados de libertad:
Los grados de libertad que corresponden a cada suma de cuadrados, segn he
mos ido viendo, son:
A) Grados de libertad del primer factor (gil): Vienen dados por el nmero de
niveles del primer factor menos 1 :
gll=n-1
437
En el ejemplo:
gl 1=2- 1=1
B) Grados de libertad del segundo factor (gl2): Vienen dados por el nmero de
niveles del segundo factor menos 1 :
gl2=P-1
En el ejemplo:
gl2=4- 1 =3
gll2=lx3=3.
glt=40-1=39
gle=40-8=32
3) Medias cuadrticas:
Conocidas las sumas de cuadrados y los correspondientes grados de libertad, las
medias cuadrticas son evaluadas sin ms que hallar sus cocientes respectivos:
A) Media cuadrtica para el primer factor (MCI ):
MCl=SCl/gll=8' 1/1=8' 1
B) Media cuadrtica para el segundo factor (MC2):
MC2=SC2/gl2=107'8/3=35'93
C) Media cuadrtica para la interaccin (MCI 2):
MC 1 2=SC 1 2/gl 12=79'3/3=26'43
D) Media cuadrtica intergrupos (MCE):
MCE=SCE/gle=l 85'2/32=5'78
438
Los contrastes dan los siguientes resultados:
/. Primera prueba:
F=MC1/MCE=8' 1/5'78=1'40
Para la distribucin F con 1 y 32 grados de libertad, la tabla correspondiente nos
proporciona, para un nivel 0'05, el valor:
1
=4' 15
0'05. 1.32
=2'90
1 0'05. 3. 32 * *"
1 005. 3. 32
=2'90
SC
gl
MC
8'1
10T8
79'3
185'2
1
3
3
32
8' 10
35'93
26'43
578
1'4
6'21
4.57
Totales
380'4
39
439
1 3.4.6. Pruebas de comparaciones mltiples
De modo similar al proceso seguido en el anlisis de la varianza, si el resultado del
contraste de la F es significativo, se deben realizar pruebas adicionales para especifi
car cules son las medias que difieren entre s y cul es la influencia de la interaccin
de los factores.
Segn sean los resultados del contraste de la interaccin (resultado de la tercera
prueba), tenemos dos alternativas:
/. El resultado de la interaccin es significativo:
Si la interaccin es significativa, los efectos de los factores no pueden ser analiza
dos aisladamente. Para hacer un anlisis conjunto, se debe realizar una prueba adicio
nal, como la prueba de efectos principales simples.
//. El resultado de la interaccin no es significativo:
Al ser nulo el efecto de la interaccin, se considera cada uno de los factores como
si se tratara de anlisis de la varianza unidireccional. Pueden presentarse, en este
caso, las siguientes situaciones:
1 ) Una de las dos primeras pruebas no es significativa: El factor correspondiente
a la prueba no significativa no ejerce efecto alguno sobre los resultados, por lo
que no se deben hacer comparaciones mltiples.
2) Uno de los factores significativos slo tiene dos niveles: No es necesario
realizar la prueba de comparaciones mltiples, puesto que ya se sabe que la dife
rencia entre las dos medias es significativa.
3) Una de las dos primeras pruebas es significativa y el factor correspondiente
tiene ms de dos niveles: En este caso, se realizan las pruebas de comparaciones
mltiples para las distintas medias.
En el ejemplo 13.2. han resultado significativas la prueba de interaccin y la del
segundo factor.
440
interpretacin de los efectos de la interaccin. Consiste esencialmente en contrastar
las siguientes hiptesis nulas:
Hn:
Hn:
Hn:
Hn:
a=0,
a=0,
a=0.
a=0,
para
para
para
para
todo tratamiento j
todo tratamiento j
todo tratamiento j
todo tratamiento j
al
al
al
al
nivel
nivel
nivel
nivel
B1.
B2.
B3,
B4.
B2
Bk
Total
T
T
T
T
T:
T,
p1
Total
p2
T,
T,
T\
B2
B3
B4
Tot. filas
50
60
110
55
30
195
177
Total=372
Al
50
40
A2
T. columnas
57
107
30
70
85
SCA(B)=
V
505
575
107= 4,9
10
441
V
405
30- ~ 705
10
505
605
11010
10
mn
mu
555
305
85'
= 62,5
10
SCA(B2) =
mu
11I
( n
1t3
SCA(B3) :
~H
ln
~\
( n
SCA(B4) =
ni
La suma de estos cuatro sumandos debe ser igual a la suma de cuadrados del
primer factor ms la suma de los cuadrados de la interaccin:
SC1+SC12=SCA(B1)+SCA(B2)+SCA(B3)+SCA(B4)=87'4
lo que puede servir de comprobante de las operaciones.
A) Suma de cuadrados de B a los distintos niveles de A:
n f^
SCB(Al)-.
505
402
5
502
5
552 1952
5 ~20
572
302
602
302 ~1772
? ?, .,.-
v
X
lT2
ni
mu
SCB(A2) =
= 163' 35
5555 "20
La suma de estos dos sumandos debe ser igual a la suma de cuadrados del segun
do factor ms la suma de los cuadrados de la interaccin:
SC2+SC12=SCB(A1)+SCB(A2)=187'1
lo que sirve de comprobacin.
Al hacer los diferentes contrastes con la F de Fisher-Snedecor, hemos de tener en
cuenta que el factor A se ha dividido en 2 niveles, por lo que debemos dividir el nivel
de significacin a en dos partes, de modo que, para encontrar el valor crtico en la
tabla de la F, hay que buscar el valor correspondiente a
a/2=0'05/2=0'025
442
Origen de la variacin
SC
Si
A en nivel Bl
A en nivel B2
A en nivel B3
A en nivel B4
B en nivel Al
B en nivel A2
Variacin interceldas
4.9
10
10
62,5
23,75
1633
1852
1
I
1
1
3
3
32
Totales
459,7
40
MC
4,9
10
10
623
7,91
54,45
5,78
F
0,86
1,73
1,73
10,81
136
9,42
443
Bl
B2
B3
B4
Bl
B2
B.1
B4
444
sK
X:
X,
1"5
0
X,
37*
2'2
0
'H*1^
X ,
4*
2'5*
0'3
0
x.2.
x .24
x.
x.2.
X-21
X '24
A".,,
x.
0
0
5.4
5,4*
0
6*
6*
0,6
0
445
Resultan significativas, en el nivel A2. las diferencias de las medias de Bl con B2,
B 1 con B4. B2 con B3 y B3 con B4.
Como resumen final, podemos concluir:
A) Si se siembra la variedad de trigo B4, se debe utilizar el tipo de fertilizante Al .
ya que Al incide de modo positivamente significativo en la variedad B4.
B) Si se utiliza el fertilizante A2. es preferible sembrar las variedades Bl B3.
C) Si se acta con independencia del fertilizante, con las variedades B 1 B3 se
obtiene una mejor produccin.
IM lidiante 1
Estudiante 2
Estudiante 3
Estudiante 4
Qumica
Dibujo
6.8
8.2
73
9.1
5.8
9.6
8.0
6,7
7.3
9,0
6.4
7.5
Con un nivel de significacin del 0'05, se puede llegar a la conclusin de que las
cuatro asignaturas tienen el mismo grado de dificultad?
13.2. Con el fin reforzar el crecimiento de un cierto tipo de planta, un equipo de
bilogos utiliza cinco concentraciones diferentes de un determinado elemento. Se
seleccionan 30 plantas al azar, que se distribuyen en 5 grupos de 6 plantas cada uno.
Despus de aplicar un tipo distinto de concentracin a cada uno de los grupos, se
midieron las plantas, obtenindose los siguientes resultados:
Grupo 1
Grupo 2
Grupo 3
1T4
117
10'3
107
129
ri
12'3
12'6
ll'l
12'3
9'3
10'5
107
10'8
10'2
10'0
10'9
11'6
Grupo 4
Grupo 5
8'6
107
10'2
10'5
11'2
10'3
10'5
10'2
9'5
97
11'6
11'3
446
13.3. Para probar la eficacia de cuatro tratamientos distintos sobre tres tipos diferentes
de enfermedades, se confeccionaron aleatoriamente 4 grupos, a cada uno de los cua
les se asignaron al azar 9 pacientes con el mismo tipo de enfermedad.
Tres de los pacientes de cada grupo fueron tratados con una terapia distinta. Los
resultados de los distintos tratamientos se evaluaron de 0 (mnima efectividad) a 5
(efectividad mxima), segn recoge el siguiente cuadro:
Bl
Tipo
de
Terapia
Enfermedad
B2
B3
B4
Al
0
0
1
2
1
1
2
0
2
3
2
4
A2
2
1
0
1
0
1
3
4
5
0
1
0
A3
1
4
4
0
0
0
1
1
2
0
2
0
Grupo 2
Grupo 3
Grupo 4
14'5
14'2
14'7
15'3
16-1
173
16'8
16'3
15'9
167
159
14.8
16'2
170
15'9
16'6
16'2
14'6
16'8
157
1 ) Realizar el contraste para ver que no hay diferencia significativa en las distintas
formas de administrar el tratamiento. 2) Si el contraste resulta significativo, aplicar
447
alguna de las pruebas pareadas para detectar dnde se dan unas diferencias significa
tivas.
13.5. Se han preparado tres tipos de piensos compuestos para alimento del ganado
vacuno, que se administra a vacas de tres razas distintas, anotando la ganancia media
en peso al cabo de un mes:
Tipo de pienso
ABC
Raza 1
Raza 2
Raza 3
21
20
18
20
26
28
15
21
15
3
5
6
4
4
5
6
7
5
7
9
8
9
10
s
8
9
9
9
10
9
8
9
9
448
12
9,5
6
9.5
7,6
8
14.5
82
7
8
9
7,5
Grupo 1
5
6
4
4
5
4
Grupo 2
7
6
6
8
7
8
Grupo 3
9
8
X
4
10
9
Grupo
14
12
14
15
16
16
449
Enfermedad
Al
Tipo
Bl
B2
B3
37
31
35
29
43
39
27
24
29
32
28
33
30
33
28
22
29
35
44
44
47
39
33
31
21
23
25
20
27
24
22
21
19
25
26
22
29
26
22
31
23
26
32
37
40
37
32
27
de
examen
A2
CAPITULO 14
INFERENCIAS SOBRE REGRESIN LINEAL
Y CORRELACIN
452
(1)
(2)
453
Sea {(X,,Y1),(X2,Y2),...,(XN,YN)} una muestra aleatoria de tamao N. Entonces, para
cada valor x. tenemos una variable aleatoria Y , segn acabamos de ver. Si admitimos
que todas las medias M(Y.) caen sobre la lnea recta, cada variable aleatoria Y puede
ser descrita por la expresin
(3)
y,=a+P X,+E,
llamada modelo de regresin lineal simple, donde E es el error del modelo, que debe
tener necesariamente media cero.
Cada una de las observaciones particulares de la muestra debe verificar la ecua
cin (3):
v =a + (3 x+bi
donde 8 es el valor particular del error cuando Y=y .
P = tt + I3 x
Por otra parte, cada una de las observaciones particulares de la muestra verifica la
relacin
y = a + bx + e
,4,
454
Haciendo mnima esta expresin, en el captulo 6, encontramos las frmulas para
obtener las estimaciones a y b:
Nlx,y,-{lx,tLy,
Nlx;-(lx.f
(5)
5>,-b?.x,
N
(6)
a-
Nl.xf-{lxif
CT
2b
II. El estimador A =
Sxf
cr.
varianza a; =
.VSU - x)
455
(7)
N
r; = I(v-y)2=Iv
, (M.
(8)
A'
s]
1
.* x\
N
1 2 " T\
NTx
(10)
456
T
T~
resulta: SCE = 7"; - 2-^T +^7; = T; - bT, cqd.
Con las mismas hiptesis que las propiedades I y II, se verifica:
IV. El estadstico T =
B- B
= se distribuye segn una t de Student con n-2 grados
de libertad.
N.
457
La relacin ( 10) se puede poner en la forma
Tl = bT+SCE
que, a su vez, si se desarrollan las expresiones que definen a T \ bT y SCE, se llega
a la relacin
di)
SCE=Jjy,-y,f
Designaremos a la suma de los cuadrados del primer sumando del segundo miem
bro por SCR (suma de cuadrados debida a la regresin):
SCR=Jjy,-y,)?
y a la suma de cuadrados del primer miembro le designaremos por SCT (suma de
cuadrados totales):
(12)
con 1 y
458
SCR/1
sigue una distribucin F de Fisher-Snedecor con
SCE/(n-2)
1 y n-2 grados de libertad.
Designaremos por MCR (media cuadrtica de la regresin) al cociente de dividir la
suma de cuadrados debida a la regresin (SCR) por su nmero de grados de libertad ( 1 ):
II. El estimador F =
SCR
MCR =
I
SCE
n-2
(13)
Suma de
Cuadrados
Grados de
libertad
Cuadrados
medios
Regresin
SCR
MCR
Error
SCE
n-2
MCE
Total
SCT
n-1
Contraste
F=MCR/MCE
Ejemplo 14.1
En un laboratorio de anlisis qumicos, se han obtenido los siguientes valores de
la capacidad calorfica de la plata metlica:
T("K)
15
Cp(J/mol) 0.7
30
50
70
90
110 130 150 170 190 210 230 270 290 300
4.7 11,6 16,3 19.1 20.9 22,1 22,9 23,7 24,1 21,4 24,2 25,3 25,4 25,5
459
existencia de una relacin lineal entre la capacidad calorfica de la plata y la tempera
tura.
Solucin: Tenemos que hacer el contraste de la hiptesis nula Ha = P =0 con la
hiptesis alternativa H, = (3 * 0 .
Siguiendo la tcnica del anlisis de la varianza, debemos calcular las sumas de
cuadrados, sus grados de libertad y los cuadrados medios.
A) Sumas de cuadrados:
^ , ( !y,)"
287, 92
SCT = lyj = 6358,87
= 833, 1 1
N
15
b=
WXX,y,-(IjO(S.v,) 15x52713,5-2305x287,9
';V^ =
^ = 0,069
Nlx;-(I.x,)~
15x477125-2305-
T = Ix,y,-
(Ix,)(lv)
2305x287,9
= 52713,5 = 8472,87
N
15
MCE =
SCE 248,48
=
= 19,11
n-2
13
C) Estimador:
MCR 584,63
=
= 30,59
MCE 19,11
Si elegimos un nivel de significacin a=0'05, el valor crtico es F , =4'67.
Como F=30'59>4'67, el contraste resulta significativo, luego rechazamos la hipte
sis nula y admitimos, por lo tanto, la existencia de una relacin lineal entre la tempera
tura y la capacidad calorfica de la plata, de acuerdo con los datos de la muestra.
Los datos se recogen en la siguiente tabla resumen:
F=
460
Fuente de
Variacin
Suma de
Cuadrados
Grados de
libertad
Cuadrados
medios
Regresin
584.63
584,63
Error
248,48
13
19,11
Total
833.1 1
14
Contraste
F=30.59
B-P
/yfti
Como T sigue una distribucin t de Student con n-2 grados de libertad, bajo la
hiptesis nula H p = 0, se evala el valor que toma
b
T=
TJr!
para la estimacin de B proporcionada por la muestra.
Elegido un nivel de significacin a, para una prueba bilateral, si T<-t/, o TVt^, se
rechaza la hiptesis nula. En otro caso, se acepta.
El estadstico T permite tambin la construccin de un intervalo de confianza para
B. que vendr dado por
^,,^<P<fl + ,,-^
y, para una muestra particular, se tendr el intervalo
s
/ =
Ejemplo 14.2
Con los datos del ejemplo 14.1, se trata de: i) contrastar la hiptesis nula H u p =0
con la hiptesis alternativa H = P * 0 utilizando el estimador T; ii) hallar un intervalo
de confianza para B.
461
Solucin:
i) Contraste: Hemos evaluado antes b=0'069. Necesitamos calcular:
, v , (Ix.)'
23052
T\ = Lx- = 477125
= 1229233
N
15
r-r
,
, SCE 25171
jT\ = J122923'3 = 350'6 y s2 =
=
=> s = 4'4
n-2
13
,
0V69
Por lo tanto
t=
= 5'49
4'4/350'6
luego
b2T\
s'
bT
s'
SCR
s'
SCR
SCE /(n-2)
que sigue una t de Student con n-2 grados de libertad, para realizar el contraste de la
hiptesis nula H = a =0 con la hiptesis alternativa H, = a * 0 . Este estadstico
tambin permite construir un intervalo de confianza para a, que vendra dado por:
462
Ejemplo 14.3
Con los datos del Ejemplo 14.1: i) contrastar la hiptesis nula Ha=a = 0 con la
hiptesis alternativa Hl = a * 0. ii) hallar, para a, un intervalo de confianza del 95%.
Solucin: Adems de los datos que ya hemos evaluado, necesitamos
Xy,-iX*N
Entonces
a-0
8' 65-0
/ = iys =
,
= = 3' 93
.XI
477125
4'4J
NT.
V 15x122923'3
. (3'32,13'48)
oi=<r
j- (x0-xY
N
T2
463
Entonces, si aproximamos a2 por
s2, el estimador
,
Y -P
TI (x0-x)
v10
100
20C
/ , (x0-xf
1 M0-xY
siendo t- el valor crtico de la t de Student con n-2 grados de libertad para un nivel
de significacin a y una prueba bilateral.
Ejemplo 14.4
Con los datos del ejemplo 14. 1 . queremos determinar un intervalo de confianza del
95% para la respuesta media Po correspondiente a un valor de la temperatura x, = 100K.
Solucin: Por los clculos realizados antes, sabemos que b=0'069 y a=8'65, luego
la ecuacin de la recta de regresin muestral es
y=8'65+0'069x
Entonces, para xQ=100, se obtiene y =8'65+0?069- 100= 15'55
Disponemos de los datos:
s=4'4, TsM22923'3, \lP , =2' 16 y = = X* = 153'66.
N
Luego un intervalo de confianza del 95% para PQ es:
, 1
100 - 1537 '
1 (100 - 1537 y
/ = 15'6-2'16-4'4-l + ,15'6 + 2'16-4'4, + 15
122923'3
\ 15
122923'3
= (13,18'4)
Si repetimos los clculos para cada uno de los distintos valores que le podemos
asignar a xo, se irn obteniendo los correspondientes lmites de los intervalos de
confianza para cada respuesta media Po.
464
De este modo, se obtienen, para la recta de regresin estimada, los lmites de
confianza superior e inferior de la respuesta media P0, segn puede apreciarse en la
figura 14.2.
/ (x0-x)
N
T2
/, 1 ,(x-x)T
] (x,-xf
/=
465
Podemos observar cmo este intervalo es ms amplio que el intervalo para la
respuesta media, como era de esperar, ya que el error de prediccin es mayor cuando
se predice un solo valor que cuando se predice una media de valores.
N = 2>,
Si designamos por
i- i
y =
(14)
(15)
fli ~ ' i=l
466
Una combinacin lineal de stos viene dada por
(16)
=i
n,
i.i i.i
k
n ~ l i=
nl
,i i.i
n
n,
n,
Rr
R
La ltima igualdad surge de hacer la sustitucin y = teniendo en cuenta que
=1
Finalmente queda:
k
n,
R;
(17)
(18)
467
MCA
SCE-SCEP
k-2
(19)
MCEP-
SCEP
n-k
(20)
(21)
Suma de
Cuadrados
Grados de
libertad
Cuadrados
medios
Regresin
Error
Falta Ajuste
Error puro
SCR
SCE
SCA
SCEP
1
N-2
k-2
N-k
MCR
MCE
MCA
MCEP
Total
SCT
N-l
Contraste
F=MCR/MCE
F=MCA/MCEP
Ejemplo 14.6
Para una serie de disoluciones acuosas de etanol, se han determinado los volme
nes especficos(Y) para las fracciones(X) de masa de etanol. controlando stas a tres
niveles, cuyos resultados figuran a continuacin. Se trata de:
1 ) Ajustar una recta de regresin de Y sobre X.
2) Realizar un contraste para la falta de ajuste.
468
Prueba
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
02
0'2
07
0'3
07
0'3
0'4
0'4
0'4
0'5
0'5
0'5
0'6
0'6
0'6
07
07
07
0'8
0'8
0'8
0'9
0'9
0.9
roo9
ron
roi8
ro30
1'025
T023
ro6o
T053
ro70
1'076
row
T099
noi
ri3o
ri25
1'180
ri53
1'171
1701
1195
ri83
1'194
1710
1728
i=l l=l
= 0'94253
469
Luego la recta de regresin muestral es:
y=0'9425+0'3045x
2) Contraste sobre falta de ajuste:
Se trata de contrastar Hi= la regresin es lineal con la hiptesis alternativa H =
la regresin no es lineal.
Calculamos, en primer lugar, las sumas de cuadrados:
SCT = Ti = 0'12052, SCR = bT = 0'l 1687, SCE = Ti - bT = 0W365
Para calcular la suma de cuadrados del error puro, necesitamos los R:
Para x,=0'2, es R=3'044 y R,2=9'26593
Para x,=0'3. es R =3'078 y R,2=9'47408
Para x =0'4, es R =3' 183 y R,2=10' 13 148
Para x 4=0'5, es R 4=3'265 yJ R,2=10'66028
4
Para x,=0'6, es Rs=3'356 y R^l 1 '26273
Para x =0'7, es R =3'504 y R 2=1 1 '27801
Para x7=0'8, es R7=3'579 y R72=12'80924
Para x8=0'9, es R8=3'637 y R82=13' 19142
con lo cual, es:
SCEP = X yl - Z ' = 29'693145 - 29'691055 = 0'002089
La suma de cuadrados debida a la falta de ajuste es. por tanto:
SCA=SCE-SCEP=0'00365-0'00209=0'00 1 56
Las medias cuadrticas son
MCR=0' 11687/1=0' 11687
MCE=0'004/22='00181
MCA=0'00 1 56/6=0'00026
MCEP=0'00209/1 6=0'000 1 3
La estimacin para el contraste de la falta de ajuste es
F,=2.
Al ser los grados de libertad debidos a la falta de ajuste k-2=8-2=6 y los grados de
libertad del error puro N-k=24-8=16, para el nivel de significacin a=0'05, el valor
crtico de F es
470
La siguiente tabla de ANOVA recoge todos los datos:
Fuente de
Variacin
Suma de
Cuadrados
Grados de
libertad
Cuadrados
medios
Regresin
0' 11687
0' 11687
Error
0'004
22
0'00181
Falta Ajuste
0'00156
0'00026
Error puro
0'00209
16
0'000B
Total
0' 12052
23
Contraste
F=2
471
4n~i
2) El estadstico t =
"'
-ir?
n-2 grados de libertad.
Consideremos el siguiente ejemplo:
Ejemplo 14.7
Un empresario realiza un estudio comparativo de los gastos que ha venido reali
zando en publicidad en las distintas cadenas de televisin y de las ventas de sus
productos durante diez semanas, obteniendo los siguientes resultados (expresados
en miles de pesetas):
Publicidad
Ventas
25
30
20
25
35
40
45
30
25
40
450
500
430
480
520
550
600
460
460
500
Al empresario le interesa averiguar si existe alguna relacin de tipo lineal entre las
472
4U?
2'574
0'172
14'97
473
Volviendo al ejemplo 14.7, si tomamos un nivel de significacin a=0'05. la tabla
A. 10. para una prueba bilateral y N-2=8 gl. proporciona un valor crtico r=0'632.
Como el valor de la estimacin del coeficiente de correlacin es r=0'91>0'632, se
rechaza la hiptesis nula, aceptando que efectivamente se da en la poblacin una
correlacin lineal entre la cantidad que se invierte en publicidad y la recaudacin por
ventas, que coincide con el resultado que hemos obtenido antes.
f(n) = yfTl
el factor de equilibrio ser:
5 =Vf(n)= p,y[l
Supongamos que, en el ejemplo 14.7, contrastamos el valor especfico concreto
para la hiptesis alternativa
474
5 = p,J^H
resulta
/
8-
Pl
Pi
La tabla A. 7, para a=0'05 y una potencia de 0'70, nos proporciona el valor 8=2'5.
Entonces
2'52
N = -;+I = lI
0'8Luego se necesita una muestra de tamao 1 1 para conseguir una probabilidad 0'70
de rechazar la hiptesis nula, si el valor de p, es 0'8 ( -0'8, puesto que el contraste
es bilateral).
" i
475
Por lo tanto, si r=0'8, es r=0'64, y podemos afirmar que el 64% de la variacin total de
los valores de Y en la muestra se debe a una relacin lineal entre los valores de X e Y.
Tambin es til su complemento, 1-r, llamado varianza residual o coeficiente de
no alineacin, que representa la proporcin de la variacin de Y que no es explicada
por la relacin lineal con los valores de X.
r2sl/l
(l-r)s;/(n-2)
(l-r)/(n-2)
llegamos al contraste
(22)
(l-r)/(n-2)
que coincide con el que encontramos para el coeficiente de regresin, aunque ahora
aparece como cociente del coeficiente de determinacin (dividido por 1 gl) entre la
varianza de los residuos (dividida por n-2 gl).
Se utiliza, por tanto, para contrastar la variacin debida al modelo postulado con la
variacin debida al error.
Ejemplo 14.8
La siguiente tabla recoge las puntuaciones (X) obtenidas por 12 alumnos en un
test de inteligencia y sus calificaciones medias (Y) de final de curso.
Test (X)
C. final (Y)
Veamos si se puede aceptar la hiptesis de que no hay una relacin lineal entre las
dos variables.
Solucin: Se trata de contrastar la hiptesis nula H. = p=p, con la hiptesis
alternativa Ho = p, * p2.
476
Siguiendo la tcnica del anlisis de la varianza, debemos calcular las sumas de cuadra
dos, sus grados de libertad y los cuadrados medios.
A) Sumas de cuadrados:
SCT = S y, - - =356- = 35'66
'
N
12
b=
Nlx,yr(lx,){ly) 12x361-66x62
;
--, =
= (Y36
Nlx:-{Ix,y
12x418-66-
(Ix,)(lv)
66x62
T = lx,yr- = 361^ = 20
N
12
SCR = bT=0'36x20 = 72
SCE = SCT - SCR = 35'66 - 77 = 28'46
B) Cuadrados medios:
SCR
MCR =
= 7'2
SCE 2'846
MCE = - = = 2'846
n-2
10
C) Estimador:
F=
MCR
MCE
72
: 2'529
2'846
Suma de
Cuadrados
Grados de
libertad
Cuadrados
medios
Regresin
72
72
Error
28'46
10
2'846
Total
35'66
12
Contraste
F=2'529
477
Ejemplo 14.9
Supongamos que hemos extrado muestras independientes para estudiar la rela
cin entre dos variables X e Y. La primera muestra, de tamao 100, nos proporciona un
coeficiente de correlacin ^=0'8. y la segunda, de tamao 130. da un coeficiente de
correlacin r,=0'7. Se puede concluir que hay una diferencia significativa entre los
dos coeficientes?
Solucin: Para contrastar la hiptesis nula // = p, = p , de que no hay diferencia
alguna entre los dos parmetros poblacionales, tenemos que transformar cada coefi
ciente en el correspondiente estadstico Z de Fisher.
La tabla A. 1 1 nos proporciona:
parar^S. Z=1'099
parar,=0'7. Z,=0'867
El error tpico de la diferencia Z,-Z, viene dado por
SzrZi = \S/' + S/:
1
ComO Sy =
resulta:
rr
H
\lh-3
T
ti2-.
478
Entonces, el estadstico que se utiliza para el contraste es:
z=
Z,-Z
1 . - 1
+
\n.i-3
n:-3
0'232
\97 + 127
Por ser Z=1'72 menor que 1 '96, que es el valor crtico de la normal para un nivel de
significacin a=0'05 y una prueba bilateral, la conclusin es que la diferencia no es
significativa.
36
18
15
13
26
26
28
13
31
13
38
18
40
Ingresos Y
190 155 190 160 180 165 175 170 185 140 205 155 215
479
(a) de la recta de regresin; 3) los lmites del intervalo de prediccin de una respuesta
para las alturas de los hijos cuyos padres midan 162 cm.
14.4. El gabinete psicopedaggico de un centro escolar estudia la relacin entre las
calificaciones medias(Y) de los alumnos del centro y su grado de ansiedad(X). Una
muestra de alumnos del centro elegida al azar ha proporcionado los siguientes datos:
Grado de ansiedad
37 30 26 23 18 16 10 10 12 14 22 19 28 27 16 22 18
Calificacin media
6765997865
6566
l'O TI
1'2 1'3
1'4 1'5
103 9'0 107 ll'O 117 11'1 10'8 12'4 1T5 11'4 127 12'9 13'4 127
480
1) Determinar la ecuacin de la recta de regresin de Y sobre X. 2) Hallar la
cantidad promedio que se producir cuando la temperatura sea de 1 '75. 3) Median
te el anlisis de la varianza, realizar el contraste H = P =0 frente a la hiptesis
alternativa H m p *0.
14.1 1. Para los datos del ejercicio 14.10., dibujar la lnea de regresin y las bandas de
confianza del 95% para la respuesta media.
14.12. En un laboratorio de Qumica, se llev a cabo un experimento consistente en
medir las cantidades de una sustancia compuesta que se disuelven en 100 cm' de
agua a diferentes temperaturas, obtenindose los siguientes resultados:
Temperatura (X)
10
20
30
40
50
60
70
Cantidad (Y)
13
26
35
40
49
57
67
14
24
33
46
51
57
59
12
27
33
45
48
59
66
14
23
37
45
52
61
68
481
14.16. Para los datos del ejercicio 14.10.. determinar un intervalo de confianza del 957c
para la cantidad correspondiente a una temperatura de 1 '75.
14.17. Controlando la densidad de corriente de un ctodo y modificndola en tres
niveles, se midi la presin electroltica del hidrgeno, obtenindose los siguientes
resultados:
Densidad (mA/cnr)
Presin (atm)
0'5
0'5
0'5
85'6
77'5
9T8
140'4
118'3
155'9
209"8
156'9
2017
251'4
272'6
199'5
357'8
405.8
366'2
ro
ro
ro
1'5
T5
1'5
2'0
2'0
2'0
2'5
2'5
2'5
CAPITULO 15
CONTRASTES NO PARAMTRICOS Y
DE DISTRIBUCIN LIBRE
484
Recordemos que, cuando las muestras son grandes, los mtodos paramtricos se
pueden aplicar an en el caso en que la poblacin no sea normal, dando resultados
fiables.
Analicemos algunas de las ventajas e inconvenientes que se aprecian en los m
todos no paramtricos:
1) No se exige la normalidad de la distribucin de la poblacin de donde se extrae
la muestra.
2) Las pruebas no paramtricas son ms simples y fciles de aplicar. Los estimadores
que se utilizan requieren un nivel menos amplio de conocimientos matemticos, y
slo son necesarios clculos muy sencillos como ordenar, contar o sumar.
3) Cuando el tamao de la muestra no es muy grande, los clculos en las pruebas
no paramtricas son ms rpidos.
4) Los contrastes no paramtricos son aplicables a una clase ms amplia de pobla
ciones, pues requieren menos precisin en las hiptesis.
5) La dificultad ms importante que presentan los mtodos no paramtricos es que
no aprovechan toda la informacin que proporciona la muestra, por lo que una
prueba no paramtrica resulta menos eficiente que la correspondiente prueba
paramtrica.
6) Cuando los dos mtodos son aplicables, la prueba paramtrica resulta ms
potente que la correspondiente prueba no paramtrica. Una prueba no paramtrica
requiere un tamao muestral mayor que una prueba paramtrica.
Con relacin a este ltimo aspecto, se introduce el concepto de eficiencia de la
potencia de la prueba no paramtrica (Ep) como la razn entre el tamao muestral de
la prueba paramtrica (Np) y el tamao muestral de la prueba libre (N, ), expresado en
porcentaje, es decir:
Er = 100
(1)
485
B) Si se cree que la poblacin no es normal, se debe emplear la prueba no
paramtrica.
C) Cuando se necesite una aproximacin rpida o no haya necesidad de tener en
cuenta la potencia de la prueba, se puede elegir una prueba no paramtrica.
486
*
N(N + 1)
X*. =
(2)
Enefecto:
N+l
^ = ^r = ^- = Kl
Esta ltima propiedad nos dice que, si hay 18 observaciones, el ordinal medio es
19/2=9'5.
III. Si extraemos Ni datos de un conjunto de N, la suma de ordinales esperada (TE)
eS:
- N,(N+1)
TE=N,R =
2
(4)
De este modo, si tenemos N=18 ordinales y elegimos 3 aleatoriamente, la suma de
ordinales esperada es
T, = 3-9'5 = 28'5
Si se tienen N ordinales, y se eligen, de entre ellos, N, al azar, se obtiene la suma
T de los N, ordinales.
Si se eligen otros N, ordinales, se obtendr otro valor para la suma T,... Luego,
para cada muestra, la suma T de ordinales es un estadstico, para el que se cumple la
siguiente propiedad:
IV. La suma T de ordinales es un estadstico que se distribuye segn una normal
de media u=TH y de desviacin tpica
N,N2(N-I)
G'=Vir~
(5)
siendo N =N-N .
Este ltimo resultado nos permite utilizar el estadstico T, cuya distribucin es
normal, para realizar el contraste de hiptesis.
Si nos dan dos muestras independientes, el contraste va a consistir en comparar la
suma de los ordinales de una de ellas (T^ con la suma total esperada (TF).
La estrategia que sigue este contraste consiste en:
1) Seleccionar dos muestras independientes de tamaos N y N .
487
2) Reagrupar las N=N|+N, observaciones en orden ascendente, asignando a cada
observacin un rango de 1 a N.
3) Elegir uno cualquiera de los dos grupos, por ejemplo el primero, y establecer la
hiptesis nula
(la suma de los ordinales del grupo elegido es igual a la suma de ordinales espera
da para dicho grupo).
, T,-TE
4) Estimar el valor del estadstico Z =
o,
Fijado un nivel de significacin a y un tipo de prueba (bilateral o unilateral), si el
valor que se obtiene para Z cae fuera de la regin crtica, se rechaza la hiptesis nula,
y, por tanto, se admite que la suma de los ordinales del primer grupo es distinta de la
suma de los ordinales esperada por azar, lo que nos lleva a la conclusin de que hay
una diferencia significativa en la localizacin de ambas poblaciones.
Si la estimacin de Z fuera positiva y el contraste significativo, llegaramos a la
conclusin de que los rangos de la primera poblacin seran superiores a los rangos
de la segunda, lo que significa que la mediana de la primera poblacin es superior a la
mediana de la segunda. Aqu, por tanto, la mediana juega un papel importante como
medida de la localizacin.
Ejemplo 15.1
La siguiente tabla contiene las puntuaciones obtenidas por 25 estudiantes en un
test, las cuales se han acomodado al azar en dos grupos, de 11 y 14 puntuaciones,
respectivamente:
Grupo 1
51
76
54
55
80
60
71
76
57
74
60
Grupo 2
63
54
85
98
77
78
66
97
91
91
63 82
52
488
Despus de ordenar por rangos, tenemos el siguiente cuadro, en el que los rangos
14'5, 3'5, 7'5 y 9'5 no vienen expresados por nmeros naturales, ya que corresponden
a observaciones repetidas, que han sido reemplazadas por su rango medio:
Grupo 1
X
51
76
54
55
80
60
71
76
57
74
60
63
82
52
1
145
35
5
18
75
12
145
6
13
75
95
19
2
Grupo 2
Y
R
63
54
85
98
96
77
78
66
97
91
91
95
35
20
15
23
16
17
11
24
215
215
T,=133.
N =11.
T=192.
N= 14+ 11=25,
Tf =
N,(N + 1) 14 26
2
= ~~2- = l82
y la desviacin tpica de la suma de ordinales del primer grupo (que coincide siempre
con la del segundo) es:
14 II 24
= .J308 = 17'55
La estimacin del estadstico utilizado para el contraste es:
T, - T,
Z =
o
133 - 182
17'55 = -2'79
489
Para un nivel de significacin a=0'05 y una prueba bilateral, el valor crtico de la
normal tipificada es z^l '96.
Como el valor estimado de Z es -2'79 < -1 '96, se rechaza la hiptesis nula, conclu
yendo que las dos muestras proceden de poblaciones distintas.
El contraste se podra haber llevado a cabo utilizando la suma de ordinales del otro
grupo, Tr El resultado habra sido el mismo, puesto que ahora
T2=192yTE=(llx26)/2=143
con lo cual
z=
192 - 143
]7'55 = 2'79
es decir, se obtiene el valor opuesto al que tenamos antes, lo que conduce a la misma
solucin. La diferencia est en que ahora hemos utilizado el grupo de puntuacin ms
alta.
Eficiencia de la prueba
Cuando las poblaciones son normales, la prueba paramtrica correspondiente a la
que acabamos de realizar, es la prueba t de Student para diferencia de medias, ya que
se trata de pequeas muestras.
Si las muestras son pequeas, la eficiencia de la potencia de la suma de ordinales
es de un 92%, lo que significa que, con un 92% de los datos, se llegara al mismo
resultado en un contraste paramtrico, si las poblaciones se distribuyen normalmente.
Intensidad de la relacin
Realizado el contraste, el hecho de que resulte significativo nos dice que hay una
diferencia entre las localizaciones de las dos poblaciones. Sin embargo, nada sabemos
acerca de la intensidad de la relacin entre las localizaciones.
Es interesante obtener una medida de dicha intensidad. El coeficiente rf., que
proporciona una medida de la relacin entre la variable dicotmica (pertenecer o no al
grupo) y la variable continua, que ha sido ordenada de 1 a N, se define como
2(R,-R.)
(7)
siendo R i la media de los rangos del grupo 1 , R , la media de los rangos del grupo 2,
y N el nmero de observaciones.
Con los datos del ejemplo 15.1, se obtiene:
rl-
2(9'5-17'45)
25
-'63
490
15.3.2. Prueba de Kruskal-Wallis
La prueba de Kruskal-Wallis. tambin conocida como prueba H de Kruskal-Wallis,
se utiliza para comparar la localizacin de ms de dos muestras independientes.
Su fundamento es el mismo del anlisis de la varianza unidireccional para contras
tes paramtricos, con la ventaja de que. al trabajar con nmeros enteros, los clculos
van a resultar ms sencillos.
La prueba de suma de rangos, que hemos analizado en el apartado anterior, es el
caso particular de la prueba de Kruskal-Wallis cuando slo hay dos grupos.
Esta prueba es utilizada con frecuencia, ya que son muchas las ocasiones en que
el investigador no quiere molestarse en hacer una prueba previa de normalidad.
Se pretende contrastar la diferencia de localizacin de k poblaciones por medio de
k muestras independientes de tamaos respectivos N, i=l,2,....k.
El proceso que se sigue es anlogo al de la suma de rangos, y consiste en:
1 ) Acomodar, en primer lugar, las observaciones de todas las muestras en orden
ascendente, sustituyndolas por el rango correspondiente ( 1 para la observacin ms
baja y N para la ms alta, siendo N=N,+N,+...+Nk).
Cuando aparecen observaciones repetidas, se les asigna a todas ellas su rango
medio.
Vamos a designar por T a la suma de los rangos correspondientes a las N obser
vaciones de la muestra i.
2) Calcular las sumas de los cuadrados intragrupo (SCA) de los rangos. La frmu
la que conocemos del captulo 13. se simplifica en el caso de rangos, quedando:
T. T.
Tl N(N + ,y
SCA = + +...+ N, N?
Nk
4
,X.
491
Como norma, si el nmero de grupos es 3, cada grupo deber tener al menos 5
observaciones. Cuando haya ms de 3 grupos, se puede aplicar la prueba con 2 ms
observaciones por grupo.
En cuanto a la eficiencia de la potencia, cuando se pueden utilizar los dos tipos de
pruebas, la eficiencia de la prueba H de Kruskal-Wallis con respecto a su anloga F
del anlisis de la varianza unidireccional, es del 95% para muestras grandes y del 90%
para pequeas muestras.
Ejemplo 15.2
Para probar tres proyectos de motor, una industria del automvil midi la potencia
media desarrollada por cada uno de ellos a partir de tres muestras, cuyos datos estn
recogidos en la siguiente tabla:
Grupo 1
Grupo 2
34'2
29'6
33'8
33' 1
30'5
28'4
28'9
28'2
33'2
279
30'9
29'5
29'2
Grupo 3
29'2
28'3
276
276
33'5
30' 1
28'6
28'8
26'4
276
492
Grupo 1
Grupo 2
Grupo 3
342
29,6
33,8
33,1
305
28,4
23
15
22
19
18
8
28.9
282
332
27,9
30.9
29.5
292
11
6
20
5
17
14
125
292
283
27,6
27,6
335
30,1
28,6
28.8
26.4
27.6
12.5
7
3
3
21
16
9
10
1
3
N=7,
T,=85'5.
N=10.
T=85'5
23.24
Comprobamos que T=Ti+T2 + T =
=276
12.300'85
= 6'54
23.24
493
Grupo 1
X
R
34'2
29'6
33'8
33' 1
30'5
28'4
Grupo 2
X
R
13
7
12
10
9
3
28'9
28'2
33'2
279
30'9
29'5
29"2
4
2
11
1
8
6
5
T=54,
N,=7,
T2=37,
T,+T2=54+37=91=(13xl4)/2=61
1'85
Como Z=1'85 es menor que el valor crtico z =1'96, concluimos que entre los
grupos 1 y 2 no hay diferencia significativa.
Si comparamos los grupos 1 y 3, reagrupando los datos, resulta:
Grupo 1
X
R
34'2
29'6
33'8
33' 1
30'5
28'4
16
10
15
13
12
6
Grupo 3
X
R
29'2
28'3
27'6
27'6
33'5
30'1
28'6
28'8
26'4
27'6
9
5
3
3
14
11
7
8
1
3
494
T=72.
N=10.
T=64.
= 8'66
Por lo tanto
Como Z=2'42 es mayor que el valor crtico zU= 1 '96. concluimos que resulta signi
ficativa la diferencia entre los grupos 1 y 3.
Dejamos para el lector la comparacin de los grupos 2 y 3.
Eficiencia de la prueba
La prueba paramtrica que corresponde a la prueba de Kruskal-Wallis. es la prueba
F del anlisis de la varianza unidireccional.
Cuando las muestras son pequeas, la eficiencia de la prueba H con respecto a la
F es del 90%, llegando a ser del 95% para el caso de muestras grandes.
Intensidad de la relacin
La medida de la intensidad de la relacin entre el hecho de formar parte de uno de
los k grupos y la ordenacin de la variable se evala mediante el coeficiente
H-k + I
(10)
495
observaciones, y se contrastaba la hiptesis nula de que la media de la suma de las
diferencias era cero.
La prueba de Wilcoxon se aplica tambin cuando las dos muestras son dependien
tes, habiendo, por tanto, una cierta relacin entre cada par de observaciones.
El proceso consiste en:
1 ) Establecer, como hiptesis nula, que las dos muestras tienen la misma localizacin.
2) Hallar las diferencias entre cada pareja de observaciones.
3) Eliminar las diferencias que den valor cero, y ordenar de 1 en adelante los
valores absolutos de las diferencias que no se hayan anulado.
4) Construir dos grupos, uno con los rangos de las diferencias que resultaron
positivas, y, otro con los rangos de las que resultaron negativas.
Si las dos poblaciones tuvieran la misma localizacin, lo que establece la hiptesis
nula, un razonamiento sencillo nos llevara a la conclusin de que el nmero de dife
rencias con signo positivo debera ser igual al nmero de diferencias con signo nega
tivo. Por tanto, bajo la hiptesis nula, la suma esperada de ordinales correspondientes
a las diferencias positivas debe ser igual a la suma esperada de los ordinales corres
pondientes a diferencias negativas.
Ahora bien, como la suma de ordinales esperada es
N(N+1)
N(N + 1)
'
4
(11)
z.T-^
(12)
496
Fijado un nivel de significacin a y un tipo de prueba, se determina el valor crtico
en la tabla A.3 de la normal tipificada.
Si el valor de la estimacin de Z cae fuera de la regin crtica, se rechaza la
hiptesis nula, y, en caso contrario, se acepta.
Ejemplo 15.3
La siguiente tabla contiene las puntuaciones obtenidas por 12 personas antes y
despus de ser sometidas a unas prcticas de adaptabilidad para determinado trabajo:
2a prueba
53
54
40
30
53
60
36
38
59
39
42
40
Ia prueba
47
53
42
26
60
54
38
39
58
36
42
38
x2
x,
R|DI
R+
53
54
40
30
53
60
36
38
59
39
42
40
47
53
42
26
60
54
38
38
56
36
42
38
6
1
-2
4
-7
6
-2
0
3
3
0
2
8.5
1
3
7
10
8,5
8,5
1
3
7
10
8.5
5.5
5.5
5.5
5.5
T=39,
N=3,
T=16,
T,+T=39+16=55=(10x11)/2
497
La mitad de la suma de los ordinales esperada es
t/E=(10xll)/4=27,5
y la desviacin tpica:
(2 101)-UE
+
6
<H
9'81
Luego la estimacin de Z es
z=
39 -27'5
9'81
=l'n
498
Por ejemplo, si nos dan las observaciones ...,27,86,87,..., cuando las sustituimos
por sus rangos ...,5,6,7,..., se pierde la informacin de que la primera observacin es
mucho menor que las otras dos y de la proximidad entre stas.
A pesar de todo, la prdida de potencia de las pruebas basadas en rangos es
pequea; vara de un 5% para muestras grandes a un 10% para muestras pequeas.
Hay otro tipo de pruebas no paramtricas que, an siendo de uso muy comn,
soportan una mayor prdida de informacin, teniendo una eficiencia del 70% 75%.
Vamos a analizar tres de dichas pruebas, dos para muestras independientes, como
son la prueba de la mediana y la prueba de rachas de Wald-Wolfowit, y estudiare
mos la prueba de los signos para muestras dependientes.
499
A
B
C
87 68 77 68 75 69 80 69 82 73 97 93 68 93 76 76 98 7 1 78 89 73 70
82 93 96 87 95 99 75 86 70 98 72 75 97 93 85 78 77 75 92 94 83
83 76 71 75 94 98 78 77 77 73 72 76 84 83 71 72 93 91
Observamos que las muestras estn sesgadas, por lo que vamos a realizar la
prueba de la mediana.
Con este fin, calculamos, en primer lugar, la gran mediana, cuyo valor es:
GM=78
La tabla de contingencia con el nmero de puntuaciones mayores que 78 y meno
res o iguales que 78 es:
Mayores de 78
Menores o iguales de 78
Total
Total
13
7
8
14
7
11
28
32
20
22
18
60
Mayores de 78
Menores o iguales de 78
Total
Total
13 (9'33)
7(10'66)
8(10'26)
14(1173)
7 (8-4)
11 (9'6)
28
32
20
22
18
60
500
0
13
7
8
14
7
11
*
9\33
10,66
10,26
11,73
8,4
9.6
<w
(O-E)2
v 1
K
(O.-E^/E
3,67
-3,66
-2,26
2,27
-1,4
1.4
15.46
1339
5,10
5,15
1,%
1.%
144
T25
0'49
0'44
0'23
0.20
3'56
C=
N+X
JJ6
= 0'236
60 + y56
501
^N(h-l)
601
Los dos coeficientes nos indican que la intensidad de la relacin entre la pertenen
cia a un determinado sector social y la actitud hacia el estudio es pequea.
502
,
+]
(11)
y vananza
, 2N,N:(2N,N,-N,-N:)
R~ (N, + N:f(N, + N?-l)
(12)
Entonces, el estadstico
(13)
sigue una distribucin normal N(z;0,l), que permite construir el contraste de
aleatoriedad.
El proceso que se sigue para determinar si los datos de la muestra son aleatorios,
consiste en:
1 ) Colocar los datos de la muestra en el mismo orden en que fueron tomados.
2) Hallar la mediana y sustituir cada dato por un smbolo (V o F), (+ o -),..., segn
que su valor sea mayor o menor que la mediana. Los valores que coincidan con la
mediana se suprimen.
3) Se considera que la muestra es aleatoria o no segn lo sea o no la sucesin de
las rachas.
Ejemplo 15.6
Se ha consultado a 19 amas de casa sobre el nmero de das que les dura una
bombona de gas butano. Las respuestas aparecen en el orden en que se dieron:
20 3033 13 60 55 65 23 1440 58 18 47 45 15 2154 36 24
Se puede afirmar que se trata de una muestra elegida aleatoriamente?
Solucin: La mediana de la muestra es 33. valor nico que coincide con un dato,
por lo que prescindimos de l.
Sustituimos ahora cada dato por el signo +, si es mayor que el valor de la mediana.
y, por el signo -. si es menor. De esta forma, se obtiene la sucesin:
+ + + -- + + - + + -- + + El nmero de rachas es R=9. habiendo 9 smbolos + y 9 smbolos -.
La media y la varianza de R son, por tanto:
503
2-9-9 , .
2-9-9(2-9-9-9-9)
504
X V
(14)
630 62 1 552 530 742 525 480 545 624 690 750 503 530 730 720 624
Post.
670 702 57 1 584 72 1 570 480 634 624 670 794 58 1 610 725 720 624
Este ejemplo presenta una pequea variante, ya que la hiptesis nula no es que la
mediana de las diferencias entre pares de datos sea cero, sino que sea 50. Por ello,
hallaremos las diferencias, y restaremos 50. A los valores as obtenidos les aplicare
mos la prueba de los signos en la forma en que ha sido expuesta.
Disponiendo los resultados en una tabla, queda:
19
54 -21
35
4 -71
-15
40
81
89 -20
39 -70
44
7S
80
-6
28
30 -55
-5
(5-7 f
Puesto que 0'33<3'841. se acepta la hiptesis nula. y, por tanto, que la diferencia
entre las calificaciones medias es de 50 puntos.
505
15.5. Ejercicios propuestos
15.1. Nos dicen que, en 30 lanzamientos de una moneda, se ha obtenido la siguiente
secuencia de resultados:
cxccxcccxxxccxcccxxccxxccccxcx
Se puede afirmar que la secuencia es aleatoria?
15.2. Un electricista ha recibido dos partidas de lmparas. Para ver si proceden de la
misma poblacin, selecciona dos muestras, comprobando la duracin de las lmparas
de las muestras, que resultan:
Primera muestra
Segunda muestra
702 640
715
701
610 721
682
588
690
683
620 685
Se puede afirmar que las dos muestras proceden de la misma poblacin? (Realizar
el contraste de la suma de rangos).
15.3. Las calificaciones en un test de inteligencia de 30 alumnos elegidos al azar de
una universidad han sido:
83 95 52 60 62 61 48 64 76 79 86 57 86 7 1 67 78
55 46 67 73 95 84 64 82 93 70 40 78 43 72 66 74
Contrastar la hiptesis de que la mediana es 70, al nivel de significacin del 5%.
15.4. La siguiente tabla contiene los datos de tres muestras aleatorias de una pobla
cin ordenadas por rangos:
Ia muestra
2a muestra
3a muestra
8
2
10
4
4
9
7
5
8
6
7
6
3
5
Al nivel de significacin del 5%, existe diferencia significativa entre las tres mues
tras?
15.5. Se han seleccionado cuatro muestras formadas por 5 lmparas de cuatro marcas
diferentes (A, B, C y D). Calculada la duracin de las lmparas, se obtuvieron los
siguientes resultados:
506
A
B
C
D
3140
3240
3830
4220
3780
2730
3690
4050
3360
2980
4010
3420
3450
3140
3550
3370
3320
3810
3830
3510
Averiguar si hay diferencia entre las marcas al nivel de significacin del 0'O1. En
caso afirmativo, realizar la prueba de suma de rangos para determinar qu marcas
difieren entre s.
15.6. Se ha hecho una pregunta a 20 personas, que deban responder con V (verdade
ro) o F (falso). La secuencia con las 20 respuestas ha sido:
VVFVVFVVVFVFFVFFVFFV
Se puede considerar que las respuestas han sido aleatorias? Utilizar los niveles
de significacin del 1% y del 5%.
15.7. Una compaa de seguros imparte un cursillo a 20 agentes domiciliarios con el fin
de incrementar el nmero de plizas. Al cabo de un mes, se constata que 12 de los
agentes han conseguido incrementar el nmero de plizas con respecto a meses ante
riores, 5 han conseguido los mismos resultados, y 3 han bajado. Se puede afirmar
que el cursillo ha sido eficaz?
15.8. Un profesor imparte clase a dos grupos de alumnos. Uno de los grupos es de
tercero de bachillerato diurno y el otro tambin de tercero, pero de rgimen nocturno.
Con el mismo mtodo de enseanza y el mismo examen, las calificaciones obtenidas
fueron:
Diurno
Nocturno
573246567443356
1 ) Se puede afirmar que hay una diferencia significativa entre las calificaciones de
ambos grupos? 2) En caso afirmativo, hallar una medida de la intensidad de la
relacin.
15.9. Se ha pasado un test de reflejos a 10 personas en condiciones de reposo y
despus de realizar un viaje conduciendo durante 4 horas, obtenindose los siguien
tes resultados:
Condiciones de reposo
60 45 38 42 50 58 63 62 28 34
Despus de conducir
41 35 29 36 32 50 46 33 29 30
507
Contrastar, mediante la prueba de Wilcoxon, la hiptesis de que no hay diferencia
significativa entre las puntuaciones de los dos grupos. Si el resultado es significativo,
hallar una medida de la intensidad de la relacin.
15.10. Un topgrafo realiza 10 mediciones con dos instrumentos de medida distintos,
obteniendo los siguientes resultados:
Instrumento I
91
94
59
77
81
64
89
75
82
Instrumento II
84
79
51
68
69
70
76
88
74
87
APNDICE A
TABLAS ESTADSTICAS
511
TABLA A.l
Distribucin binomial1
P(X
B(n,p)
0.01
1/3
-(1)^
0.49
0.5
.9801 .9026.8100.7225 .6400.5625 4900 4444 4225 3600 3025 .2601 .2500
.0198 .0950.1800.25 50 .3 200.3750 4200 4444 4550 4800 4950 .4998 .5000
.0001 .0025 .0100.0225 .0400.0625 0900 1111 1225 1600 2025 .2401 .2500
.9703 .8574 .7290.6141 .5120.3219 .3430.2963 .2746 .2 160 . 1664 . 1 327 . 1 250
.0294.1354.2430.3251 .3840.4219.4410.4444.4436.4320.4084.3823.3750
.0003 .007 1 .0270 .05 74 .0960.1406 . 1 890 .2222 .2389 .2880 .3 34 1 .3674 .3750
.0000.0001 .0010.0034.0080.0156.0270.0370.0429.0640.091 1 .1 176.1250
.9606 .8145 .656 1 .5 220
.0388 .1715 .2916.3685
.0006 .0135 .0486.0975
.0000.0005 .0036.01 15
.0000.0000.0001 .0005
.4096 .3 164
.4096.4219
.1536 .2109
.0256.0469
.0016.0039
.2401 . 1 975
.4 1 1 6 .395 1
.2646.2963
.0756.0988
.0081 .0123
512
P
n
0.01
0.0 5
0.10 0.15
0.20
0.25
0.30
1/3
0.49
0.5
0
1
2
3
4
5
6
7
g
.9227
.0746
.0026
.0001
.0000
.0000
.0000
.0000
.0000
6634
2793
.0515
0054
0004
0000
0000
0000
0000
4305
3826
1488
0331
0046
0004
0000
0000
0000
2725
3847
2376
0839
0158
0026
0002
0000
0000
1678
3555
2936
1468
0459
0092
0011
0001
0000
1001
2670
3115
2076
0865
0231
0038
0004
0000
0576
1977
2965
2541
1361
0467
0100
0012
0001
0390
1561
2731
2731
1707
0683
0171
0024
0002
0319
1373
2587
2786
1875
0808
0217
0033
0002
0168
0896
2090
2787
2322
1239
0413
0079
0007
0084
0548
1569
2568
2627
1719
0703
0164
0017
0046
0352
1183
2273
2730
2098
1008
0277
0033
0039
0312
1094
2188
2734
2188
1094
0312
0039
0
1
2
3
4
5
6
7
S
9
.9135
.0830
.0034
.0001
.0000
.0000
.0000
.0000
.0000
.0000
6302
2985
0629
0077
.0006
.0000
.0000
.0000
.0000
.0000
3874
3874
1722
0446
.0074
.0008
0001
.0000
.0000
.0000
2316
3679
2597
1069
0283
0050
0006
0000
0000
0000
1342
3020
3020
1762
0661
.0165
0028
0003
0000
0000
0751
2253
3003
2336
1168
0389
0087
0012
0001
0000
0404
1556
2668
2668
1715
.0735
0210
0039
0004
0000
0260
1171
.2341
.2731
2048
1024
0341
0073
0009
0001
0207
1004
2162
2716
2194
1181
0424
0098
0013
0001
0101
0605
1612
2508
2508
1672
0743
0212
0035
0003
0046
0339
1110
2119
2600
2128
1 160
0407
0083
0008
0023
0202
0776
1739
2506
2408
.1542
0636
0153
0016
0020
.0176
0703
1641
2461
2461
1641
0703
0176
0020
10
0
1
2
3
4
5
6
7
8
9
10
.9044
.0914
.0042
.0001
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.5987
.315 1
.0746
.0105
.0010
.0001
.0000
.0000
.0000
.0000
.3487
.3874
.1937
.0574
.01 12
.0015
.0001
.0000
.0000
.0000
.1969
.3474
2759
1298
0401
0085
.0012
.0001
.0000
.0000
1074
2684
3020
.2013
0881
.0264
.0055
.0008
.0001
.0000
.0563
.1877
2816
2503
1460
0584
.0162
0031
0004
0000
.0282
.1211
.2335
2668
.2001
.1029
.0368
.0090
.0014
.0001
0173
0867
1951
.2601
.2276
.1366
.0569
.0163
.0030
.0003
.0135
.0725
.1757
.2522
.2377
.1536
.0689
.0212
.0043
.0005
0060
0403
1209
2150
2508
2007
1115
.0425
.0106
.0016
0025
0207
0763
1665
2384
2340
.1596
.0746
.0229
.0042
.0012
.0114
.0495
.1267
.2130
.2456
.1966
.1080
.0389
.0083
.0010
0098
0439
1 172
.2051
.2461
.2051
.1172
.0439
.0098
.0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0003 .0008 .0010
513
TABLA A.2
Distribucin de Poisson2
P(\l)
P(X = k) .,-
k!
p.
10
1 1
12
0.1
0.2
0.3
0.4
0.5
.9048
.8187
.7408
.6703
.6065
0905 .0045
1637 .0164
2222.0333
2681 .0536
3033.0758
0002
001 1
0033
0072
0126
0000
0001
0002
0007
0016
0000
0000
0001 .0000
.0002 .0000
0.6
0.7
0.8
0.9
1.0
.5488
.4966
.4493
.4066
.3679
3293 .0988
3476.1217
3595 .1438
3659.1647
3679.1839
0198
0284
0383
0494
0613
0030
0050
0077
01 1 1
0153
.0004
.0007
.0012
.0020
.0031
.0000.0000
.0001 .0000
.0002 .0000
.0003 .0001 0000
.0005 .0000 0000
1.1
1.2
1.3
1.4
1 .5
.3329
.3012
.2725
.2466
.2231
3662 .2014
3614.2169
3543.2303
3452.2417
3347 .2510
0738
0867
0998
1 128
1255
0203
0260
0324
0395
0471
.0045
.0062
.0084
.01 1 1
.0141
.0008.0001
.0012.0002
.0018.0003
.0026.0005
.0035 .0008
0000
0000
0001 .0000
0001 .0000
0001 .0000
1.6
1 .7
1 .8
1.9
2.0
.2019
.1827
.1653
.1496
.1353
3230.2584
3106.2640
2975 .2678
2842 .2700
2707 .2707
1378
1496
1607
1710
1804
0551
0636
0723
0812
0902
.0176
.0216
.0260
.0309
.0361
.0047.0011
.0061 .0015
.0078.0020
.0098.0027
.0120.0034
0002
0003
0005
0006
0009
.0000
.0001
.0001
.0001
.0002
.0000
.0000
.0000
.0000
2.2
2.4
2.6
2.8
3.0
.1 108
.0907
.0743
.0608
.0498
2438.2681
2177.2613
1931 .2510
1703 .2384
1494.2240
1966
2090
2176
2225
2240
1082
1254
1414
1557
1680
.0476
.0602
.0735
.0872
.1008
.0174.0055
.0241 .0083
.0.3 19 .0118
.0407 .0163
.0504.0216
0015
0025
00.38
0057
0081
.0004
.0007
.00 1 1
.0018
.0027
.0001
.0002
.0003
.0005
.0008
0000
0000
OOOI OOOO
0001 0000
0002 0001
3.2
3.4
3.6
3.8
4.0
.0408
.0334
.0273
.0224
.0183
1304.2087
1 135 .1929
0984 .1771
0850.1615
0733 .1465
2226
2186
2125
2046
1954
1781
1858
1912
1944
1954
. 1 140
.1264
.1.377
.1477
.1563
.0608.0278
.0176.0348
.0826.0425
.0936.0508
.1042.0595
0111
0148
.0191
0241
0298
.0040
.0056
.0076
.0102
.0132
.0013
.0019
.0028
.0039
.0053
0004
0006
0009
0013
0019
.0001
.0002
.0003
0004
0006
514
k
0
10.0
.0067
.0025
.0009
.0003
.0001
.0000
.0337
.0149
.0064
.0027
.001 1
.0005
5.0
6.0
7.0
8.0
9.0
.0013
.0052
.0142
.0296
.0504
.0729
1
5.0
6.0
7.0
8.0
9.0
10.0
.0842
.0446
.0223
.0107
.0050
.0023
1404
.0892
0521
.0286
0157
0076
.1755
.1339
.0912
.0573
.0337
.0189
.0005
.0022
.0071
.0169
.0324
.0512
.0002
.0009
.0033
.0090
.0193
.0347
0003
0014
0045
.0109
0217
.0001
.0006
.0021
.0058
.0128
5
1755
1606
1277
0916
0607
0378
0002
0009
0029
0071
6
1462
1606
1490
1221
091 1
0631
1044
1377
1490
1396
1171
0901
0653
1033
1304
1396
1318
1 126
9
0363
0688
1014
1241
1318
1251
10
0181
0413
0710
0993
1 186
1251
10
1 1
1 2
.0082
.0225
.0452
.0722
.0970
. 1 137
0034
0113
0264
0481
0728
0948
1 1
1 2
.0001
0004 0002 0001
0014 0006 0003 0001
.0037 0019 0009 0004 .0002 .0001
515
TABLA A3.1
Distribucin normal N(0,1)3
T dz
P(Z<-z.)--
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
-0.0
-0.1
-0.2
-0.3
-0.4
.5000
.4602
.4207
.3821
.3446
.4960
.4562
.4168
.3783
.3409
.4920
.4522
.4129
.3745
.3372
.4880
.4483
.4090
.3707
.3336
.4840
.4443
.4052
.3669
.3300
.4801
.4404
.4013
.3632
.3264
.4761
.4364
.3974
.3594
.3228
.4721
.4325
.3936
.3557
.3192
.4681
.4286
.3897
.3520
.3156
.4641
.4247
.3859
.3483
.3121
-0.5
-0.6
-0.7
-0.8
-0.9
.3085
.2743
.2420
.2119
.1841
.3050
.2709
.2389
.2090
.1814
.3015
.2676
.2358
.2061
.1788
.2981
.2643
.2327
.2063
.1762
.2946
.2611
.2297
.2005
.1736
.2912
.2578
.2266
.1977
.1711
.2877
.2546
.2236
.1949
.1685
.2843
.2514
.2206
.1922
.1660
.2810
.2483
.2177
.1894
.1635
.2776
.2451
.2148
.1867
.1611
-1.0
-1.1
-1.2
-1.3
-1.4
.1587
.1357
.1151
.09680
.08076
.1562
.1335
.1131
.09510
.07927
.1539
.1314
.1112
.09342
.07780
.1515
.1292
.1093
.09176
.07636
.1492
.1271
.1075
.09012
.07493
.1469
.1251
.1056
.08851
.07353
.1446
.1230
.1038
.08691
.07215
.1423
.1210
.1020
.08534
.07078
.1401
.1190
.1003
.08379
.06944
.1379
.1170
.09853
.08226
.06811
-1.5
-1.6
-1.7
-1.8
-1.9
.06681
.05480
.04457
.03593
.02872
.06552
.05370
.04363
.03515
.02807
.06426
.05262
.04272
.03438
.02743
.06301
.05155
.04182
.03362
.02680
.06178
.05050
.04093
.03288
.02619
.06057
.04947
.04006
.03216
.02559
.05938
.04846
.03920
.03144
.02500
.05821
.04746
.03836
.03074
.02442
.05705
.04648
.03754
.03005
.02385
.05592
.04551
.03673
.02938
.02330
-2.0
-2.1
-2.2
-2.3
-2.4
.02275
.01786
.01390
.01072
.008198
.02222
.01743
.01355
.01044
.007976
.02169
.01700
.01321
.01017
.007760
.02118
.01659
.01287
.009903
.007549
.02068
.01616
.01255
.009642
.007344
.02018
.01578
.01222
.009387
.007143
.01970
.01539
.01191
.009137
.006947
.01923
.01500
.01160
.008894
.006956
.01876
.01463
.01130
.008656
.006569
.01831
.01426
.01101
.008424
.006387
-2.5
-2.6
-2.7
-2.8
-2.9
-3.0
.006210
.004661
.003467
.002555
.001866
.001350
.006037
.004527
.003364
.002477
.001807
.001306
.005868
.004396
.003264
.002401
.001750
.001264
.005703
.004269
.003167
.002327
.001695
.001223
.005543
.004145
.003072
.002256
.001641
.001183
.005386
.004025
.002980
.002186
.001589
.001114
.005234
.003907
.002890
.002118
.001538
.001107
.005085
.003793
.002803
.002052
.001489
.001070
.004940
.003681
.002718
.001988
.001441
.001035
.004799
.003573
.002635
.001926
.001395
.001001
516
TABLA A3.2
Distribucin normal N(0,1) (Continuacin)
P(Z<za) =
J e~2~ dz
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.0
0.1
0.2
0.3
0.4
.5000
.5398
.5793
.6179
.6554
.5040
.5438
.5832
.6217
.6591
.5080
.5478
.5871
.6255
.6628
.5120
.5517
.5910
.6293
.6664
.5160
.5557
.5948
.6331
.6700
.5199
.5596
.5987
.6368
.6736
.5239
.5636
.6026
.6406
.6772
.5279
.5675
.6064
.6443
.6808
.5319
.5714
.6103
.6480
.6844
.5359
.5753
.6141
.6517
.6879
0.5
0.6
0.7
0.8
0.9
.69 1 5
.7257
.7580
.7881
.8159
.6950
.7291
.7611
.7910
.8186
.6985
.7324
.7642
.7939
.8212
.7019
.7357
.7673
.7967
.8238
.7054
.7389
.7703
.7995
.8264
.7088
.7422
.7734
.8023
.8289
.7123
.7454
.7764
.8051
.8315
.7157
.7486
.7794
.8078
.8340
.7190
.7517
.7823
.8106
.8365
.7224
.7549
.7852
.8133
.8389
1.0
1.1
1.2
1.3
1.4
.8413
.8643
.8849
.90320
.91924
.8438
.8665
.8869
.90490
.92073
.8461
.8686
.8888
.90658
.92220
.8485
.8708
.8907
.90824
.92.364
.8508
.8729
.8925
.90988
.92507
.8531
.8749
.8944
.91149
.92647
.8554
.8770
.8962
.91309
.92785
.8577
.8790
.8980
.91466
.92922
.8599
.8810
.8997
.91621
.93056
.8661
.8830
.90147
.91774
.93189
1.5
1.6
1.7
1.8
1.9
.93319
.94520
.95543
.96407
.97128
.93448
.94630
.95637
.96485
.97193
.93574
.94738
.95728
.96562
.97257
.93669
.94845
.95818
.96638
.97320
.93822
.94950
.95907
.96712
.97381
.93943
.95053
.95994
.96784
.97441
.94062
.95154
.96080
.96856
.97500
.94179
.95254
.96164
.96926
.97558
.94295
.95352
.96246
.96995
.97615
.94408
.95449
.96327
.97062
.97670
2.0
2.1
2.2
2.3
2.4
.97725
.98214
.98610
.98928
.991802
.97778
.98257
.98645
.98956
.992024
.97831
.98300
.98679
.98983
.992240
.97882
.98341
.98713
.990097
.992451
.97932
.98382
.98745
.990358
.992656
.97982
.98422
.98778
.990613
.992857
.98030
.98461
.98809
.990863
.993053
.98077
.98500
.98840
.991106
.993244
.98124
.98537
.98870
.991344
.993431
.98169
.98574
.98899
.991576
.993613
2.5
2.6
2.7
2.8
2.9
3.0
.993790
.995339
.996533
.997445
.998134
.998650
.993963
.995473
.996636
.997523
.998193
.998694
.994132
.995604
.996736
.997599
.998250
.998736
.994297
.995731
.996736
.997673
.998305
.998777
.994457
.995855
.996928
.997744
.998359
.998817
.994614
.995975
.997020
.997814
.998411
.998856
.994766
.996093
.997110
.997882
.998462
.998893
.994915
.996207
.997197
.997948
.998511
.998930
.995060
.996319
.997282
.998012
.998559
.998965
.995201
.996427
.997365
.998074
.998605
.998999
517
TABLA A.4
Distribucin t de Student4
litZta)
n/p
.40
.30
.20
. 10
n5
.025
(110
.005
.001
.0005
1
2
3
4
5
.325
.289
.277
.271
.267
727
617
584
569
559
1.376
1.061
.978
.941
.920
3.078
1.886
1 .638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.71
4.303
3.182
2.776
2.571
31.82
6.965
4.541
3.747
3.365
63.66
9.925
5.841
4.604
4.032
318.3
22.33
10.22
7.173
5.893
636.6
31.60
12.94
8.610
5.859
6
7
g
9
10
.265
.263
.262
.261
.260
553
549
546
543
542
.906
.896
.889
.883
.879
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1 .833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.208
4.785
4.501
4.297
4.144
5.959
5.405
5.041
4.781
4.587
11
12
13
14
15
.260
.259
.259
.258
.258
540
539
538
537
536
.876
.873
.870
.868
.866
1.363
1 .356
1 .350
1 .345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.025
3.930
3.852
3.787
3.733
4.437
4.318
4.221
4.140
4.073
16
17
18
19
20
.258
.257
.257
.257
.257
535
534
534
533
533
.865
.863
.862
.861
.860
1.337
1 .333
1 .330
1.328
1 .325
1.746
1.740
1 .734
1.729
1.725
2.120
2.110
2.101
2.093
2.086
2.583
2.567
2.552
2.539
2.528
2.921
2.898
2.878
2.861
2.845
3.686
3.646
3.611
3.579
3.552
4.015
3.965
3.922
3.883
3.850
21
22
23
24
25
.257
.256
.256
.256
.256
532
532
532
531
531
.859
.858
.858
.857
.856
1.323
1.321
1.319
1.318
1.316
1.721
1.717
1.714
1 711
1.708
2.080
2.074
2.069
2.064
2.060
2.518
2.508
2.500
2.492
2.485
2.831
2.819
2.807
2.797
2.787
3.527
3.505
3.485
3.467
3.450
3.819
3.792
3.767
3.745
3.725
26
27
28
29
30
.256
.256
.256
.256
.256
531
531
530
530
530
.856
.855
.855
.854
.854
1.315
1.314
i Ji3
1.311
1.310
1.706
1 .703
1.701
1.699
1.697
2.056
2.052
2.048
2.045
2.042
2.479
2.473
2.467
2.462
2.457
2.779
2.771
2.763
2.756
2.750
3.435
3.421
3.408
3.396
3.385
3.707
3.690
3.674
3.659
3.646
40
50
60
80
100
.255
.255
.254
.254
.254
529
528
527
527
526
.851
.849
.848
.846
.845
1 .303
1.298
1.296
1.292
1.290
1.684
1.676
1.671
1.664
1.660
2.021
2.009
2.000
1.990
1.984
2.423
2.403
2.390
2.374
2.365
2.704
2.678
2.660
2.639
2.626
3.307
3.362
3.232
3.195
3.174
3.551
3.495
3.460
3.415
3.389
200
500
.254
.253
.253
526
525
525
.845
.842
.842
1.286
1.283
1.282
1 .653
1.648
1.645
1.972
1 .965
1.960
2.345
2.334
2.326
2.601
2.586
2.576
3.131
3.106
3.090
3.339
3.310
3.291
oo
4 Adaptada de Statistical Tables for Biological. Agricultural and Medical Research, de R.A.
Fisher y F. Yates, Oliver and Boyd. Edimburgo, 1963.
518
TABLA A.5
Distribucin y - de Pearson5
p{x2zxU
n/a
0.995
0.99
0.98
0.975
0.95
1
2
3
4
5
.000039
0.0100
0.0717
0.207
0.412
,00015
0.0201
0.115
0.297
0.554
.00062
0.0404
0.185
0.429
0.752
0.00098
0.0506
0.216
0.484
0.831
0.00393
0. 1 03
0.352
0.711
1.145
0.0158
0.211
0.584
1.610
1.610
2.706
4.605
6.251
7.779
9.236
6
8
9
10
0.676
0.989
1.344
1.735
2.156
0.872
1.239
1.646
2.088
2.558
1.134
1.564
2.032
2.532
3.059
1.237
1.690
2.180
2.700
3.247
1 .635
2.167
2.733
3.325
3.940
2.204
2.833
3.490
4.168
4.865
1 1
12
13
14
15
2.603
3.074
3.565
4.075
4.601
3.053
3.571
4.107
4.660
5.229
3.609
4.178
4.765
5.368
5.985
3.816
4.404
5.009
5.629
6.262
4.575
5.226
5.892
6.571
7.261
16
17
18
19
20
5.142
5.687
6.265
6.844
7.434
5.812
6.408
6.408
7.633
8.260
6.614
7.255
7.906
8.567
9.237
6.908
7.564
8.231
8.907
9.591
21
22
23
24
25
8.034
8.643
9.260
9.886
10.520
8.897
9.542
10.196
10.856
11.524
9.915
10.600
11.293
11.992
12.697
26
27
28
29
30
11.160
11.808
12.461
13.121
13.787
12.198
12.879
13.565
14.256
14.953
13.409
14.125
14.847
15.574
16.306
"
0.90
0.10
0.05
0.025
0.02
0.01
3.841
5.991
7.815
9.488
11.070
5.024 5.412
7.378
7.824
9.348
9.837
11.143 11.668
12.832 13.388
6.635
9.210
11.345
13.277
15.086
10.645
12.017
13.362
14.684
15.987
12.592
14.067
15.507
16.919
18.307
14.449
16.013
17.535
19.023
20.483
15.033
16.622
18.168
19.679
21.161
16.812
18.475
20.090
2 1 .666
23.209
5.578
6.304
7.042
7.790
8.547
17.275
18.549
19.812
21.064
22.307
19.675
21.026
22.362
23.685
24.996
21.920 22.618
23.337 24.054
24.736 25.472
26.1 19 26.873
27.488 28.259
24.725
26.217
27.688
29.141
30.578
7.962
8.672
9.390
10.117
10.851
10.312
10.085
10.865
11.651
12.443
23.542
24.769
25.989
27.204
28.412
26.296
27.587
28.869
30.144
31.410
28.845 29.633
30.191 30.995
31.526 32.346
32.852 33.687
34.170 55.020
32.000
33.409
34.805
36.191
37.566
10.283
10.982
11.688
12.401
13.120
11.591
12.338
13.091
13.848
14.611
13.240
14.041
14.041
15.659
16.473
29.615
30.813
32.007
33.196
34.382
32.671
33.924
35.172
36.415
37.652
35.479
36.781
38.076
39.364
40.646
36.343
37.659
38.968
40.270
41.566
38.932
40.289
41.638
42.980
44.314
13.844
14.573
15.308
16.047
16.791
15.379
16.151
16.928
17.708
18.493
17.292
18.114
18.939
19.768
20.599
35.563
36.741
37.916
39.078
40.256
38.885
40.113
41.337
42.557
43.773
41.923
43.194
44.461
45.722
46.979
42.856
44.140
45.419
46.693
47.962
45.642
46.963
48.278
49.588
50.892
519
TABLA A.6.1
Distribucin F de Fisher-Snedecor6
p{f>F,wxiM) = 0'05
a=0.05
n/n,
1
2
3
4
5
161.45 199.50
18.513 19.000
10.128 9.5521
7.7086 6.9443
6.6079 5.7861
215.71
19.164
9.2766
6.5914
5.4095
236.77
19.353
8.8868
6.0942
4.8759
238.88
19.371
8.8452
6.0410
4.8183
240.54
19.385
8.8123
5.9988
4.7725
6
7
8
9
5.9874
5.5914
5.3177
5.1 174
4.9646
5.1433
4.7374
5.4590
4.2565
4.1028
5.757 1
4.3468
4.0662
3.8626
3.7083
5.5337
4.1203
3.8378
3.6331
3.4780
4.2066
3.7870
3.5005
3.2927
3.1355
4.1468
3.7257
3.4281
3.2296
3.0717
4.0990
3.6767
3.3881
3.1789
3.0204
14
15
4.8443
4.7472
4.6672
4.6001
5.5431
3.9823
3.8853
3.8056
3.7389
3.6823
16
17
18
19
20
4.4940 3.6337
4.4513 3.5915
4.4139 3.5546
4.3808 3.5219
4.3513 3.4928
21
22
23
24
25
26
27
28
29
30
4.2252
4.2100
4.1960
4.1830
4.1709
40
60
120
oo
10
1 1
12
13
3.3690
3.3541
3.3404
3.3277
3.3158
4.3874
3.9715
3.6875
3.4817
3.3258
4.2839
3.8660
3.5806
3.3738
3.2172
2.6572
2.6143
2.5767
2.5435
2.5140
2.5727 2.4976
2.5491 2.4638
2.5277 2.4422
2.5082 2.4226
2.4904 2.4047
2.3883
2.3732
2.3593
2.3463
2.3343
2.591 1
2.5480
2.5102
2.4768
2.4471
2.5377
2.4943
2.4563
2.4227
2.3928
2.4205 2.3661
2.3965 2.3419
2.3748 2.3201
2.3551 2.3002
2.3371 2.2821
2.3205
2.3053
2.2913
2.2782
2.2662
2.2655
2.2501
2.2360
2.2229
2.2107
Adaptada de Biometrica Tables for Slatisticians. de E.S. Pearson y H.O. Harley. 1954.
520
TABLA A.6.1
Distribucin F de Fisher-Snedecor (Continuacin)
a=0.05
10
12
15
20
24
30
40
60
120
OO
1
2
3
4
5
241.88
19.396
8.7855
5.9644
4.7351
243.91
19.413
8.7446
5.9117
4.6777
245.85
19.429
8.7029
5.8578
4.6188
248.01
19.446
8.6602
5.8025
4.5581
249.05
19.454
8.6385
5.7744
4.5272
250.09
19.462
8.6166
5.7459
4.4957
251.14
19.471
8.5944
5.7170
4.4638
252.20
19.479
8.5720
5.6878
4.4314
253.25
19.487
8.5494
5.6581
4.3984
254.32
19.496
8.5265
5.6281
4.3650
6
7
8
9
10
4.0600
3.6365
4.3472
3.1373
3.9782
3.9999
3.5747
3.2840
3.0729
3.9130
3.9381
3.5108
3.2184
3.0061
3.8450
3.8742
3.4445
3.1503
2.9365
2.7740
3.8415
3.4105
3.1152
3.9005
3.7372
3.8082
3.3758
3.0794
2.8637
2.6996
3.7743
3.3404
3.0428
2.8259
2.6609
3.7398
3.3043
3.0053
2.7872
2.621 1
3.7047
3.2674
2.9669
2.7475
2.5801
3.6688
3.2298
2.9276
2.7067
2.5379
1 1
12
13
14
15
2.8536
2.7534
2.6710
2.6021
2.5437
2.7876
2.6866
2.6037
2.5342
2.4753
2.7186
2.6169
2.5331
2.4630
2.4035
2.6464
2.5436
2.4589
2.3879
2.3275
2.6090
2.5055
2.4202
2.3487
2.2878
2.5705
2.4663
2.3803
2.3082
2.2468
2.5309
2.4259
2.3392
2.2664
2.2043
2.4901
2.3842
2.2966
2.2230
2.1601
2.4480
2.3410
2.2524
2.1778
2.1 141
2.4045
2.2962
2.2064
2.1307
2.0658
16
17
18
19
20
2.4935
2.4499
2.4117
2.3779
2.3479
2.4247
2.3807
2.3421
2.3080
2.2776
2.3522
2.3077
2.2686
2.2341
2.2033
2.2756
2.2304
2.1906
2.1555
2.1242
2.2354
2.1898
2.1497
2.1141
2.0825
2.1938
2.1477
2.1071
2.0712
2.0391
2.1507
2.1040
2.0629
2.0264
1.9938
2.1058
2.0584
2.0166
1.9796
1.9464
2.0589
2.0107
1.9681
1.9302
1.8963
2.0096
1.9604
1.9168
21
22
23
24
25
2.3210
2.2967
2.2747
2.2547
2.2365
2.2504
2.2258
2.2036
2.1834
2.1649
2.1757
2.1508
2.1882
2.1077
2.0889
2.0960
2.0707
2.0476
2.0267
2.0075
2.0540
2.0283
2.0050
1.9838
1.9643
2.0102
1.9842
1.9605
1.9390
1.9192
1.9645
1.9380
1.9139
1.8920
1.8718
1.9165
1.8895
1.8649
1.8424
1.8217
1.8657
1.8380
1.8128
1.7897
1.7684
1.8178
1.7831
1.7570
1.7331
1.71 10
26
27
28
29
30
2.2197
2.2043
2.1900
2.1768
2.1646
2.1479
2.1323
2.1179
2.1045
2.0921
2.0716
2.0558
2.0411
2.0275
2.0148
1.9898
1.9736
1.9586
1.9446
1.9317
1.9464
1.9299
1.9147
1.9005
1.8874
1.9010
1.8842
1.8687
1.8543
1.8409
1.8533
1.8361
1.8203
1.8055
1.7918
1.8027
1.7851
1.7689
1.7537
1.7396
1.7684
1.7307
1.7138
1.6981
1.6835
1.7110
1.6717
1.6541
1.6377
1.6223
40
60
120
2.0772
1.9926
1.9105
1.8307
2.0035
1.9174
1.8337
1.7522
1.9245
1.8364
1.7505
1.6664
1.8389
1.7480
1.6587
1.5705
1.7929
1.7001
1.6084
1.5173
1.7444
1.6491
1.5543
1.4591
1.6928
1.5943
1.4952
1.3940
1.6373
1.5343
1.4290
1.3180
1.5766
1.4673
1.3519
1.2214
1.5089
1.3893
1.2539
1.0000
n/n,
oo
1.8780
1.8432
521
TABLA A.6.2
Distribucin F de Fisher-Snedecor
P[F>Fmuni.n) = 0'01
a=0,01
n,/n,
'
1
2
3
4
5
6
7
8
9
10
13.745
12.246
1 1.259
10.561
10.044
10.925
9.5466
8.6491
8.0215
7.5194
9.7795
8.4513
7.5910
6.9919
6.5523
9.1483
7.8467
7.0060
6.4221
5.9943
9.7459
7.4604
6.6318
6.0569
5.6363
8.4661
7.1914
6.3707
5.8018
5.3858
8.2600
6.9928
6.1776
5.6129
5.2001
8.1016
6.8401
6.0289
5.4071
5.0567
8.9761
6.7188
6.9106
5.351 1
5.9424
1 1
12
13
14
15
9.6400
9.3302
5.0708
8.8616
8.5310
7.2057
6.9266
6.7010
6.5149
6.3589
6.2167
5.9526
5.7394
5.5639
5.4170
5.6683
5.41 19
5.2053
5.0354
4.8932
5.3160
5.0643
4.8616
4.6950
4.5556
5.0692
4.8206
4.6204
4.4558
4.3183
4.8861
4.6395
4.4410
4.2779
4.1415
4.7445
4.4994
4.3021
4.1399
4.0045
4.6315
4.3875
4.191 1
4.0297
3.8948
16
17
18
19
20
8.5310
8.3997
8.2854
8.1850
8.0960
6.2262
6.1 121
6.0129
5.9259
5.8489
5.2922
5.1850
5.0919
5.0103
5.9382
4.7726
4.6690
4.5790
4.5003
4.4307
4.4374
4.3359
4.2479
4.1704
4.1027
4.2016
4.1015
4.0146
3.9386
3.8714
4.2059
3.9267
3.8406
3.7653
3.6987
3.8896
3.7910
3.7054
3.6305
3.5644
3.7804
3.6822
3.5971
3.5225
3.4567
21
22
23
24
25
8.0166
7.9454
7.8811
7.8229
7.7698
5.7804
5.7190
5.6637
5.6136
5.5680
4.8740
4.8166
4.7649
4.7181
4.6755
4.3688 4.0421
4.3134 3.9880
4.2635 3.9392
4.2184 3.8951
4.1774 3.8550
3.81 17
3.7583
3.7102
3.6667
3.6272
3.6396
3.5867
3.5390
3.4959
3.4568
3.5056
3.4530
3.4057
3.3679
3.3239
3.3981
3.3458
3.2986
3.2560
3.2172
26
27
28
29
30
7.7213
7.6767
7.6356
7.5976
7.5625
5.5263
5.4881
5.4529
5.4205
5.3904
4.6166
4.6009
4.5681
4.5378
4.5097
4.1400
4.1056
4.0740
4.0449
4.0179
3.8183
3.7848
3.7539
3.7254
3.6990
3.5911
3.5580
3.5276
3.4995
3.4735
3.4210
3.3882
3.3581
3.3302
3.3045
3.2884
3.2558
3.2259
3.1982
3.1726
3.1818
3.1494
3.1195
3.0920
3.0665
40
60
120
7.3141
7.0771
6.8510
6.6349
5.1785 4.3126
4.9774 4.1259
4.7865 3.9493
4.6052 3.7816
3.8283
3.6491
3.4796
3.3192
3.5138
3.3389
3.1735
3.0173
3.2910 3.1238
3.1187 2.9530
2.9559 2.7918
2.8020 2.6393
2.9930
2.8233
2.6629
2.51 13
2.8876
2.7185
2.5586
2.4073
oo
522
TABLA A.6.2
Distribucin F de Fisher-Snedecor (Continuacin)
a=0.01
10
12
i
2
3
4
5
6055.8
99.399
27.229
14.546
10.051
6106.3
99.416
27.052
14.374
9.8883
6
7
8
9
Id
7.8741
6.6201
5.8143
5.2565
4.0492
1 1
12
13
14
15
20
24
30
40
60
120
6157.3
99.432
26.872
14.198
9.7222
6708.7
99.449
26.690
14.020
9.5527
6234.6
99.458
26.598
13.929
9.4665
6260.7
99.466
26.505
13.838
9.3793
6286.8
99.474
26.411
13.745
9.2912
6313.0
99.483
26.316
13.652
9.2020
6339.4
99.491
26.221
13.558
9.1 1 18
6366.0
99.501
26.125
13.463
9.0204
7.7183
6.4691
5.6668
5.1114
4.7059
7.5590
6.3143
5.5151
4.9621
4.5582
7.3958
6.1554
5.3591
4.8080
4.4054
7.3127
6.0743
5.2793
4.7290
4.3269
7.2285
5.9921
5.1980
4.6486
4.2469
7.1432
5.9084
5.1156
4.5667
4.1653
7.0568
5.8236
5.0316
4.4831
4.0819
7.9690
5.7372
4.9460
4.3978
3.9965
7.8801
5.6495
4.8588
4.3105
3.9090
4.5393
4.2961
4.1003
3.9394
3.8049
4.3974
4.1553
3.9603
3.8001
3.6662
4.2509
4.0096
3.8154
3.6557
3.5222
4.0990
3.8584
3.6646
3.5052
3.3719
4.0209
3.7805
3.5868
3.4274
3.2940
3.9411
3.7008
3.5070
3.3476
3.2141
3.8596
3.6192
3.4253
3.2656
3.1319
3.7761
3.5355
3.3413
3.1813
3.0471
3.6904
3.4494
3.2548
3.0942
2.9595
3.6025
3.3608
3.1654
3.0040
2.8684
16
17
18
19
20
3.6909
3.5931
3.5082
3.4338
3.3682
3.5527
3.4552
3.3706
3.2965
3.231 1
3.4089
3.31 17
3.2273
3.1533
3.0880
3.2588
3.1615
3.0771
3.0031
2.9377
3.1808
3.0835
2.9990
2.9249
2.8594
3.1007
3.0032
2.9185
2.8442
2.7785
3.0182
2.9205
2.8354
2.7608
2.6847
2.9330
2.8348
2.7493
2.6742
2.6077
2.8447
2.7459
2.6597
2.5839
2.5168
2.7528
2.6530
2.5660
2.4893
2.4212
21
22
23
24
25
3.3098
3.2576
3.2106
3.1681
3.1294
3.1729
3.1209
3.0740
3.0316
2.9931
3.0299
2.9780
2.9311
2.8887
2.8502
2.8796
2.8274
2.7805
2.7380
2.6993
2.8011
2.7488
2.7017
2.6591
2.6203
2.7200
2.6675
2.6202
2.5773
2.5383
2.6359
2.5831
2.5355
2.4923
2.4530
2.5484
2.4951
2.4471
2.4035
2.3637
2.4568
2.4029
2.3542
2.3099
2.2695
2.3603
2.3055
2.2559
2.2107
2.1694
26
27
2S
29
30
3.0941
3.0618
3.0320
3.0045
2.9791
2.9579
2.9256
2.8959
2.8685
2.8431
2.8150
2.7827
2.7530
2.7256
2.7002
2.6640
2.6316
2.6017
2.5742
2.5487
2.5848
2.5522
2.5223
2.4946
2.4689
2.5026
2.4699
2.4397
2.4118
2.3860
2.4170
2.3840
2.3535
2.3253
2.2992
2.3273
2.2938
2.2629
2.2344
2.2079
2.2325
2.1984
2.1670
2.1378
2.1107
2.1315
2.0965
2.0642
2.0342
2.0062
40
60
120
2.8005
2.6318
2.4721
2.3209
2.6648
2.4961
2.3363
2.1848
2.5216
2.3523
2.1915
2.0385
2.3689
2.1978
2.0346
1.8783
2.2880
2.1154
1.9500
1.7908
2.2034
2.0285
1.8600
1.6964
2.1162
1.9360
1.7628
1.5923
2.0194
1.8363
1.6557
1.4730
1.9172
1.7263
1.5530
1.3246
1.8047
1.6006
1.3805
1.0000
523
TABLA A.7
Potencia de un contraste en funcin de a y 5
Contraste
0.05
ContrasU
(1.10
0.08
unilateral iai
0,01
0.05
0.005
(1.02
iX)
0.01
0.005
bilateral (a)
0.05
ontras e unilateral
0,02
0.01
0.10
0.08
0.05
0.04
0.02
0.01
2.4
2.5
2.6
2.7
2,8
0,78
0,78
0.83
0.85
0.87
0,74
0.77
0.80
0.83
0.85
0,67
0.67
0.74
0.77
0,80
0,63
0.57
0.71
0.74
0,77
0,53
0.55
0,61
0.64
0.68
0,43
0,51
0.(1
0,1
0.2
0.3
0.4
0,05
0.06
0.07
0.08
0.10
0.04
0,05
0.05
0.05
0.08
0,02
0.03
0.04
0.05
0.06
0.01
0,02
0,02
0.04
0.05
0.09
0.01
0.02
o.o:
0.02
0.01
0.01
0.01
0.01
0.02
0.5
0.6
0.7
0.8
0.9
0.12
0,14
0,17
0.19
0,22
0,10
0.07
0.15
0.17
0.19
0.07
0.09
0.10
0.12
0.14
0.06
0.07
0.09
0.1 1
II. 1
0.03
0.04
0.05
0.06
0.08
0.02
0.02
0.03
0.04
0.05
2.9
3.0
3,1
3.2
3.3
0.89
0.91
0.93
0.94
0.95
0.87
0.90
0.91
0.93
0,94
0.83
0.85
0.87
0.90
0,91
0.80
0.83
0,85
0.87
0.89
0.72
0,75
0,78
0,81
0,83
0.63
0.70
0,70
0.73
0.76
1.0
1.1
1.2
1.3
1,4
0,25
0,29
0,33
0,36
0.40
0,23
0.26
0.30
0.33
0,36
0.17
0,19
0,22
0,25
0.29
0,15
0,17
0.20
0.23
0.26
0.09
0,11
0, 1 3
0,15
0.18
0.06
0.07
0.09
0.10
0.12
3,4
3.5
3.6
3.7
3.8
0.96
0.97
0.97
0.98
0,98
0.95
0.96
0.96
0.97
0.98
0.93
0.94
0.95
0.96
0.97
0.91
0.93
0.94
0.95
0.96
0.86
0.88
0.90
0.91
0.94
0.79
0.82
0.85
0.87
0,91
1.5
1.6
1.7
1.8
1.9
0.44
0.48
0.52
0.56
0.60
0,50
0,44
0.48
0.52
0.56
0.32
0.36
0.40
0.44
0.48
0.30
0.33
0.36
0.40
0.44
0.21
0.24
0.27
0.30
0.34
0.14
0.16
0.19
0.22
0.25
3.9
l.ll
4,1
4.2
4,3
0.99
0.99
0.99
0.99
0.99
0.98
0.99
0.99
0.99
0.99
0.97
0.98
0.98
0.99
0.99
0.96
0.97
0.98
0.98
0.99
0.94
0.95
0.97
0.97
0.96
0,91
0,92
0,96
0,95
0,96
2.0
2,1
2 2
2,3
0.63
0.67
0.71
0,74
0.59
0,63
0,67
0,71
0.52
0.55
0.59
0.63
0.48
0.5 1
0,56
0,60
0.37
0.41
0,45
0.49
0.28
0.32
0.35
0.39
4.4
4,5
4,6
4.7
0.99
0.99
0,99
0,99
0.99
0.99
0.99
0,99
0.99
0.99
0.99
0.99
0.99
0.99
0.99
0,99
0.98
0.99
0.99
0.99
0.97
0,97
0.98
0,98
0,51
0,55
0,59
l-B
0.10
Unilateral (a)
0.025
Bilateral (a)
0.05
0.08
0.30
0.35
0.40
0,45
0,50
0.55
0.60
0,65
1.13
1.27
1.40
1,53
1.65
1,78
1.91
2.04
1.13
1.37
1.50
1.63
1.75
1.88
2.01
2,14
1.44
1.58
1.71
1.84
1.96
2.09
2.22
2.35
1.53
1.67
1.80
1.93
2.05
2.18
2.31
2.44
1.81
1.95
2.08
2,21
2.33
2.46
2.59
2.72
2.06
2.20
2.33
2,46
2,58
2.71
2,84
2,97
0.70
0,75
0.80
0.85
0.90
0.95
0.99
0.999
2.18
2.33
2.50
2.69
2.94
3.30
1.98
4.74
2.28
2.43
2.60
2.79
3.04
3.40
4.08
4.84
2.49
2.64
2.81
3.00
3.25
3.61
4.29
5.05
2.58
2.73
2.90
3.09
3.34
3.70
4.38
5.14
2.86
3.01
3.18
3.37
3.62
3,98
4.66
5.42
3.11
3.26
3,43
3.62
3,87
4,23
4.91
5.67
0.05
0.04
0.02
0.01
0.005
0.04
0.02
0.01
524
TABLA A.8.1
Rangos studentizados de Duncan (rl)7
ct=0.01
p
V
10
1
2
3
4
5
90.03
14,04
8.261
6.512
5.702
90.03
14,04
8,321
6.677
5.893
90,03
14.04
8.321
6.740
5.989
90.03
14,04
8.321
6.756
6.040
90.03
14.04
8.321
6.756
6.065
90.03
14.04
8.321
6.756
6.074
90.03
14.04
8,321
6.756
6,074
90,03
14.04
8.321
6.756
6.074
90,03
14,04
8,321
6.756
6,074
6
7
8
9
10
5.243
4,949
4,746
4,596
4,482
5,439
5,145
4.939
4.787
4,671
5.549
5.260
5.057
4,906
4,790
5,614
5.334
5.135
4.986
4.871
5.655
5,383
5.189
5.043
4.931
5,680
5,416
5.227
5.086
4,975
5.694
5.439
5,256
5,118
5.010
5,701
5.454
5.276
5.142
5.037
5,703
5.464
5.291
5,160
5.058
1 1
12
13
14
15
4,392
4.320
4.260
4,210
4,168
4.579
4.504
4,442
4,391
4,347
4.697
4.622
4,560
4,508
4,463
4.780
4.706
4.644
4,591
4,547
4,841
4.767
4.706
4.654
4,610
4,887
4.815
4,755
4.704
4.660
4.924
4.852
4.793
4.743
4,700
4,952
4,883
4.824
4,775
4,733
4.975
4,907
4,850
4,802
4,760
16
17
18
19
20
4.131
4.099
4,071
4,046
4,024
4.309
4.275
4.246
4.220
4,197
4.425
4,391
4.362
4.335
4,312
4,509
4,475
4,445
4,419
4.395
4,572
4,539
4.509
4.483
4.459
4.622
4.589
4.560
4.534
4.510
4,663
4.630
4.601
4.575
4.552
4.696
4,664
4,635
4,610
4.587
4,724
4,693
4.664
4,639
4,617
24
30
40
60
120
3,956
3,889
3,825
3,762
3,720
3,643
4.126
4.056
3.988
3.922
3.858
3.796
4.239
4.168
4.098
4.031
3.965
3.900
4,322
4.250
4,180
4.1 1 1
4,044
3.978
4,386
4,314
4.244
4.174
3.107
3,040
4.437
4,366
4.296
4.226
4.158
4.091
4.480
4.409
4,339
4,270
4.202
4.135
4,516
4,445
4.376
4,307
4,239
4.172
4,546
4,477
4.408
4,340
4.272
4.205
oo
7 Adaptada de New Tables for Multiple Comparison with a Control, de Ch.W. Dunnet.
Biometrica, vol. 20. 1964.
525
TABLA A.8.2
Rangos studentizados de Duncan (rn) (Continuacin)"
0=0.05
p
V
1
2
3
4
5
17,97
6,085
4.501
3,927
3.635
17.97
6.085
4,516
4.013
3.749
17.97
6.085
4.516
4.033
3.797
17.97
6.085
4.516
4,033
3.814
17,97
6.085
4,516
4,033
3,814
17.97
6.085
4.516
4.033
3.814
17.97
6.085
4.516
4.033
3.814
17.97
6.085
4.516
4.033
3.814
17.97
6.085
4,516
4.033
3,814
6
7
8
9
10
3.461
3,344
3,261
3,199
3,151
3.587
3.477
3.399
3.339
3.293
3,649
3,548
3.475
3,420
3.376
3,680
3.588
3.521
3.470
3.430
3,694
3,611
3.549
3.502
3.465
3.697
v62:
3.566
3.523
3.489
3.697
3,626
3.575
3.536
3.505
3.697
3.626
3.579
3.516
3.516
3,697
3,626
3,579
3.522
3.522
1 1
12
13
14
15
3,1 13
3,082
3.055
3,033
3.014
3.256
3.225
3.200
3.178
3.160
3,342
3.313
3.289
3.268
3.250
3,397
3.370
3.348
3.329
3.312
3,435
3.410
3.389
3.372
3.356
3.462
3.439
3,419
3,403
3.389
3.480
3.459
1,442
3.426
3.413
3.493
3,474
3.458
3,444
3.432
3,501
3,484
3,470
3,457
3.446
16
17
18
19
20
2,998
2,984
2.971
2.960
2.950
3.144
3.130
3.1 18
3,107
3.097
3.235
3.222
3.210
3.199
3.190
3.298
3.285
3.274
3.264
3.255
3.343
3.331
3.321
3.311
3.303
3.376
3.366
3.356
3.347
3.339
3.402
3.392
3.383
3.375
3.368
3.422
3.412
3.405
3,397
3,391
3,437
3,429
3,421
3,415
3,409
24
30
40
60
120
2,919
2,888
2.858
2.829
2.800
2.772
3.066
3,035
3.006
2.976
2.974
2.918
3.160
3,131
3,102
3,073
3,045
3.017
3.226
3.199
3,171
3,143
3.116
3.089
3,276
3.250
3.224
3,198
3.172
3,146
3.315
3.290
3.166
3,241
3.217
3.193
3.345
3,322
3,300
3.277
3.254
3.232
3.370
3.349
3.328
3.307
3.287
3.265
3.390
3.371
3.352
3,333
3,314
3.294
Do
10
8 Adaptada de . Critical Values lor Duncan's New Multiple Range Test, de H.L. Harter.
Bimetrics, 1960.
526
TABLA A.9
Percentiles superiores de rangos de Tukey:/(O'05, ,v )
cfc=0.05
Nmero de tratamientos ikl
V
10
1
3
4
5
18.00
6.09
4.50
3.93
3.64
27.00
8,33
5.91
5.04
4.60
32.80
9.80
6.83
5,76
5.22
37.20
10.89
7.51
6.29
5.67
40.50
11.73
8,04
6.71
6.03
43,10
12.43
8.47
7.06
6.33
45.40
13.03
8.85
7,35
6.58
47.30
13.54
9,18
7.60
6.80
49,10
13.99
9,46
7.83
6.99
6
7
8
9
10
3.46
3.34
3.26
3.20
3.15
4,34
4,16
4,04
3.95
3,88
4.90
4.68
4,53
4.42
4,33
5.31
5.06
4,89
4.76
4,66
5,63
5,35
5,17
5.02
4.91
5.89
5,59
5.40
5.24
5,12
6.12
5.80
5.60
5,43
5.30
6.32
5.99
5,77
5.60
5.46
6.49
6.15
5.92
5.74
5,60
1 1
12
1.1
14
15
3.11
3,08
3,06
3.03
3.01
3.82
3,77
3,73
3,70
3,67
4.26
4.20
4,15
4,11
4.08
4.58
4,51
4,46
4.41
4,37
4.82
4,75
4,69
4,64
4,59
5.03
4.95
4.88
4.83
4.87
5.20
5,12
5.05
4.99
4.94
5,35
5,27
5,19
5,13
5.08
5.49
5.40
5,32
5.25
5.20
16
17
18
19
20
3,00
2,98
2,97
2,96
2,95
3,65
3,62
3,61
3.59
3.58
4.05
4.02
4.00
3.98
3.96
4.34
4,31
4.28
4.26
4,24
4,56
4,52
4.49
4.47
4,45
4.74
4.70
4,67
4.64
4.62
4.90
4.86
4.83
4.79
4,77
5.03
4.99
4.96
4.92
4,90
5.15
5.1 1
5.07
5.04
5.01
24
30
40
60
120
oo
2,92
2.89
2,86
2,83
2,80
2.77
3.53
3.48
3.44
2.40
2.36
2.32
3.90
3.84
3.79
3.74
3.69
4.17
4.1 1
4.04
3.98
3.92
3.86
4.37
4.30
4.23
4,16
4,10
4.03
4,54
4.46
4.39
4.31
4,24
4.17
4,68
4.60
4.52
4.44
4.36
4.29
4.81
4,72
4.63
4,55
4,47
4.39
4.92
4.83
4,74
4,65
4,56
4.47
.y
Vfl <
527
TABLA A.10
Valores crticos del coeficiente r de Pearson'
Nivel de significacin para una prueba unilateral (a)
0,005
0.01
0.05
0.025
Nivel de significacin para una prueba bilateral (a)
0.02
0.01
0.05
gl=N-2
0.10
1
2
3
4
5
0,988
0.900
0.805
0,729
0,669
0.997
0.950
0.878
0.811
0.754
0.9995
0.98(1
0.934
0,882
0,883
0.9999
0,990
0,959
0,917
0.874
6
7
8
9
10
0.622
0,582
0,549
0,521
0,497
0,707
0.666
0.632
0.602
0.576
0,789
0.750
0,716
0.685
0.658
0,834
0,798
0,765
0.735
0,708
1 1
12
13
14
15
0.476
0.458
0,441
0,426
0.412
0.553
0.532
0,514
0.497
0.482
0,634
0.612
0.592
0.574
0,558
0,684
0,661
0,641
0,623
0,606
16
17
18
19
20
0.400
0,389
0,378
0,369
0.360
0.468
0.456
0.444
0,433
0,423
0,542
0.528
0.516
0.503
0.492
0,590
0,575
0.561
0,549
0.537
21
22
23
24
25
0.352
0,344
0,337
0,330
0.323
0,413
0,404
0.396
0.388
0,381
0,482
0,472
0,462
0.453
0,445
0.526
0,515
0,505
0,496
0,487
26
27
28
29
30
0.317
0,311
0,306
0,301
0,296
0,374
0,367
0,361
0.355
0,349
0,437
0,430
0,423
0,416
0,409
0.479
0.471
0,463
0,456
0,449
35
40
45
50
0,275
0,257
0,243
0,231
0,325
0.304
0,288
0,273
0,381
0.358
0.338
0.322
0,418
0,393
0,372
0,354
60
70
80
90
100
0.211
0,195
0,183
0.173
0.164
0,250
0,232
0,217
0,205
0.195
0,295
0,274
0,256
0,242
0,230
0,325
0,302
0,283
0,267
0,254
9 Adaptada de Statistical Tables for Biological, Agricultural and Medical Research, de R.A.
Fisher y F. Yates. Oliver and Boyd, Edimburgo, 1962.
528
TABLA A.11
Valores del estadstico de Fisher en funcin de r1"
r
.000
.005
.010
.015
.020
.000
.005
.010
.015
.020
.200
.205
.210
.215
.220
203
208
213
218
224
.400
.405
.410
.415
.420
.424
.430
.436
.442
.448
.600
.605
.610
.615
.620
.693
.701
.709
.717
.725
.800
.805
.810
.815
.820
1.099
1.113
1.127
1.142
1.157
.025
.030
.035
.040
.045
.025
.030
.035
.040
.045
.225
.230
.235
.240
.245
229
234
239
245
250
.425
.430
.435
.440
.445
.454
.460
.466
.472
.478
.625
.630
.635
.640
.645
.633
.741
.750
.758
.767
.825
.830
.835
.840
.845
1.172
1.183
1.204
1.221
1.238
.050
.055
.060
.065
.070
.050
.055
.060
.065
.070
.250
.255
.260
.265
.270
255
261
266
271
277
.450
.455
.460
.465
.470
.485
.491
.497
.504
.510
.650
.655
.660
.665
.670
.775
.784
.793
.802
.811
.850
.855
.860
.865
.870
1.256
1.274
1.293
1.313
1.333
.075
.080
.085
.090
.095
.075
.080
.085
.090
.095
.275
.280
.285
.290
.295
282
2SS
293
299
304
.475
.480
.485
.490
.495
.517
.523
.530
.536
.543
.675
.680
.685
.690
.695
.820
.829
.838
.848
.858
.875
.880
.885
.890
.895
1.354
1.376
1.398
1.422
1.447
.100
.105
.110
.115
.120
.100
.105
.110
.115
.120
.300
.305
.310
.315
.320
310
315
321
326
332
.500
.505
.510
.515
.520
.549
.556
.563
.570
.576
.700
.705
.710
.715
.720
.867
.877
.887
.897
.908
.900
.905
.910
.915
.920
1.472
1.499
1.528
1.557
1.589
.125
.130
.135
.140
.145
.125
.130
.135
.140
.145
.325
.330
.335
.340
.345
337
343
348
354
360
.525
.530
.535
.540
.545
.583
.590
.597
.604
.611
.725
.730
.735
.740
.745
.918
.929
.940
.950
.962
.925
.930
.935
.940
.945
1.623
1.658
1.697
1.738
1.783
.150
.155
.160
.165
.170
.150
.155
.160
.165
.170
.350
.355
.360
.365
.370
365
371
377
383
388
.550
.555
.560
.565
.570
.618
.626
.633
.640
.648
.750
.755
.760
.765
.770
.973
.984
.996
1.008
1.020
.950
.955
.960
.965
.970
1.832
1.886
1.946
2.014
2.092
.175
.180
.185
.190
.195
.175
.180
.185
.190
.195
.375
.380
.385
.390
.395
394
400
406
412
418
.575
.580
.585
.590
.595
.655
.662
.670
.678
.685
.775
.780
.785
.790
.795
1.333
1.045
1.058
1.071
1.085
.975
.980
.985
.990
.995
2.185
2.298
2.443
2.647
2.994
10 Adaptada de S1atistical Tables for Biological. Agricultural and Medical Research, de R.A.
Fisher y F. Yates, Oliver and Boyd, Edimburgo, 1962.
APENDICE B
TEORA COMBINATORIA
COMBINATORIA
532
1
,
'
T
3
4
'
1
-,
1
3
2
'
533
Ejemplo B. 1
En una carrera compiten 10 caballos. En los boletos de apuestas hay que poner el
nombre del primero, segundo, tercero y cuarto caballo. Cuntos boletos hay que
rellenar, como mnimo, para estar seguros de acertar?
Solucin: Cada agrupacin diferir de la otra por el orden en que coloquemos los
4 caballos o por la naturaleza de uno de los caballos, y no puede haber elementos
repetidos. Se trata de variaciones ordinarias de 10 elementos tomados de 4 en 4.
Luego el resultado es:
Vn = 10 9 8 7= 5040 boletos.
y^ - m
VR = VR,m = m:
VRm = VR'm m = m: m = m '
(2)
VRl = VR"Jm = m"'m = m"
Ejemplo B.2
Para acertar con seguridad una quiniela de ftbol de 14 resultados, cuntos co
lumnas hay que rellenar?
Por cada apuesta, con los tres signos (1, X, 2) hay que rellenar las catorce celdas
de cada columna: luego hay elementos que se van a repetir. Se trata de variaciones
con repeticin de 3 elementos tomados de 14 en 14, y su nmero es:
VR'J = 3N = 4782969 columnas
534
B.3. Permutaciones
Se llaman permutaciones de n elementos a las distintas agrupaciones que se pue
den formar con los n elementos, de tal forma que una agrupacin difiera de otra
solamente por el orden de colocacin de los elementos.
Las permutaciones de n elementos pueden ser consideradas como caso particular
de variaciones de n elementos tomadas de n en n.
Al nmero de permutaciones de n elementos se le representa con el smbolo P , y
es:
P = V';, = n(n-l)(n-2)---3-2-l
(3)
Ejemplo B.3
De cuntas maneras pueden sentarse seis personas en un banco?, y en una
mesa camilla?
Hay tantas formas de sentarse seis personas en un banco como ordenaciones
posibles de seis elementos distintos. Se trata de permutaciones de 6 elementos:
P6=6!=720.
Cuando las seis personas se sientan en una mesa camilla, observamos que, si
trasladamos a cada persona un asiento a la derecha (o a la izquierda), se obtiene una
situacin idntica a la anterior. Entonces, si se fija una persona, y se permuta el resto,
se tienen todas las formas posibles:
P=5!=120
B.4. Permutaciones con repeticin
Se llama permutaciones con repeticin de n elementos a las distintas agrupaciones
que se pueden formar con los n elementos de modo que se cumplan las condiciones:
1) en toda agrupacin figuran todos los elementos; 2) entre los elementos de cada
agrupacin los hay que son iguales entre s.
El nmero de permutaciones con repeticin se denota por P J-b-, donde m es el
ndice inferior, que indica el nmero de elementos de que consta cada agrupacin, y
a,b,... son los ndices superiores, que sealan el nmero de veces que se repite cada
elemento.
Para determinar cuntas son, pensemos sobre un ejemplo concreto:
535
Ejemplo B.4
Queremos hacer quinielas de ftbol que contengan 7 signos 1, cuatro X y tres 2.
Con estas condiciones, cuntas columnas distintas se pueden rellenar?
Una posible combinacin es
1111111 XXXX222
Si se permutan entre s los siete unos, las 4 X y los 3 signos 2, se tienen 7!4!3!
agrupaciones, que corresponden a la misma apuesta.
Luego el nmero de agrupaciones distintas es el cociente de dividir el nmero de
permutaciones ordinarias de 14 elementos entre 7!4!3!:
14'
p7A.i .
ru
.
120120
P7P4P}
7!4!3!
r
Pt
" pp.
Pe
m!
" a!b!...c!
(a + b+.
a!b!. .c!
(4)
B.5. Combinaciones
Se llama combinaciones de m elementos tomadas de n en n a las distintas agrupa
ciones que se pueden formar tomando n elementos de los m de tal forma que una
agrupacin difiera de otra por la naturaleza de algn elemento.
Representaremos por Cmn al nmero de combinaciones de m elementos tomados de
n en n. Este nmero coincide con el nmero de subconjuntos de n elementos que se
pueden obtener de un conjunto de m elementos.
Para hallarlo, se pueden formar las variaciones de los m elementos tomados de n
en n. Fijada una de stas, hay, con los mismos elementos pero en distinto orden,
tantas variaciones como permutaciones de n elementos. Luego el nmero de combi
naciones de m elementos tomados de n en n es igual al nmero de variaciones de m
elementos tomados de n en n dividido por el nmero de permutaciones de n elementos:
Y.
('
536
(6)
En efecto:
\n)
V",
P
m(m- l)-(m-n+ l)
n!(m - n)!
Ejemplo B.5
De cuntas maneras se pueden extraer tres cartas a la vez de una baraja espaola?
La solucin es equivalente a contabilizar el nmero de subconjuntos posibles de 3
elementos de un conjunto de 40; son, pues, combinaciones de 40 elementos tomados
de 3 en 3:
. %
Am
40 \
40!
- 9880
3 / " 3!37!
\?)
f7)
Ejemplo B.6
Disponemos de varios recipientes de 1 litro de las bebidas A, B y C. y nos dispo
nemos a experimentar ccteles en envases de 4 litros. Cuntos ccteles distintos
podemos hacer?
Se trata de las combinaciones con repeticin de 4 elementos tomados de 3 en 3:
CR=Ct = (l)=Y = 15
APNDICE C
C. 1 . Funcin r (gamma)
Adems de la distribucin normal, cuyo papel relevante en los problemas de
inferencias resulta evidente, es conveniente conocer otras distribuciones, en las que
se basa gran parte de la estrategia de la Estadstica Inferencial.
Estas distribuciones se pueden introducir a partir de la distribucin p (gamma),
que toma su nombre de la funcin del mismo nombre, de gran inters en el anlisis
matemtico.
La distribucin gamma sirve adems de modelo para numerosos experimentos en
los que interviene el tiempo, como sucede en las llegadas de aviones a un aeropuerto
y, en general, en los problemas de teora de colas.
Las distribuciones exponencial y la X2 de Pearson son casos particulares de la
distribucin gamma; la primera se aplica a la resolucin de problemas de fiabilidad y
de procesos de Poisson, y la segunda tiene especial importancia en la construccin
de test de hiptesis.
Definicin C. I: Se llama funcin T (gamma) ala aplicacin
r..9T - 9T dada Por V(a ) = ]xa Vdc.Vcc e 9
(1)
V(l) = ]e'dx=l
D.
r(l/2) = ]x":eKdx = J
r(z) = (z-I)r(z-D
IV
r(n) = (n-l)!, V N
P'T(ar
0
(2)
, resto
540
A partir de las propiedades de la funcin gamma, se demuestra que es una funcin
de densidad, as como la siguiente proposicin:
Proposicin C.l: La media y la varianza de la distribucin gamma son:
u = ceS y cr = rxB-
(3)
f(x)='
0
, resto
siendo B>0.
Por tratarse de un caso particular de la distribucin gamma, la media y la varianza
de la distribucin exponencial se determinan inmediatamente:
L La media de la distribucin exponencial es u=B.
II. La varianza de la distribucin exponencial es a2=BA
C.1. 3. Distribucin %2
La distribucin X ' es otro caso particular de distribucin gamma; se obtiene
cuando a=n/2 y B=2.
Esta distribucin desempea un papel fundamental en los problemas de inferencia
estadstica, sobre todo, los problemas referentes a bondad de ajuste, independencia y
homogeneidad.
Definicin C.4: La variable aleatoria X tiene una distribucin X ' con n gra
dos de libertad, si su funcin de densidad viene dada por:
7
x'2~' e p , si x > 0
"'" \22r(f2>
0
siendo n un nmero entero positivo.
(4)
, resto
541
Por tratarse de un caso parti
cular de la distribucin gamma, re
sultan evidentes las siguientes
propiedades:
I. La media de la distribucin
X es n=n.
II. La varianza de la distribuFigura C.I: Graficas de la X2 con 2 y 5 gl.
0 2
P{x2^X)=a
La tabla A.5 proporciona valores
de X. en funcin de a y n. Cada
columna, a partir de la segunda, est encabezada por los valores a de las reas. La
primera columna tiene los grados de libertad n, y, en el cuerpo de la tabla, figuran los
valores de X 2As, por ejemplo, el valor de la X ' con 6 grados de libertad, que deja a la derecha
un rea de 0'05, es
X0205.6 = 12592
El 95% del rea de una X ' se encuentra entre Xows y X0025.
542
r + /
Ai r
Ai p
La proposicin C.2. nos indica que la suma de dos y2. es otra %2 que tiene, como
grados de libertad, la suma de los grados de las otras dos.
Definicin C.5: Si Y es una variable aleatoria que sigue una distribucin nor
mal N(0,1) y Xn2 otra variable aleatoria independiente de Y, que se distribuye
segn una X2 con n grados de libertad, la variable aleatoria
Y
Vx;/
es una variable aleatoria, cuya distribucin es conocida como t de Student con
n grados de libertad, siendo n un nmero entero positivo.
La distribucin t de Student representa una familia de funciones que depende del
parmetro n.
La funcin de densidad de la distribucin t est definida en todo el campo real, su
grfica es simtrica con respecto al eje de ordenadas y se asemeja a la normal tipificada,
a la que converge cuando n crece.
La figura C.3 nos muestra dos de las funciones de la familia de las t (con 2 y 5 gl).
1
Student es el seudnimo que utiliz W.S. Gossei cuando public, en 1908. la distribucin que
lleva este nombre, para evitar que el dueo de la cervecera donde trabajaba conociera su identidad.
543
En la tabla A.4 del apndice A, estn tabulados los diferentes valores de la t para
distinto nmero de grados de libertad.
Para utilizar la tabla A.4, se consideran reas a la derecha de un punto t (punto
crtico), que corresponde al valor de la abscisa que deja a su derecha un rea igual a
a en una t con n grados de libertad, es decir:
P(t>ta.)=a
La tabla A.4 difiere de la tabla de la normal en que las reas, en la t, son los
encabezamientos de las columnas y los valores de t figuran en el cuerpo de la tabla, al
contrario de la normal.
Media y varianza de la t de Student:
I. La distribucin t de Student con n grados de libertad tiene como media u=0, si n>1.
II. La distribucin t de Student con n grados de libertad tiene como varianza
i
cr =
n
, si n > 2
n-2
544
La distribucin F est tambin tabulada para distintos valores de los parmetros y
distintos niveles de significacin (tablas A.6 del apndice A; se incluyen cuatro ta
blas: dos para a=0'05 y dos para a=0'01).
Las tablas nos proporcionan el valor de la abscisa, Fa
, que deja a su derecha
un rea igual a a en una F con n, y n2 grados de libertad:
P{F,.2>Ftt,,)=a
La propiedad que enunciamos a continuacin relaciona los valores de la F
los de la F , que permite evaluar los valores de la F para a=0'95 y a=0'99.
Proposicin: En una distribucin F con ni y n, grados de libertad, se verifica
/
* /- ,n,.n2 ~ rp
* a .n2.n1
con
547
CAPITULO 1
1.2. La tabla de frecuencias es:
Clases
n1
2' 5-2'75
2' 75iS3
27
36
85
144
3-3 '25
3' 25-3' 5
3' 5-3' 75
3' 75-4
4-4'25
4' 25-4'5
Total
98
56
32
22
500
y el perfil radial:
lOOfj
0'054
5'4
27 0'072
7'2
63 0'170
148 - 17
0' 288
28' 8
2920' 196
19' 6
-39011' 2
0' 112
4460' 064
6' 4
-47B4' 4
0' 044 500l'DO
100
0' 30
0' 05
0. 20
0' 10 Ano
2'5
3'25 3'5
n1
fi
n'l
'l
465
503
388
0' 106
0'119
0'094
0' 101
0' 110
0084
405
cose
754
298
0065
790
9
10
600
446
0' 131
0' 097
878
910
0' 112
O' 165
Total 457Z
1- 000
7825
1' 000
407
546
434
458
730
095
978
80Z
630
0'058
0'093
0' 114
0' 125
0'102
0085
0'096
O'IOO
..a \ \
HLCIFHREDMU
123456
99
10
548
1 . 1 0. El diagrama correspondiente a la dis
tribucin del empleo es:
Segundo t t inest re
Construccin
Induttrla
CM
Agricultura
d5
Otro
"
Servicios
30-40
40-50
6
11
50-60
60-70
8
7
70-BO
80-90
90-100
4
200 300 400 500 600 700 800
,1 Mw
i
ti
10
250
U'5 -
ii
350
450
550
650
750
549
CAPITULO 2
2.2. Media : 7'941. mediana = 7'82, moda
= 8'01.
2.4. Media=3'333, mediana=3, moda=3.
2.6. Mediana = 6, moda = 6, P = 3'75,
P, = 6'75
Rango=33%.
2.8. Q, = 50'82.Q, = 62,84. Rango : 44'95
45%.
2.16.Q,=4r46,Q=67'96.
La cuarta parte de los alumnos tiene
una calificacin inferior a 41'46 y otra
cuarta parte de los alumnos una califica
cin superior a 67'96.
CAPTULO 3
3.2.
3.4.
1) a,=4'372,
a,=152'139.
2 m,=0,
m=2'66.
a =24' 139.
a4=1040'79.
3.6.
m4=52'53.
3.8.
l)o=8O'9O.a=8'99.
2) A^'28. Ap=0'33.
3)g4=2'41-3=-0'59<0, luego es
platicrtica.
1) M,=6'06.
Media=6'12.
d
Desviacin mediana=0'44,
D.a.m. respecto de la media
na^' 84,
D.m. respecto de la media=0'837.
R2=6,Rl=6'62-5'41=r21.
2l
R.=0'605.
3) o:=ri9,a=r09.
a,=100'1,o:=274'99,a=16'58,
A,.=0'067. Ap=0'06.
550
3.14.
1) Media=17'891.
Varianza=13'61.
Desviacin tpica=3'69.
3.16.
a=3'981;a=15'851;a=63'13;
a4=25'14.
2) R=20'75-15'7=5'05.
^=2-525.
AJH)'64;Ap=-0'154.
CAPITULO 4
4.S
4.2.
i 6 8 e
G f. 7 o
ru
100
300
500
700
4.4.
M=16
Bd=350
,190
H,=770
HM80
i!IEi-2
E,=9S
E^920
L, = 70
L =980
=507-S
100
4.6.
12
oo
13
000
14
ooo
15
16
00
ooooooooo
1?
ooo
li
00000
19
00
300
551
4.14.
CAPITULO 5
5.2. 1) Caractersticas de las distribucio
nes marginales:
a = 18'4,sx:=7,84,sx=2'8,
an,=60, s;=774'99, sY=27"83.
2) Caractersticas de la condicionada:
Media=33,33,Var=138'88,
D.u'pica=11'78.
5.4. X depende funcionalmente de Y; en
cambio, Y no depende funcionalmente de X.
5.6.
La distribucin de la capacidad
psicomotora condicionada por una edad
de 10 aos es:
10-16
17-23
24-30
31-37
38-44
45-51
52-58
5
6
3
a,,=7,84,an=774,99.a,=1060.
a=6659,2.an =365625.
5.12. mn=665. Hay una relacin de depen
dencia funcional entre las dos variables.
5.8.
6
13
20
24
50-55
55-60
60-65
65-70
21
101
70-75
59
75-80
80-85
39
28
32
22
10
11
12
13
14
11
22
14
24
30
26
14
.1
50
17
552
2) La distribucin de X condicionada por
Y=l '625 es:
55-60
60-65
22
I- 76
o"
1'72
65-70
63
1'70
70-75
28
I" 68
i
i
75-80
10
80-85
14
Ul
73
76
78
80
82
pa
b.&
Canad
m18
A lg od 6 n Tabaco
\///A
franela
Todos
CAPITULO 6
6.2. r=-0'97.
6.4. 1) ox=6'19,oY=6,34,m1=-7'84y
r=-0'199.
2) La correlacin es muy dbil y ne
gativa; no parece que el cursillo influya
553
rrelacin son iguales. Se cumple la pro
piedad I de 6.5.2.2.
6.8. Se debe aplicar el coeficiente <t>.
<I>=0'069, luego no existe correla
cin.
6.10. Se utiliza el coeficiente de correla
cin biserial puntual, que es rb =0'21. La
correlacin es muy dbil.
6.12. Se trata de dos variables continuas
dicotomizadas, por lo que se usa el coefi
ciente de correlacin tetracrica, que es:
rT=0'09
lo que indica una relacin positiva muy
dbil entre el peso y la aplicacin en el
estudio.
CAPITULO 7
7.2. l)Es(E,B,P), donde E={ 1.2,3,4,5,6},
B es el conjunto de las partes de E, y P
viene dada por las probabilidades de los
sucesos elementales, que son: P(1)=l/21,
P(2)=2/21, P(3)=3/21, P(4)=4/21, P(5)=5/21
yP(6)=6/21.
2)P{l,3,5}=3/7; P{3,4,5,6}=6/7;
P{3.5}=8/21.
7.14. p=l/18.
7.16. p=35/92.
7.18. p=3/8.
7.20. l)p=l/35;p=34/105;p=6/35.
0, si x<-1
-.,
4 si -1<x<0
7.22.
F(x)= |, si 0<x<l
|, si l<x<2
o
1, si x>2
7.8. l)p=l/8;2)p=l/4;3)p=l/2.
0, six<0
7.10. l)p=3/10; 2) p=2/5; 3) p=3/5.
7.24.
(1 -cosx), si0<x<n
F(x) = l
2
554
7.26. 1) Ganancia media esperada=60
ptas.
2) Varianza=146080.
7.30. p=0'85.
7.32. m2=l'05; m3=-0'6; m4=2"06.
8.4. p=0'83.
8.6. p=0'O039.
8.20. p=0'36.
8.12. l)p=0.2458;2)p=0'0989;3)p=0.2621.
8.22. l)p=0'0907;2)p=0.0002;3)p=0.
CAPITULO 9
9.2. Media=2'5; desviacin tpica=0'64.
9.4. l)p=0'2126;2)p=0,7874.
9.10.p=0,9934.
9.12.p=0'0125.
9.14. Intervalo para duracin media:
I=[98972,1010'27].
9.16. 1) Intervalo del 95%: I=[4'95.5'45].
2) Intervalo del 99%: I=[4'87,5'53].
555
CAPITULO 10
10.2. Resulta Z=4'08>1'65, por lo que se
rechaza la hiptesis nula, tomando la de
cisin de no administrar el medicamento.
10.4. Z=-3'5<-1'96, por lo que se rechaza
la hiptesis nula, concluyendo que la
mquina no se ajusta a la programacin.
10.6. t=-6'57<-2'53, luego se rechaza la
hiptesis nula, aceptando que U<1 15.
10.8. El tamao debe ser n=l 1 .
10.10. Z=2'23>1'96, luego se rechaza la
hiptesis nula, por lo que, en principio se
acepta una vida media superior en dicha
regin.
CAPTULO 11
11.2. Valor estimado de Z=l'32<
<z0,025=l'96, luego no es significativa la
diferencia entre las medias de los cocien
tes de las dos universidades.
11.4. Valor estimado de t=0'457<t,8 u025=
=2 '048, luego no se puede concluir que
el consumo sea menor con el nuevo tipo
de neumtico.
556
CAPITULO 12
12.2. El valor estimado del estadstico es
X2 =12'59>X62oo5=12'59, luego se re
chaza la hiptesis nula, y, por tanto, se
admite una dependencia entre el hecho
de vivir en una determinada zona y perte
necer a una clase.
12.4. El valor estimado del estadstico es
X ' = 25'92)xlm5 = 5'99' Por lo tanto' se
rechaza la hiptesis nula, y se admite una
relacin de dependencia entre la prctica
religiosa y el nivel de ingresos de las fa
milias.
CAPITULO 13
13.2. 1) Se trata de anlisis de la varianza
simple. 2) El contraste resulta significati
vo. La tabla resumen del ANOVA es:
origen de la variacin
se
91
Intragrupo
12' 36
Intergrupos ierrori
15'32
25
27' 69
29
Total
nc
3 '092 5'044
0'613
SC
gi
Inttagrupo
6'905
Intergrupos error )
8' 972
16
Total
15' 877
19
HC
origen de la va lacln
Intragrupo
Intergrupos
Total
SC
i32' 33
ei
rori
gl
4
24' 33
156' 66
nV
33'o8
F
33'9
D 97
:'.'
557
Intragrupo
Intergrupos (error)
Total
se
91
3i6'83
2i' 66
20
238 '50
23
HC
Origen de la variacin
se
567' 18
567' 18 30'76
859' 76
286'25 i5'52
Interaccin
133'54
M'M
Va i lacl n Intergrupos
737' 49
40
i8'43
229696
47
tte
91
2'4i
10561 9746
roa
Total
SC
.H
858' 72
Intergrupos ierrori
i43825
44
Total
2296' 97
47
HC
286' 24 8' 75
32 '68
CAPITULO 14
14.2. 1) Recta de regresin:
F Variacin
5 Cuadrado
C Hedas
Contraste
Regresin
3 39' 1
339' 1
F=19. 96
Error
237'8
Total
576-9
15
y=0'528x+8r41.
2) r=0'76.
3) Valor estimado del estadstico:
F=19'96; valor crtico: F, , 14=4'60; lue
go el contraste es significativo, y recha
zamos la hiptesis nula, aceptando una
relacin lineal entre las alturas de padres
e hijos.
La tabla resumen del ANOVA para el
contraste es:
16' 98
558
14.6. Para una prueba bilateral, se obtiene
como valor estimarlo: t=2'309; el valor
crtico es: t0.05 ,8=2'048, luego el contras
te resulta significativo, por lo que se pue
de admitir que el coeficiente de correla
cin de la poblacin es distinto de cero.
14.8. Para una prueba bilateral, valor esti
mado: r=0'3, valor crtico: r=0'404; por
tanto se acepta la hiptesis nula, y, en
consecuencia, que el coeficiente de co
rrelacin de la poblacin es cero.
14.10. 1) Recta de regresin:
y=2'4747x+7'459.
2) Cantidad promedio a 1'75:
y=11'7897.
3) Valor estimado del estadstico:
F=36'49, valor crtico: F0.05 , I2=4'75, lue
go el contraste resulta significativo, por
lo que se admite una relacin lineal entre
la temperatura y la cantidad.
SC
Regresin
gl
13' 93
Error
4'58
12
Total
18' 51
1 i
nc
13' 93 36' 65
o' 38
CAPITULO 15
15.2. Valor estimado del estadstico:
Z=0'159; valor crtico: Z0.o5=1'96; luego
el contraste no resulta significativo. Se
acepta que las dos muestras proceden de
la misma poblacin.
15.4. Valor estimado del estadstico:
H=5'2552; valor crtico: 5'99; el contraste
no es significativo, por lo que se admite
que no hay diferencia entre las dos mues
tras.
15.6. La prueba de rachas proporciona un
valor estimado del estadstico: Z=0'975;
el valor crtico para una prueba bilateral y
559
15.10. El contraste se puede hacer por
medio de la suma de rangos. El valor estimado del estadstico es Z=l '35. que es
menor que el valor crtico, 1 '96.
BIBLIOGRAFIA
564
565
PARZEN, E., Procesos Estocsticos, Ed. Paraninfo. Madrid 1972.
PREZ JUSTE. R.. Estadstica Descriptiva, UNED. Madrid 1985.
QUESADA, V. y otros, Curso y Ejercicios de Estadstica, ED. Alhambra. Madrid 1992.
RAO. C.R., Linear Statistical Inference and its Applications, Ed. John Wiley, Nueva York
1965.
RENYI. A., Clculo de Probabilidades, Ed. Reverte. Madrid 1970.
R1OS. S., Anlisis Estadstico Aplicado, Ed. Paraninfo, Madrid 1976.
R1OS. S.. Iniciacin Estadstica, Ed. ICE, Madrid 1977.
ROS. S Mtodos Estadsticos, Ed. del Castillo, Madrid 1977.
ROHATGI. V.K., An Introduction to Probability Theory and Mathematical Statistics, Ed.
John Wiley, Nueva York 1976.
SAN MARTN. R. y PARDO. A.. Psicoestadstica: Contrastes Paramtricos y No
Paramtricos. Pirmide. Madrid 1989.
SCHEFF. H., The Analysis of Variance, Ed. John Wiley, Nueva York 1957.
SIEGEL, S., Nomparametric Statistics for the Behavioral Sciences, Ed. McGraw-Hill. Nueva
York, 1956.
SPIEGEL. M.R.. Estadstica, McGraw-Hill. Madrid 1992.
SPIEGEL. MR.. Probabilidad y Estadstica, McGraw-Hill, Mxico, 1976.
TORTRAT. A.. Calcul des Probabilits et Introduction aux Proceses Aleatoires, Ed. Masson,
Pars 1971.
TUCKER, H., Introduccin a la Teora Matemtica de las Probabilidades y a la Estadstica,
Ed. Vicens Vives, 1966.
TUKEY, J.W., Exploratory Data Analysis, Addison-Wesley, Reading. MA 1977.
TURNER. J.C.. Matemtica moderna aplicada. Probabilidades, Estadstica e Investigacin
Operativa, Ed. Alianza Universidad. Madrid 1979.
VIEDMA, J.A., Exposicin intuitiva y Problemas resueltos de Mtodos Estadsticos, Ed.
Castillo. Madrid 1976.
VIZMANOS, J.R., Curso y Ejercicios de Bioestadstica, Ed. Autor. Madrid 1976.
WALPOLE. R.E. y MYERS. R.H.. Probabilidad y Estadstica, McGraw-Hill, Mxico 1992.
WELKOWITZ, J., Estadstica aplicada a las Ciencias de la Educacin, Ed. Santillana, Madrid
1986.
WINER. B.J.. Statistical Principies in Experimental Design, Ed. McGraw-Hill. Nueva York
1962.
YULE. G.U.. y KENDALL. M.G., Introduccin a la Estadstica, Ed. Aguilar, Madrid 1957.
ZELNER, A., An Introduction to Bayesian Inference in Economics, Ed. John Wiley, Nueva
York. 1975.
NDICE ALFABETICO
Agrupacin en clases, 40
Ajuste, bondad de, 390
Ajuste de curvas
-mtodo de mnimos cuadrados. 185
Ajuste de una distribucin de frecuencias
-por una binomial, 269
Aleatoria, variable. 238-240
Aleatorio
-experimento, 219
-suceso, 220
Alfa. Ver Nivel de significacin
Algebra, . 224
Alineacin, coeficiente de no, 474
Altos, valores, 129
Amplitud del intervalo, 40
Anlisis de dos caracteres, 145
Anlisis exploratorio de datos. 1 19
Anlisis de la varianza
-Una variable independiente (anlisis de
varianza unidireccional), 412-428
-Clculos. 420
-Comparaciones mltiples, 423-428
-Contraste de la F de Fisher-Snedecor. 420
-Estimador intragrupo e intergrupo. 419
-Grados de libertad. 422
-Intensidad de la relacin, 428
-Medias cuadrticas, 418. 422
-Modelo matemtico, 415
-Pruebas de comparaciones mltiples, 423
-Prueba de Duncan, 426
-Prueba LSD t protegida. 423
-Prueba de Tukey, 427
-Prueba de Scheffe, 425
-Suma de cuadrados, 420
-Tabla resumen, 423
570
-medias (sobre), 33 1
-seleccin del estadstico, 335
-nivel de significacin, 334
-potencia, 342-350
-no paramtricos. Ver Distribucin libre
-unilateral, 337
-valoracin del contraste, 339
Correccin de agrupamiento de Sheppard, 1 12
Correlacin, 184, 192-205
-al cuadrado (r), 474
-biserial puntual, 201
-causalidad (y), 199
-coeficiente de, 193,194
-coeficiente *, 202
-contraste basado en el ANOVA, 456
-contraste de la diferencia, 476
-contraste basado en la t, 471
-datos agrupados, 197
-de Pearson, 193-194
-de Spearman, 200
-demostracin de propiedades, 215
-estimacin, 470
-negativa, 194
-positiva, 193
-potencia y correlacin, 476
-tablas para el contraste, 471, 527
-tetracrica, 204
-variables incorreladas, 198
Covarianza, 160
Crtica
-regin, 335
-valor, 335
Cuadrtica, media, 72
Cualitativos, caracteres, 35
Cuantiles, 75
Cuantitativos, caracteres, 35
Cuartil, 81
Cuarto, 130
Cuasivarianza, 300
Curtosis, 105, 125
Curva
-acumulativa de frecuencias, 54
-de frecuencias, 52
-de Lorenz, 108
-de potencia, 348
571
-de regresin, 184
-normal general, 273
-normal tipificada. 277
572
-uniforme. 246
-leptocrticas, 106, 125
-marginales. 147. 148
-mesocrticas, 106. 125
-platicrticas, 106, 125
-simtricas, 56
e
Eficiencia. Ver Distribucin libre
Eficiente, estimador, 303
Error de
-tipo I. 333
-tipo II. 333
Error tpico, 302
Escala de potencias, 137
Espacio muestral, 224
Esperanza matemtica, 244-246
Estadstica
-Descriptiva, 33
-Exploratoria, 1 19
-Hipottico-Deductiva, 33
-Inferencial, 33, 295
Estadstico. 299
Estereograma, 174
Estimacin
-por intervalo, 314-320
-puntual, 305-314
Estocstico. suceso, 219
Experimento aleatorio. Ver Aleatorio.
Exponencial
-distribucin, 540
-regresin, 208
Extensin, 133
Gamma
-distribucin, 539
-funcin, 539
Geomtrica
-media, 70
-regresin, 208
Gini. ndice de, 108
Grados de libertad. 305
Grficas
-para distribuciones bivariantes. 163-175
-para distribuciones simples. 44-56
Grfico
-en caja y extensin, 133
Gran mediana. 498
Grupo
-de contraste, 356
-experimental, 356
II
Hiptesis
-aceptar. 333
-alternativa, 331
-contraste. Ver Contraste de hipte
sis, 331
-nula, 331
-rechazar, 333
Histograma, 49
Homogeneidad de las varianzas. 37 1
Homogeneidad, pruebas de, 402
573
I
Ji cuadrado (X:)
-distribucin, 540
-tabla. 518
-definicin, 75
-extendida, 122
-prueba de la, 498
Medidas
-de aplastamiento, 105
-de apuntamiento. 105
-de dispersin, 90
Mnimo cuadrtica, recta. 187
Moda
-clculo, 82
-definicin, 81
574
Modalidad, 56
Modalidad del carcter. 34
Modelo
-lineal, 452
-matemtico. 415. 429
Momentos
-centrales. 100, 157
-factoriales. 100
-potenciales. 100
-respecto al origen, 101
Muestra, 297
Muestral. espacio, 224
Muestreo
-aleatorio, 297
-aleatorio simple. 298
N
Nivel de significacin, 334
Normal. Ver Distribuciones
Normalidad, pruebas de. 394, 396
Nube de puntos. 184
Octavos, 130
Ojiva, 55
Operaciones con sucesos, 220
Paso, 132
Pearson, coeficiente de
-asimetra. 105
-correlacin general, 193
-correlacin lineal, 194
-variacin, 98
Parablica, regresin, 206
Parmetro. 37
Patillas, 134
Perfil
-perfil ortogonal, 47
-perfil radial. 48
Permutaciones
-con repeticin, 534
-ordinarias, 534
Pictograma, 46
Poblacin, 33. 297
Poisson, distribucin de, 270
Polgono de frecuencias acumuladas, 54
Polgono de frecuencias simples, 52
Porcentajes. Ver Proporciones
Posicin, caractersticas de. 63
Potencia del contraste sobre
-diferencia de medias, 356
-media, 342
-coeficiente de correlacin, 473
-proporciones, 381
Primeros momentos
-centrales, 100, 157
-respecto al origen, 101, 157
Probabilidad
-asignacin, 229
-condicionada, 232
-definicin, 227
-propiedades, 227
-total, teorema de la, 236
Probabilstico, espacio, 227
Profundidad, 126
Promedio de cuattiles. 121
Promedio de cuartos, 131
Promedios de octavos, 131
Puntuaciones derivadas, 1 10
-T, 111
-SAT. 111
R
Raz, trasformaciones de raz cuadrada. 140
Recorrido, 90
-intercuartlico, 91
-semiintercuartflico, 91
Recortadas, medias. 121
Recta. Ver Regresin
Regin de aceptacin, 335
Regin crtica, 335
Regla de Laplace, 229
Regresin
-exponencial, 208
-geomtrica, 208
575
-lineal, 168
-contraste. Ver Contrastes
-eleccin del modelo, 452
-inferencias mediante la t, 460
-modelo de, 452
-parmetros, 452
-parablica, 206
-recta de regresin de Y sobre X, 1 87- 1 89
-recta de regresin de X sobre Y, 1 89
Relacin entre contrastes e intervalos, 339
Residuales, 396
Resistentes, ndices de localizacin, 121
Respuesta promedio, 462
Restricciones en el uso de la X2, 393
Riesgo de cometer error de tipo I, 334
SAT (puntuaciones), 1 1 1
Sectores (diagrama de), 46, 167
Seleccin del estadstico para un contraste. 335
Sesgo, 56
Sheppard, correccin de, 112
Simetra, 56
Sistema completo de sucesos, 223
Spearmann (coeficiente de), 200
Sucesos, 220-225
-contrario, 221
-dependientes, 234
-diferencia de, 223
-diferencia simtrica de. 223
-igualdad de, 221
-incompatibles. 220
-independientes dos a dos. 235
-independientes (mutuamente), 236
-interseccin de, 220
-operaciones con, 220
-relacin de contenido, 221
-unin, 221
Sumas indicadas, 23
Sumas dobles. 27
t de Student, 542
T (puntuaciones), 1 1 1
Tabla
-de contingencia, 391
-de letras-ndice, 1 33
Tablas de distribuciones
-de una variable continua, 43
-de una variable discreta, 38
Tablas estadsticas, 509
-binomial. 51 1
-Fde Fisher-Snedecor. 519-522
-normal. 515. 516
-percentiles de Tukey, 526
-Poisson. 513-514
-potencia, 523
-rangos studentizados de Duncan. 524. 525
-t de Student. 517
-valores crticos del coeficiente r de
Pearson. 527
-valores del estadstico de Fisher. 528
-X2 de Pearson, 5 1 8
Teoremas de
-Bayes, 236
-central del lmite. 304
-Tchebycheff, 249
-de la probabilidad total. 236
Test. Ver Contrastes
Tetracrica. Ver Correlacin
Transformaciones de potencias, 137
Trimedia. 121
Tronco. Ver diagrama en tronco.
Tukey, 119
-prueba de. 427
-tabla con los percentiles de. 526
l
Uniforme, distribucin. 264
Universo. 33
576
Ediciones de la Universidad
de Castilla-La Mancha
788488 255877