You are on page 1of 192

MATEMTICAS PARA INGENIEROS

GUA DEL PROFESOR


SECRETARA DE EDUCACIN PBLICA
SUBSECRETARA DE EDUCACIN SUPERIOR E INVESTIGACIN CIENTFICA
SUBSISTEMA DE UNIVERSIDADES TECNOLGICAS
COORDINACIN GENERAL DE UNIVERSIDADES TECNOLGICAS
ELABOR:
GRUPO DE DIRECTORES DE LA CARRERA DE
PROCESOS AGROINDUSTRIALES.
REVIS:
COMISIN ACADMICA NACIONAL DEL REA
AGRO-INDUSTRIAL ALIMENTARIA.
APROB:
COORDINACIN GENERAL DE
UNIVERSIDADES TECNOLGICAS
FECHA DE ENTRADA
EN VIGOR:
SEPTIEMBRE 2003
Revisin no. 0. Fecha de revisin: septiembre, 2003. Pgina 1 de 1927 F-CADI-SA-MA-11-GP-A
1
I. DIRECTORIO
DR. REYES TAMES GUERRA
SECRETARO DE EDUCACIN PBLICA
DR. JULIO RUBIO OCA
SUBSECRETARIO DE EDUCACIN SUPERIOR E INVESTIGACIN CIENTFICA
DR. ARTURO NAVA JAIMES
COORDINADOR GENERAL DE UNIVERSIDADES TECNOLGICAS
RECONOCIMIENTOS
ING. JAVIER TOCHIHUITL VZQUEZ UNIVERSIDAD TECNOLGICA DE XICOTEPEC DE JUREZ
ING. DIEGO A. GARCA RODRGUEZ UNIVERSIDAD TECNOLGICA DE XICOTEPEC DE JUREZ
ING. VICTOR MORALES GUZMN UNIVERSIDAD TECNOLGICA DE XICOTEPEC DE JUREZ
ING. MA. DEL ROSARIO ROSAS C. UNIVERSIDAD TECNOLGICA DE XICOTEPEC DE JUREZ
ING. ANGELINA ALONSO CAMPOS UNIVERSIDAD TECNOLGICA DE XICOTEPEC DE JUREZ
T.S.U. JANET BLANCAS UNIVERSIDAD TECNOLGICA DE XICOTEPEC DE JUREZ
MATEMTICAS PARA INGENIEROS D.R. 20001
ESTA OBRA, SUS CARACTERSTICAS Y DERECHOS SON PROPIEDAD DE LA: COORDINACIN GENERAL DE
UNIVERSIDADES TECNOLGICAS (CGUT) FRANCISCO PETRARCA No. 321, COL. CHAPULTEPEC MORALES,
MXICO D.F.
LOS DERECHOS DE PUBLICACIN PERTENECEN A LA CGUT. QUEDA PROHIBIDA SU REPRODUCCIN PARCIAL
O TOTAL POR CUALQUIER MEDIO, SIN AUTORIZACIN PREVIA Y POR ESCRITO DEL TITULAR DE LOS
DERECHOS.
ISBN (EN TRMITE)
IMPRESO EN MXICO.
2
NDICE
# CONTENIDO PGINA
I. DIRECTORIO Y RECONOCIMIENTOS 2
II. NDICE 3
III. INTRODUCCIN DE LA ASIGNATURA 4
IV. UNIDADES TEMTICAS
UNIDAD I. INTRODUCCIN
UNIDAD II. ORGANIZACIN Y PRESENTACIN DE DATOS
UNIDAD III. MEDIDAS DESCRIPTIVAS
UNIDAD IV. MODELOS PROBABILSTICOS
UNIDAD V. PRUEBAS DE HIPTESIS
UNIDAD VI. ANLISIS DE LA VARIANZA
UNIDAD VII. REGRESIN LINEAL
5
51
72
95
111
130
148
V. REFERENCIAS 177
VI. GLOSARIO 177
VII. ANEXOS
Ejercicios
178
3
III. INTRODUCCIN DE LA ASIGNATURA
Dentro de las asignaturas que corresponden al rea de Ciencias Bsicas Aplicadas para la formacin de
Tcnico Superior Universitario en Procesos Agroindustriales encontramos la de Matemticas para
ingenieros. Dicha asignatura tiene el objetivo de: aplicar herramientas estadsticas en el anlisis de
informacin que se genera de mediciones de procesos alimentarios, para proponer soluciones en
problemas de control de calidad e interpretar resultados de experimentos realizados, para formular
conclusiones con nivel de escala probable.
El programa que comprende est asignatura esta formada por siete unidades. La primera corresponde a
una introduccin a la Probabilidad, la segunda a la Organizacin y presentacin de datos, la tercera a
Medidas descriptivas, la cuarta a Modelos probabilsticos, la quinta a Pruebas de hiptesis, la sexta a
Anlisis de la varianza y la sptima a Regresin lineal.
La asignatura de Matemticas para ingenieros tiene como finalidad el estudio de la Probabilidad y
Estadstica, as como sus aplicaciones a la resolucin de problemas directamente ligados con la carrera
de Procesos Agroindustriales, los cuales estn enfocados hacia el conocimiento de la estadstica
propiamente que se utiliza en las empresas. Considerando que las herramientas del control estadstico
del proceso para la toma de decisiones son conocimientos fundamentales para el futuro Tcnico
Superior Universitario.
4
CAPITULO1
INTRODUCCINALAPROBABILIDAD
INTRODUCCIN
El alumno abordar en esta unidad temtica los conceptos de probabilidad, aplicndolo al
experimento aleatorio y espacio muestral. Conocer y distinguir una poblacin de datos,
determinando su muestra, ordenando los datos, tabulndolos y graficando estos datos para su
interpretacin; estas herramientas estadsticas apoyaran a su formacin, ya que podr ordenar e
interpretar un conjunto de datos.
OBJETIVO Y CRITERIOS DE APRENDIZAJE Pgina
1. - Ilustrar el concepto de experimento aleatorio
con el del espacio muestral.
1.1 Diferenciar el concepto de experimento aleatorio con el del espacio muestral.
7
7
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
1.1.1 Distinguir el concepto de experimento aleatorio con el del espacio muestral.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
2. Definir el concepto de poblacin y muestra
2.1 Distinguir el concepto de poblacin y muestra.
16
16
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
2.1.1. Usar el concepto de poblacin y muestra
OBJETIVO Y CRITERIOS DE APRENDIZAJE
3. Definir el concepto de probabilidad y relacionarlo con el de frecuencia relativa.
3.1 Analizar el concepto de probabilidad y relacionarlo con el de frecuencia relativa.
27
27
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
3.1.1. Utilizar el concepto de probabilidad y relacionarlo con el de frecuencia relativa.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
4. Definir el concepto de probabilidad y relacionarlo con el de la frecuencia relativa.
4.1 Diferenciar el concepto de probabilidad y relacionarlo con el de la frecuencia
relativa...
32
32
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
4.1.1. Emplear la frmula de probabilidad condicional en problemas del mbito
profesional donde la ocurrencia de un evento dependa de otro
OBJETIVO Y CRITERIOS DE APRENDIZAJE
5. Definir el Teorema de Bayes 45
5
5.1 Utilizar el teorema de Bayes en problemas del mbito profesional que involucren
probabilidades subjetivas.
45
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
5.1.1. Emplear en problemas del mbito profesional que involucren probabilidades
subjetivas y aplicar el teorema de Bayes en su solucin.
DEMOSTRACIN DE HABILIDADES FINALES
Ta. 1 Realizar ejercicios de experimentos aleatorios y obtener el espacio muestral
posible.
Ta. 2 Realizar ejercicios donde se estime frecuencias relativas a partir de
experimentos aleatorios y/o datos de muestras
Pa. 1 Elaborar ejercicios donde se emplee la frmula de probabilidad condicional en
problemas del mbito profesional donde la ocurrencia de un evento dependa de otro.
Pa. 2 Elaborar ejercicios donde se planteen problemas del mbito profesional que
involucren probabilidades subjetivas y aplicar el Teorema de Bayes en su solucin
6
TEMA 1
Objetivo de aprendizaje.
1. Ilustrar y relacionar el concepto de experimento aleatorio con el del espacio muestral.
Criterio de Aprendizaje.
1.1 Diferenciar el concepto de experimento aleatorio con el del espacio muestral.
Didctica de enseanza.
Ta. 1 Realizar ejercicios de experimentos aleatorios y obtener el espacio muestral posible.
La historia de la probabilidad comienza en el siglo XVII cuando Fermat y Pascal tratan de resolver
algunos problemas relacionados con los juegos de azar.
Christian Huygens conoci la correspondencia entre Blaise Pascal y Pierre Fermat suscitada por el
caballero De Mr y public (en 1657) el primer libro sobre probabilidad: De Ratiociniis in Ludo
Aleae, (Calculating in Games of Chance), un tratado sobre juegos de azar.
Durante el siglo XVIII, debido muy particularmente a la popularidad de los juegos de azar, se
publicaron varios documentos de este tipo. Jakob Bernouilli (1654-1705) Ars Conjectandi (publicado
en 1713 aunque escrito sobre 1690) y Auguste De Moivre (1667-1754) contribuyeron de forma
importante a este desarrollo.
En 1812 Pierre Laplace public Thorie analytique des probabilits en el que expone un anlisis
matemtico sobre los juegos de azar.
Desde los orgenes la principal dificultad para poder considerar la probabilidad como una rama de la
matemtica fue la elaboracin de una teora suficientemente precisa como para que fuese aceptada
como una forma de matemtica. A principios del siglo XX el matemtico ruso A. Kolmogorov la
defini de forma axiomtica y estableci las bases para la moderna teora de la probabilidad que en la
actualidad es parte de una teora ms amplia como es la teora de la medida.
En estas notas, entenderemos por experimento aleatorio cualquier situacin que, realizada en las
mismas condiciones, sea imposible de predecir el resultado que obtengamos.
Experimento Aleatorio: Es aquel que se realiza sin tener el conocimiento previo de los resultados que
se obtendrn del mismo.
Sern experimentos aleatorios, por ejemplo, los siguientes:
Lanzar un dado y considerar el resultado obtenido
Extraer una carta (o varias) de una baraja
Lanzar dos dados y hallar la suma de cada una de las caras obtenidas
Se lanza una moneda.
Si sale cara se extrae de una urna U
1
, con una determinada composicin de bolas de colores, una bola y
si sale cruz de extrae de una urna U
2
, con otra determinada composicin de bolas de colores, una bola.
A continuacin se considera el color de la bola extrado.
7
Los tres primeros son ejemplos de experimentos aleatorios simples y el ltimo un ejemplo de
experimento aleatorio compuesto
Se definen las siguientes operaciones con sucesos de un determinado experimento aleatorio
Unin de dos sucesos A, B es el suceso que se verifica si se verifica A o se verifica B o ambos.
La unin de los sucesos A y B la designaremos por (A o B) (cuando no haya lugar a confusin
lo expresaremos sin parntesis es decir A o B)
Interseccin de dos sucesos A, B es el suceso que se verifica si se verifica A y se verifica B. La
interseccin de los sucesos A y B la designaremos por (A y B) (cuando no haya lugar a
confusin lo expresaremos sin parntesis es decir A y B)
Diferencia de dos sucesos A, B es el suceso que se realiza cuando se realiza A y no B. La
diferencia de los sucesos A y B la designaremos por
A - B = (A y B
c
)
Igualmente podemos considerar la diferencia B - A
Lanzamos un dado y consideramos los sucesos
A = {obtener nmero par} = {2, 4, 6}
B = {obtener mltiplo de 3} = {3, 6}
Puedes comprobar las operaciones unin, interseccin y diferencias de dichos sucesos pasando el ratn
sobre los correspondientes diagramas
Unin:
{nmeros pares o mltiplos de 3} = {2, 3, 4, 6}
Interseccin:
{nmeros pares y mltiplos de 3} = {6}
8
Diferencia B - A
{mltiplos de 3 y no nmeros pares} = {3}
Diferencia A - B
{nmeros pares y no mltiplos de 3} = {2, 4}
Puedes comprobar las diferencias simtricas pasando el ratn sobre el diagrama
Se lanza una moneda tres veces y se consideran los sucesos
A = {salen al menos dos cruces} = {c++, +c+, ++c, +++}
B = {sale alguna cara} = {ccc, cc+, c+c, c++, +cc, +c+, ++c}
Unin
(A o B) = {salen al menos dos cruces o sale alguna cara} = {+++, c++, +c+, ++c, ccc, cc+, c+c, +cc}
Interseccin
(A y B) = {salen al menos dos cruces y sale alguna cara} = {c++, +c+, ++c}
Diferencias
A - B = (A y B
c)
= {salen al menos dos cruces y no sale alguna cara}
B - A = (B y A
c)
= {sale alguna cara y no salen al menos dos cruces}
Algunas consideraciones bsicas con sucesos que sern tiles para la resolucin de problemas
Sucesos incompatibles y complementarios
9
Si A es un suceso de un determinado experimento aleatorio cuyo espacio muestral es E, entonces A y
su complementario son incompatibles, es decir
(A y A
c)
=
Adems (A o A
c)
= E
Si lanzamos un dado y A es el suceso
A = {obtener mltiplo de 3} = {3, 6}
Entonces A
c
= {no obtener mltiplo de 3} = {1, 2, 4, 5} por lo que
(A o A
c)
= {1, 2, 3, 4, 5, 6} = E y (A y A
c)
=
Dos sucesos complementarios son incompatibles, pero el recproco no es cierto, es decir dos
sucesos incompatibles no tienen por qu ser complementarios.
Por ejemplo, los sucesos A = {obtener mltiplo de 3} = {3, 6} y
B = {obtener mltiplo de 5} = {5} son incompatibles pero no complementarios.
Dados dos sucesos A y B de un determinado experimento aleatorio que no sean incompatibles los
sucesos (A - B), (B - A) y (A y B) son incompatibles
Adems podemos expresar tanto A como B como unin de dos sucesos incompatibles
A = (A - B) o (A y B)
B = (B - A) o (A y B)
Tambin podemos expresar el suceso (A o B) como unin de tres sucesos incompatibles
(A o B) = (A - B) o (A y B) o (B - A)
Suceso contenido en otro
10
Consideremos el experimento aleatorio consistente en lanzar tres monedas y los sucesos
A = {salen al menos dos cruces} = {c++, +c+, ++c, +++}
B = {salen dos cruces} = {c++, +c+, ++c}
El suceso B es un subconjunto del suceso A. Si se verifica A necesariamente se verifica B. En este
sentido, diremos que el suceso B est contenido en el suceso A.
Es interesante observar en el caso anterior que se verifican las inclusiones siguientes:
(A y B) est contenido en A
(A y B) est contenido en B
Leyes de De Morgan
Dos propiedades importantes que, a veces, resultan tiles en la resolucin de problemas son las
siguientes:
El complementario de la unin de dos sucesos es la interseccin de los complementarios de dichos
sucesos
(A o B)
c
= A
c
y B
c
1. El complementario de la interseccin de dos sucesos es la unin de los complementarios de
dichos sucesos
(A y B)
c
= A
c
o B
c
Consideremos el experimento aleatorio consistente en lanzar dos dados (o un dado dos veces) y sumar
la puntuacin obtenida.
E = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
El conjunto formado por todas las posibles sumas que pueden obtenerse se denomina Espacio Muestral
de dicho experimento aleatorio y suele designarse por E. Cada uno de los elementos de E es un suceso
elemental.
A partir de dicho subconjunto podemos considerar distintos subconjuntos de E.
A = {2, 4, 6, 8, 10, 12} = {obtener suma par}
B = {2, 5, 7, 11} = {obtener una suma que sea nmero primo}
C = {10, 11, 12} = {obtener una suma mayor o igual que 10}
D = {3, 6, 9, 12} = {obtener suma mltiplo de 3}
F = {2, 3} = {que la suma que sea 2 3}
= {obtener una suma mayor que 15} suceso imposible
E = {Obtener una suma mayor o igual que 2 y menor o igual que 12} suceso seguro
M = {7} = {Obtener un 7}
Entre los sucesos apuntados, existen sucesos simples (o elementales) (por ejemplo el M) y otros
sucesos compuestos constituidos por varios sucesos elementales. El conjunto de todos estos sucesos,
incluidos los sucesos seguro e imposible, se denomina Espacio de Sucesos (constituido por todos los
subconjuntos que pueden formarse a partir del espacio muestral E) que suele designarse por P (E).
11
Puede probarse que si el nmero de elementos de E es n, entonces P (E) tiene 2
n
elementos.
A veces, suele ser til utilizar un grfico como el de la figura para hallar el espacio muestral de un
determinado experimento aleatorio.
El diagrama de rbol de la figura corresponde al experimento aleatorio de lanzar una moneda tres veces
(o tres monedas) y considerar el resultado obtenido.
El espacio muestral se obtiene fcilmente sin ms que ir recorriendo todas las ramas y es
E = {CCC, CC+, C + C, C++, +CC, + C +, ++C, +++}
Son sucesos de dichos experimento aleatorio
A = {CCC, CC +, C + C, C++, +CC, +C +, ++C} = {obtener al menos una cara}
B = {CC+, C + C, +CC} = {obtener dos caras}
= {obtener 5 cruces} suceso imposible
C = {C++, + C +, ++C, +++} = {obtener ms cruces que caras}
Se considera el experimento aleatorio consistente en lanzar una moneda. Si sale cara se extrae de una
urna que contiene bolas azules y rojas una bola y si sale cruz se extrae una bola de otra urna que
contiene bolas rojas y verdes.
El espacio muestral de dicho experimento aleatorio es
E = {(C, R), (C, A), (+,R), (+,V)}
12
El espacio de sucesos consta de 2
4
= 16 elementos que son
P (E) =
{{(C, R)}, {(C, A)}, {(+, R)}, {(+, V)}, {(C, R), (C, A)}, {(C, R), (+, R)},
{(C, R), (+, V)}, {(C, A), (+, R)}, {(C, R), (+, V)}, {(+, R), (+, V)}, {(C, R), (C, A), (+, R)},
{(C, R), (C, A), (+, V)}, {(C, R), (+, R), (+, V)}, {(C, A), (+, R), (+, V)}, , E}
Experimento aleatorio consistente en el lanzamiento de dos dados (o un dado dos veces).
Espacio muestral del experimento aleatorio consistente en el lanzamiento de dos dados (o un dado dos
veces) y observar el resultado
Como E tiene 36 elementos el espacio de sucesos tiene 2
36
sucesos.
En el experimento aleatorio del lanzamiento de dos dados, el suceso la suma obtenida sea 7 es
S = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}
13
En el experimento aleatorio del lanzamiento de dos dados, el suceso la suma obtenida es nmero
primo es
S = {(1,1), (1,2), (2,1), (1,4), (2,3), (3,2), (4,1), (1,6), (2,5), (3,4), (4,3), (5,2), (6,1), (5,6), (6,5)}
En el experimento aleatorio del lanzamiento de dos dados, el suceso en los dos lanzamientos se
obtiene nmero primo es
S = {(2,2), (2,3), (2,5), (3,2), (3,3), (3,5), (5,2), (5,3), (5,5),}
Complementario de un suceso A es el suceso que se verifica si no se verifica A.
El complementario de A, lo designamos por A
c
y tambin por (no A)
En el experimento aleatorio consistente en lanzar dos dados y considerar la suma de ambos, los sucesos
{obtener suma par} y {obtener suma impar} son complementarios. Tambin son complementarios
los sucesos {obtener suma mayor o igual que 5} y {obtener suma menor que 5}.
En el experimento aleatorio consistente en lanzar dos monedas los sucesos {obtener al menos una
cara} y {no obtener ninguna cara} son complementarios.
14
El complementario del suceso A = {en los dos lanzamientos se obtiene nmero primo} (en amarillo)
es el suceso B = {en alguno de los dos lanzamientos (o en ambos) no se obtiene nmero primo} (en
verde)
Evidencia parcial
Ta. 1 Realizar ejercicios de experimentos aleatorios y obtener el espacio muestral posible.
Evaluacin parcial
Entrega de Ta.1
15
TEMA 2
Objetivo de aprendizaje.
2. Definir el concepto de poblacin y muestra.
Criterio de Aprendizaje.
2.1 Distinguir el concepto de poblacin y muestra.
Didctica de enseanza.
Poblacin: es el conjunto de datos que caracteriza el fenmeno que se desea estudiar. Una
poblacin est determinada por sus caractersticas definitorias. Por lo tanto, el conjunto de
elementos que posea esta caracterstica se denomina poblacin o universo. Poblacin es la totalidad
del fenmeno a estudiar, donde las unidades de poblacin poseen una caracterstica comn, la que
se estudia y da origen a los datos de la investigacin.
Muestra: es un subconjunto de la poblacin a estudiar, el cual es necesario que sea representativo
de toda la poblacin.
Entonces, una poblacin es el conjunto de todas las cosas que concuerdan con una serie determinada de
especificaciones. Un censo, por ejemplo, es el recuento de todos los elementos de una poblacin.
Cuando seleccionamos algunos elementos con la intencin de averiguar algo sobre una poblacin
determinada, nos referimos a este grupo de elementos como muestra. Por supuesto, esperamos que lo
que averiguamos en la muestra sea cierto para la poblacin en su conjunto. La exactitud de la
informacin recolectada depende en gran manera de la forma en que fue seleccionada la muestra.
Cuando no es posible medir cada uno de los individuos de una poblacin, se toma una muestra
representativa de la misma.
La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las
caractersticas que definen la poblacin de la que fue extrada, lo cual nos indica que es representativa.
Por lo tanto, la validez de la generalizacin depende de la validez y tamao de la muestra.
Leyes del mtodo de muestreo.
El mtodo de muestreo se basa en ciertas leyes que le otorgan su fundamento cientfico, las cuales son:
Ley de los grandes nmeros: si en una prueba, la probabilidad de un acontecimiento o suceso es
P, y si ste se repite una gran cantidad de veces, la relacin entre las veces que se produce el
suceso y la cantidad total de pruebas (es decir, la frecuencia F del suceso) tiende a acercarse
cada vez ms a la probabilidad P.
Clculo de probabilidades: La probabilidad de un hecho o suceso es la relacin entre el nmero
de casos favorables (p) a este hecho con la cantidad de casos posibles, suponiendo que todos los
casos son igualmente posibles. El mtodo de establecer la probabilidad es lo que se denomina
clculo de probabilidad.
De estas dos leyes fundamentales de la estadstica, se infieren aquellas que sirven de base ms
directamente al mtodo de muestreo:
16
Ley de la regularidad estadstica: un conjunto de n unidades tomadas al azar de un conjunto N,
es casi seguro que tenga las caractersticas del grupo ms grande.
Ley de la inercia de los grandes nmeros: esta ley es contraria a la anterior. Se refiere al hecho
de que en la mayora de los fenmenos, cuando una parte vara en una direccin, es probable
que una parte igual del mismo grupo, vare en direccin opuesta.
Ley de la permanencia de los nmeros pequeos: si una muestra suficientemente grande es
representativa de la poblacin, una segunda muestra de igual magnitud deber ser semejante a
la primera; y, si en la primera muestra se encuentran pocos individuos con caractersticas raras,
es de esperar encontrar igual proporcin en la segunda muestra.
Tipos de muestras.
Muestreo aleatorio simple: la forma ms comn de obtener una muestra es la seleccin al azar. Es
decir, cada uno de los individuos de una poblacin tiene la misma posibilidad de ser elegido. Si no se
cumple este requisito, se dice que la muestra es viciada. Para tener la seguridad de que la muestra
aleatoria no es viciada, debe emplearse para su constitucin una tabla de nmeros aleatorios.
Muestreo estratificado: una muestra es estratificada cuando los elementos de la muestra son
proporcionales a su presencia en la poblacin. La presencia de un elemento en un estrato excluye su
presencia en otro. Para este tipo de muestreo, se divide a la poblacin en varios grupos o estratos con el
fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la
seleccin de los elementos o unidades representantes, se utiliza el mtodo de muestreo aleatorio.
Muestreo por cuotas: se divide a la poblacin en estratos o categoras, y se asigna una cuota para las
diferentes categoras y, a juicio del investigador, se selecciona las unidades de muestreo. La muestra
debe ser proporcional a la poblacin, y en ella debern tenerse en cuenta las diferentes categoras. El
muestreo por cuotas se presta a distorsiones, al quedar a criterio del investigador la seleccin de las
categoras.
Muestreo intencionado: tambin recibe el nombre de sesgado. El investigador selecciona los elementos
que a su juicio son representativos, lo que exige un conocimiento previo de la poblacin que se
investiga.
Muestreo mixto: se combinan diversos tipos de muestreo. Por ejemplo: se puede seleccionar las
unidades de la muestra en forma aleatoria y despus aplicar el muestreo por cuotas.
Muestreo tipo: la muestra tipo (master simple) es una aplicacin combinada y especial de los tipos de
muestra existentes. Consiste en seleccionar una muestra "para ser usada" al disponer de tiempo, la
muestra se establece empleando procedimientos sofisticados; y una vez establecida, constituir el
mdulo general del cual se extraer la muestra definitiva conforme a la necesidad especfica de cada
investigacin.
Para ilustrar, tomemos el siguiente ejemplo: Supngase que se tienen que estudiar las edades una
poblacin de radioescuchas, por ser tan grande la cantidad de ellos, solamente se encuestan a 350 de
ellos, los cuales en este caso sern la muestra de dicha poblacin.
17
Las muestras representativas de su poblacin son aquellas que poseen las mismas caractersticas de la
poblacin que se desea estudiar.
Las poblaciones pueden ser finitas o infinitas
Poblaciones infinitas: Todos los juegos o fenmenos cuyos resultados estn indeterminados
cuantitativamente aquellas poblaciones que por su gran nmero de elementos, resulta prcticamente
imposible trabajar con todos ellos.
Poblaciones finitas: Todos los juegos o fenmenos cuyos resultados estn determinados
cuantitativamente, ya que se pueden conocer cantidades especficas.
Funcin: Es establecer una relacin entre dos elementos distintos, como son poblacin y tiempo, con
base en esto podemos decir que la poblacin esta en funcin del tiempo: p= f (t), tambin recibe el
nombre de funcin explcita, y consta de una variable independiente (t), y una variable
dependiente(p).As podemos decir que B= a una funcin implcita ya que consta de dos variables
independientes (p,t), esto quiere decir: que B esta en funcin del paso del tiempo, es decir : B=f(p.t).
Grfica: Una grfica es una representacin de la relacin entre variables, muchos tipos de grficos
aparecen en estadstica, segn la naturaleza de los datos involucrados y el propsito de la grfica, es la
de representar los valores tabulados obtenidos de los muestreos o los datos del total de la poblacin.
Constante: Un elemento constante es aquel que durante un intervalo definido siempre va a valer lo
mismo, conservando sus caractersticas.
Variable: Es un elemento que durante un intervalo definido se va a comportar de distintas formas. Las
variables que se manejan en estadstica moderna son aleatorias.
Variable Aleatoria: Es aquella que al tener una funcin se asigna un nmero real a cada resultado en
el espacio muestral de un experimento aleatorio.
Existen Variables continuas y Variables discretas.
Variable Continua: Es un rango que puede concebirse como un continuo de valores.
Variables discretas: Son aquellas que toman determinado valor exacto como: El No. De hijos de una
familia.
Ecuacin: Las ecuaciones son enunciados del tipo A = B donde A = miembro lado izquierdo, y B =
miembro derecho al cual se le pueden hacer una serie de operaciones.
Filas de datos: Consiste en datos que no han sido ordenados y que simplemente han sido tomados
como tal. Un ejemplo sera: Estatura de los estudiantes, que posteriormente se agrupan
numricamente.
Ordenacin: Consiste en ordenar datos en forma creciente y decreciente y la diferencia entre el mayor
y el menor de los datos recibe el nombre de rango.
Distribucin de frecuencia:
18
Al resumir grandes colecciones de datos, es til distribuirlos en clases o categoras, y determinar el
nmero de individuos que pertenecen a cada clase llamado frecuencia de clase.
Una disposicin tabular de los datos por clases junto con las frecuencias correspondientes de clase se
llama distribuidores de frecuencia o tablas de frecuencia.
Tipos de intervalos: Un intervalo de clase que, al menos en teora carece de Limite Superior o Limite
Inferior indicado. Se llama intervalo de Clase Abierto, ejemplo: refirindonos a edades de 65 aos o
ms.
Muestras con remplazamiento y sin remplazamiento
Supngase que f(x) es una poblacin, donde X
1
, X
2
, X
3
... X
n
son las muestras. Se dice que es una
muestra X
1
sin remplazamiento, si X
1
se analiza sin regresarla a la poblacin, si por el contrario se
analiza la muestra y se regresa a la poblacin antes de realizar cualquier otro experimento, ser una
muestra con remplazamiento.
Ejemplo 1)
Supngase que se tienen 12 canicas
4 ROJAS 4 VERDES 4 NEGRAS
Qu probabilidad existe de extraer una canica roja, con remplazamiento y sin remplazamiento?
a) Con remplazamiento: 4 / 12
b) Sin remplazamiento: 4 / 11
Variables aleatorias muestras aleatorias
Suponga una poblacin f(x) donde X1, X2, X3,...,Xn son las muestras.
Se llama muestreo sin reemplazo cuando de una poblacin tomamos X muestras sin devolverlas.
Se llama muestreo con reemplazo cuando una poblacin f ( x ) toma una o varias muestras ingresndola
a la poblacin.
Suponga una poblacin f( x ) donde f( x ) son 1000 resistencias de diferentes valores, si tomamos de
muestras 10 resistencias las analizamos y posteriormente las regresamos estamos hablando de muestras
con remplazamiento, esto sera un ejemplo de poblacin infinita que resulta de una poblacin finita.
Muestras Aleatorias:
Lgicamente la confiabilidad de las conclusiones extradas concernientes a una poblacin depende de
si la poblacin ha sido escogida correctamente de tal modo de que represente la poblacin lo
19
X1 X2
X3 X4
Xn
suficientemente bien, uno de los problemas importantes de la diferencia estadstica es como recoger
una muestra.
Una forma de hacer esto para poblaciones finitas es asegurarse de que cada miembro de la poblacin
tenga igual oportunidad de encontrarse en la muestra lo cual se conoce como muestra Aleatoria.
Ejemplos de Poblacin, muestra y conceptos
Ejemplo 1:
Determine si se trata de poblacin finita o infinita:
a) Poblacin de libros de la biblioteca de la UT.
Poblacin finita, porque el nmero de libros se puede contar.
b) Poblacin de varones de Mxico entre 18 y 22 aos.
La poblacin es muy grande pero se puede contar por lo tanto es finita. Para contabilizar el nmero de
varones entre 18 y 22 aos se puede recurrir al INEGI, que es la oficina de censo de la poblacin y la
vivienda y se podra obtener la informacin requerida.
c) Poblacin de todas las personas que podran tomar aspirinas.
La poblacin es infinita.
d) Poblacin de todos los focos de 40 watts que sern producidos por la compaa Sylvania.
La poblacin es infinita, no puede predecirse cual ser la produccin.
Ejemplo 2 :
a) Escribe mnimo 3 ejemplos de variables cualitativas o atributivas (VA), de variables cuantitativas
continuas (VCC), y variables cuantitativas discretas (VCD):
VA ===> Personalidad, carcter, paciencia, I.D. de cada alumno (aunque es un nmero entero es
atributo de una persona), nmero de empleado, RFC.
VCC ===> Edad, peso, altura, estatura, temperatura, calificaciones, promedio, medida de inteligencia.
VCD ===> Hijos, propiedades, 1 ao, nmero de parientes, nmero de produccin de autos, nmero de
alumnos, nmero de calculadoras vendidas, carreras, universidades, unidades de las materias
b) Una muestra que consta de 4 personas en un gimnasio fue cuestionada sobre "el color de short que
gustaba vestir para hacer ejercicio", la "marca" y la "talla" que usa. Los datos recolectados fueron:
Short de color rojo, verde, negro y azul. Estos datos fueron reescritos con clave:
Verde = 2, lila = 3 y azul = 3, rojo = 4
Las tallas fueron: 38, 32, 36, 34
Las marcas fueron: Cristian Dyor, Guess, Love y Patito respectivamente.
20
Detectar las variables, el promedio de cada variable y el tipo de variable.
Solucin:
P1) Se detectan las variable
V1 = Color del short
V2 = Marca
V3 = Talla
P2) La V1 (Color del short) es cualitativa multinomial.
P3) Promedio
A pesar de que los datos fueron reescritos como 1, 2, 3, 4, no tendra sentido encontrar el promedio de
la muestra sumando y dividiendo entre 4: (verde + lila + azul + rojo)/4 o como (1 + 2 + 3 + 4)/4. Esto
ltimo a pesar de ser un nmero sigue siendo variable cualitativa y el resultado del promedio no tiene
sentido.
P4) La V2 (Marca) es cualitativa multinomial.
P5) Promedio. Obtener el promedio de las marcas no tiene sentido.
P6) La V3 (Talla) es cuantitativa discreta.
P7) Promedio. (38 + 32 + 36 + 34)/4 = 35
Ejemplo 3:
a) Un fabricante de medicamentos est interesado en la proporcin de personas que padecen
hipertensin (presin arterial elevada) cuya condicin pueda ser controlada por un nuevo producto
desarrollado por la empresa. Se condujo un estudio en el que participaron 5000 personas que padecen
de hipertensin, y se encontr que 80% de las personas pueden controlar su hipertensin con el
medicamento. Suponiendo que las 5000 personas son representativas del grupo de hipertensin,
conteste las siguientes preguntas:
1) Cul es la poblacin?
2) Cul es la muestra?
3) Identifique el parmetro de inters
4) Identifique la estadstica y proporcione su valor
5) Se conoce el valor del parmetro?
Solucin:
1) Cul es la poblacin? Todas las personas que padecen hipertensin (presin arterial elevada), cuya
presin pueda ser controlada por un nuevo producto desarrollado por la empresa.
2) Cul es la muestra? Un estudio de 5000 personas que padecen de hipertensin.
21
3) Identifique el parmetro de inters. La proporcin de la poblacin que padecen hipertensin y que
puede ser controlada por un nuevo producto desarrollado por la empresa. Dicho de otra manera, es la
proporcin de la poblacin para la que es eficaz el medicamento.
4) Identifique la estadstica y proporcione su valor. La proporcin de la poblacin para la que es eficaz
el medicamento es del 80%.
5) Se conoce el valor del parmetro? No se conoce y difcilmente se puede encontrar.
b) Un comuniclogo desea calcular el "rating" del noticiario de "Joaqun Lpez Doriga". Se condujo un
estudio en el que participaron 1000 televidentes, y se encontr que el 60% de las personas ven el
noticiario. Suponiendo que las 1000 personas son representativas del grupo de televidentes, conteste las
siguientes preguntas:
1) Cul es la poblacin?
2) Cul es la muestra?
3) Identifique el parmetro de inters
4) Identifique la estadstica y proporcione su valor
Solucin:
1) Cul es la poblacin? Todos los televidentes.
2) Cul es la muestra? Un estudio de 1000 televidentes.
3) Identifique el parmetro de inters. El "rating" del noticiario de Joaqun Lpez Doriga". O la
proporcin de la poblacin que ve el noticiario de Joaqun Lpez Doriga".
4) Identifique la estadstica y proporcione su valor. La proporcin de la poblacin que ve el noticiario
de Joaqun Lpez Doriga" es del 60%.
c) Un tcnico de control de calidad selecciona piezas ensambladas de una lnea de montaje y registra la
siguiente informacin de cada pieza:
A: Defectuosa o no defectuosa
B: El nmero de identificacin del trabajador que ensambl la pieza
C: El peso de la pieza
1) Cul es la poblacin?
2) La poblacin es finita o infinita?
3) Cul es la muestra?
4) Clasifique las respuestas para cada una de las tres variables como de variables cualitativas o
atributivas (VA), de variables cuantitativas continuas (VCC), y variables cuantitativas discretas (VCD):
Solucin:
1) Cul es la poblacin? Todas las piezas ensambladas de una lnea de montaje.
22
2) La poblacin es finita o infinita? Infinita.

3) Cul es la muestra? Las piezas seleccionadas y ensambladas de una lnea de montaje.
4) Clasifique las respuestas para cada una de las tres variables como variables cualitativas o atributivas
(VA), de variables cuantitativas continuas (VCC), y variables cuantitativas discretas (VCD):
A: Defectuosa o no defectuosa. VA. Variable atributiva binomial.
B: El nmero de identificacin del trabajador que ensambl la pieza. VA. Variable atributiva
Multinomial.
C: El peso de la pieza. VCC.
d) Se hizo un estudio con 500 estudiantes de la UDLA y se registro la siguiente informacin de cada
uno:
A: Nmero de identificacin (ID)
B: Edad
C: Estatura
D: Asiste "Si" o "No" a discotecas los jueves en la noche
Suponiendo que los 500 estudiantes son representativos de este estudio, se encontr que el 70 % asiste
a discotecas los jueves en la noche. Conteste las siguientes preguntas
1) Cul es la poblacin?
2) Cul es la muestra?
3) Identifique el parmetro de inters.
4) Identifique la estadstica y proporcione su valor.
5) Clasifique las respuestas para cada una de las tres variables como de variables cualitativas o
atributivas (VA), de variables cuantitativas continuas (VCC), y variables cuantitativas discretas (VCD).
Solucin:
1) Cul es la poblacin?
Todos los estudiantes de la UT.
2) Cul es la muestra?
500 Nmero de estudiantes de la UT.
3) Identifique el parmetro de inters.
La proporcin de la poblacin que asiste a una discoteca.
4) Identifique la estadstica y proporcione su valor.
La proporcin de la poblacin que asiste a una discoteca cuyo porcentaje es del 70%.
5) Clasifique las respuestas para cada una de las tres variables como de variables cualitativas o
atributivas (VA), de variables cuantitativas continuas (VCC), y variables cuantitativas discretas (VCD).
A: Nmero de identificacin (ID). VA. Variable atributiva Multinomial.
23
B: Edad. VCC
C: Estatura. VCC
D: Asiste "Si" o "No" a discotecas los jueves en la noche. Variable atributiva Binomial.
Nmero de estudiantes de la UT que va a las discotecas los jueves en la noche.
Al contabilizar las respuestas "Si" o "No" asiste a discotecas los jueves en la noche, se convierte en el
nmero de estudiantes que va las discotecas. VCD
e) Un estudio est interesado en determinar algo sobre el promedio del valor en $ de las computadoras
que pertenecen al cuerpo docente de la UT. Diga:
1) Cul es la poblacin?
2) La poblacin es finita o infinita?
3) Dar una muestra
4) Cul es la variable?
5) Que tipo de variable es la variable?
6) Dar un dato
7) Dar todos los datos de la muestra
8) Cul es el experimento?
9) Cul es el parmetro?
10) Cul es la estadstica que se encuentra?
Solucin:
1) Cul es la poblacin?
Coleccin de todas las computadoras que pertenecen a todos los miembros del cuerpo docente de la
universidad.
2) La poblacin es finita o infinita?
El nmero de profesores de la UT puede contarse, por lo que se trata de una poblacin finita.
3) Dar una muestra
Cualquier subconjunto de esa poblacin. Por ejemplo, todas las computadoras que pertenecen a los
profesores del departamento de Ingeniera en Sistemas Computacionales.
4) Cul es la variable?
"El valor en $ de cada computadora en particular"
5) Que tipo de variable es la variable?
Variable cuantitativa continua (VCC)
6) Dar un dato
Por ejemplo la computadora de la "Doctora Pilar Gmez" que est valuada en $15,000.
7) Dar todos los datos de la muestra
9 personas constituyen el departamento de Ingeniera en Sistemas Computacionales, cuyas
computadoras valen:
$15000, $20000, $18000, $35000, $22000, $16000, $30000, $25000, $8000
8) Cul es el experimento?
24
Los mtodos aplicados para seleccionar las computadoras que integran la muestra y determinar el valor
de cada computadora de la muestra. El mtodo aplicado fue preguntando a cada miembro del
departamento. Otra forma de realizarlo sera preguntando por medio de un memorndum o por medio
de un e-mail.
9) Cul es el parmetro?
Es sobre el que se est buscando informacin, es decir, el promedio del valor de todas las
computadoras de la poblacin:
prom = (15000 + 20000 + 18000 + 35000 + 22000 + 16000 + 30000 + 25000 + 8000)/9 =
prom = $21,000
10) Cul es la estadstica que se encuentra?
Es el valor promedio de todas las computadoras de la muestra
f) La siguiente tabla representa las caractersticas de todos los empleados de tiempo completo de la
fbrica de Shampoo "Patito" al 1o. de enero del ao en curso.
No. de
empleado
Empleados Color
ojos
Sexo Puesto Aos de
Servicio
Salario
Anual
en $
1 Ana azul M Ingeniero 2 70000
2 Miguel caf H Comuniclogo 10 70000
3 Andrea negro M Mecnico 23 65000
4 Jorge negro H Secretaria 5 20000
5 Eva azul M Obrera 8 18000
6 Alejandro verde H Vigilante 10 14000
7 Teresa negro M Obrera 2 18000
8 Susana caf M Conserje 7 12000
Diga:
1) Cul es la poblacin?
2) La poblacin es finita o infinita?
3) Dar una muestra
4) Cul es la(s) variable(s)?
5) Que tipo de variable(s) es (son)?
6) Dar un dato
7) Dar todos los datos de una muestra
Solucin:
1) Cul es la poblacin?
Es posible obtener en este ejemplo varias poblaciones, dado que hay 6 variables (los encabezados de
las columnas), esta tabla contiene 6 poblaciones. Las poblaciones son:
Poblacin de empleados por Nmero de empleado , la poblacin de empleados por Color ojos, la
poblacin de empleados por Sexo, la poblacin de empleados por Puesto, la poblacin de empleados
por Aos de Servicio y la poblacin de empleados por Salario Anual.
25
2) La poblacin es finita o infinita?
Todas las poblaciones constan de 8 empleados por lo que es finita.
3) Dar una muestra
Los ltimos 3 salarios de la poblacin de empleados por Salario Anual.
4) Cul es la(s) variable(s)?
Los encabezados de las columnas 1 y de la 2 a la 6 muestran algunas caractersticas de las unidades
elementales (personas) que son precisamente las variables: nmero de empleado, color de ojos, sexo,
puesto, Aos de Servicio y Salario Anual.
5) Que tipo de variable(s) es (son)?
Variables Cualitativas: Nmero de empleado, color de ojos, sexo, puesto.
Variables Cualitativas Binomial: sexo
Variables Cualitativas Multinomiales: Nmero de empleado, color de ojos, puesto.
Variables Cuantitativas: Aos de Servicio y Salario Anual.
Variables Cuantitativas Discretas: No hay.
Variables Cuantitativas Continuas: Aos de Servicio y Salario Anual.
6) Dar un dato
Sueldo anual = $65000
7) Dar todos los datos de una muestra
Los ltimos 3 salarios de la poblacin de empleados por Salario Anual, son:
$1400, $18000, $12000
26
TEMA 3
Objetivo de aprendizaje.
3. Definir el concepto de probabilidad y relacionarlo con el de frecuencia relativa.
Criterio de Aprendizaje.
3.1 Analizar el concepto de probabilidad y relacionarlo con el de frecuencia relativa
Didctica de enseanza.
Ta. 2 Realizar ejercicios donde se estime frecuencias relativas a partir de experimentos aleatorios y/o
datos de muestras
Supngase un experimento cualquiera, por ejemplo, el nmero dos en el lanzamiento de un dado. El
conjunto de todos los resultados posibles se llama universo o espacio de la muestra, en este caso, los
nmeros de 1 a 6 en el lanzamiento del dado en cuestin.
Usualmente se utiliza el concepto de frecuencia para ilustrar el concepto de probabilidad. Supngase
que se estudian n resultados de un experimento, de los cuales m se consideran ocurrencias exitosas de
un resultado deseado, E y P(E) denota la probabilidad de ocurrencia de dicho resultado; la relacin
entre el nmero de resultados exitosos m y el nmero de resultados posibles n, es una medida
aproximada de la probabilidad de ese resultado, es decir:

Esto es rigurosamente cierto cuando n es muy grande. Ms formalmente, se deber escribir as:
Donde:
P(E): Probabilidad que el resultado E ocurra.
E: Resultado que interesa analizar.
M: Nmero de veces que ocurre E.
n: Nmero de veces que se ejecuta el experimento.
Por ejemplo, si se desea saber cul es la probabilidad de ocurrencia de que aparezca el nmero 2 en la
cara superior cuando se lanza un dado, se podran hacer lanzamientos seguidos y anotar cuntas veces
aparece cada nmero, en particular el 2. Si esto se repite varias veces, entonces la relacin entre el
nmero de veces que apareci el 2 y el nmero de lanzamientos ser un estimativo de la probabilidad.
Esta frecuencia relativa tiende a un nmero; en el caso de un dado que no est cargado, esta frecuencia
tiende a 1/6.
Una variable aleatoria est definida por una funcin que asigna un valor de dicha variable aleatoria a
cada punto del universo. Por ejemplo, la variable aleatoria puede ser el valor que aparezca en la cara
superior del dado, o el cuadrado de este valor, etc. En este ejemplo, E=2, m es el nmero de veces que
aparece el nmero 2 y n es el nmero de lanzamientos.
Propiedades bsicas de la probabilidad
27
A continuacin se presentan algunas propiedades bsicas de la probabilidad.
1) La probabilidad de un resultado del universo es una cantidad menor o igual que uno y mayor o igual
que cero. Esto se explica porque la probabilidad est definida por la proporcin entre un nmero de
casos exitosos y el nmero total de casos. El nmero de casos exitosos es menor que el nmero
total de casos.
Ejercicio
Lanzar una moneda 50 veces. Construir y completar en la hoja de clculo la siguiente tabla de ejemplo:
Construir una grfica de los resultados con n en las abcisas y m/n en las ordenadas, como se ilustra a
continuacin.
FRECUENCIA RELATIVA ACUMULADA DEL LANZAMIENTO DE UNA MONEDA
2) La probabilidad de un resultado que no puede ocurrir, o sea que no pertenece al universo, es cero.
3) La probabilidad del universo es uno. Es decir, la probabilidad de que ocurra alguno de los resultados
de todo el conjunto posible de ellos es P(E1+E2+...+Em) y es igual a 1, donde (E1,E2,...,Em), son
todos los resultados posibles, mutuamente excluyentes y exhaustivos del universo.
Nota: Se dice que unos resultados son mutuamente excluyentes cuando la ocurrencia de cualquiera de
ellos elimina la ocurrencia de cualquier otro.
Todos los resultados posibles mi suman n, o sea:
28
m1+m2+m3+...mk = n (3)
Si esta ecuacin se divide por n, entonces la suma de las frecuencias relativas es igual a 1.
m1/n+m2/n+m3/n+...mk/n = n/n = 1 (4)
As pues en el lmite:
P(E1)+P(E2)+P(E3)+...P(Ek) = 1 (5)
4) Si E y F son resultados mutuamente excluyentes, o sea que slo uno de ellos puede ocurrir,
entonces la probabilidad de que ocurra E o F es P (E+F) = P (E) + P(F). Nuevamente, en el
lanzamiento de un dado de seis caras numeradas de 1 a 6, slo un nmero aparecer en la cara superior,
por lo tanto, los resultados (E2) y (E6), o sea que aparezca 2 en un caso o que aparezca 6 en el otro, son
resultados mutuamente excluyentes. La probabilidad de que ocurra E2 o E6 es de 1/6+1/6 o sea, 1/3.
5) Si E y F son resultados independientes, esto es, que la ocurrencia de uno no afecta la ocurrencia del
otro, la probabilidad de que ocurran simultneamente P(EF), es P(E) x P(F). Tomando como ejemplo
el dado de seis caras, el hecho que en el primer lanzamiento del dado aparezca un 2, no influye para
que en el segundo lanzamiento aparezca cierto nmero; los lanzamientos son resultados
independientes. Entonces, la probabilidad de que en el primer lanzamiento aparezca un 2 y en el
segundo aparezca un 6 ser 1/6x1/6, o sea, 1/36.
NOTA: Obsrvese que cuando se trata de resultados mutuamente excluyentes y se desea saber la
probabilidad de que uno de los dos ocurra, se expresa con frases ligadas por o; en el caso de resultados
independientes y si se desea calcular la probabilidad de que ambos ocurran, las frases se ligan con y.
Estas propiedades son formales pero coinciden con las nociones intuitivas de probabilidad.
Eventos y sus probabilidades
En la realidad los hechos no son tan simples como en el ejemplo del dado. Ocurren combinaciones que
complican un poco la situacin. El clculo de sus probabilidades es ms complejo.
Eventos y sus probabilidades
La realidad es compleja y ocurren combinaciones de resultados; la combinacin de varios resultados
origina un evento. A travs de un ejemplo se ilustrar esta idea.
Ejemplo
Supngase que se desea analizar los resultados de una inversin $1.000 a tres aos. El resultado de
cada ao es la ocurrencia de un ingreso por valor de $600 o $0. Los resultados posibles son:
(NNN) = m1
(NNS) = m2
(NSN) = m3
(NSS) = m4
(SNN) = m5
(SSN) = m6
(SNS) = m7
(SSS) = m8
El orden de las letras se refiere ao 1, 2 3 y S indica si hay ingreso y N si no lo hay.
29
(NSS) significa un flujo de caja como este:
Y as para los dems casos. Las probabilidades de que el resultado sea cero son:
P(N)1 = ,3
P(N)2 = ,3
P(N)3 = ,3
NOTA: Se supone que los eventos son independientes entre s. Esto significa que el resultado positivo
de un ao no influye en la probabilidad de que, en los aos siguientes, el resultado sea tambin
positivo. Esto en la realidad puede que no ocurra. Sin embargo, para efectos del anlisis, se har caso
omiso de esta consideracin.
Entonces, las probabilidades asociadas a cada resultado combinado son:
Estos resultados se denominarn puntos. Los eventos sern una combinacin cualquiera de puntos. As
se puede pensar en el evento, por lo menos un ao con ingreso, el cual incluira los puntos m2, m3,
30
m4, m5, m6, m7 y m8, o en el evento a lo sumo un ao con ingreso cero, el cual incluira los puntos
m4, m6, m7 y m8.
Si la probabilidad de que ocurra el ingreso es diferente a 70%, hay que introducir los valores adecuados
en los clculos.
La probabilidad de estos eventos ser la suma de la probabilidad de los puntos. En el primer evento, la
probabilidad ser de:
0,063+0,063+0,147+0,063+0,147+0,147+0,343 = 0,973
En el segundo caso de:
0,147+0,147+0,147+0,343 = 0,784
Evidencia parcial
Ta. 2 Realizar ejercicios donde se estime frecuencias relativas a partir de experimentos aleatorios y/o
datos de muestras
Evaluacin parcial
Entrega de Ta.2
31
TEMA 4
Objetivo de aprendizaje.
4. Definir el concepto de probabilidad y relacionarlo con el de la frecuencia relativa.
Criterio de Aprendizaje.
4.1. Diferenciar el concepto de probabilidad y relacionarlo con el de la frecuencia relativa.
Didctica de enseanza.
Pa. 1 Elaborar ejercicios donde se emplee la frmula de probabilidad condicional en problemas del
mbito profesional donde la ocurrencia de un evento dependa de otro.
Probabilidad condicional
Generalmente hablando, la probabilidad condicional de un evento A dado otro evento B, denotada P(A|
B) es la probabilidad de que el evento A ocurra cuando sabemos que el evento B ocurri. Esta es razn
por la cual se llama condicional a esta probabilidad. La probabilidad de que el evento A ocurra est
condicionada por la ocurrencia de B. Esta informacin adicional sobre A se incluye en el cmputo de
su probabilidad condicional cuando analizamos los resultados posibles que se pueden observar cuando
sabemos que B ha ocurrido.
Probabilidad condicional como la razn de dos reas
En algn punto de nuestras vidas, hemos jugado tirando dardos a un tablero. Supongamos que tenemos
un tablero como el de al lado y tiramos un dardo. Usualmente, mientras ms cerca del centro aterrice el
dardo ms puntos anotamos. Si sabemos que el dardo aterriz en A, cun probable es que haya
aterrizado en B?
Por simplicidad, supondremos que tenemos muy buena puntera y que el dardo siempre cae en el
tablero S. Esto significa que la probabilidad de que el dardo aterrice en el tablero es 1. Suponemos
adems, que S, A, B, C se refieren a los discos completos y no tan slo a la franja. As S es un disco
que contiene al disco A, el que a su vez incluye el disco B. Este ltimo incluye el disco C.
Podemos relacionar la probabilidad de que un dardo aterrice en cualquier regin directamente al rea
de la regin. Les asignaremos probabilidades a las varias regiones en la tabla tomando la razn del rea
de la regin al rea del tablero. Esta asignacin es razonable, ya que mientras ms grande es la regin,
ms probable debe ser que el dardo aterrice all. Estamos considerando el rea del tablero S como una
unidad contra la cual comparar las otras reas, adems, si comparamos el rea de S consigo misma
obtendremos una razn de 1, por esto es razonable decir que el rea de S es igual a su probabilidad, 1.
Con esta suposicin, el rea de cada disco es igual a la probabilidad de que el dardo caiga en el disco.
32
Denotaremos el evento que el dardo aterrice en la regin S, A, B o C por el nombre de la regin.
Supongamos que la razn del rea de regin A a S es 1/2, de la regin B a S es 1/10 y de la regin C a
S es 1/60. Segn la asignacin de probabilidad que hicimos, tenemos que P(A) = 1/2, P (B) = 1/10, P
(C) = 1/60 y P (S) = 1.
Ahora hacemos el siguiente experimento: igual que con el juego de colocar la cola al burro, nos
vendamos los ojos y lanzamos el dardo. Un juez nos dice que aterriz en la regin A. Entonces
preguntamos cul es la probabilidad de que haya aterrizado en B? Si no hacemos uso del hecho de que
el dardo aterriz en A, contestaremos la probabilidad buscada es 1/10. Pero sabemos que el dardo
aterriz en A, que B est contenido totalmente en A y que el rea de B es una quinta parte del rea de
A, entonces la respuesta correcta es 1/5, estableciendo que P (B|A) = (1/10)/(1/2) = 1/5.
Esta expresin se justifica con el siguiente argumento. Como sabemos que el dardo ha aterrizado en A,
el rea de A ahora llega a ser una nueva unidad contra la cual medir otras reas, esto explica el
denominador. El numerador corresponde al rea en comn de las regiones A y B. Dado el hecho que el
dardo aterriz en A, la nica manera en que el dardo puede aterrizar tambin en la regin B es que haya
aterrizado en ambas regiones. Ahora la regin B est contenida en la regin A, por lo cual AB= B y P
(AB) = P (B).
Pregunta
Cul es la probabilidad que el dardo haya aterrizado en A si sabemos que aterriz en B?
Como sabemos que B est contenido totalmente en A, vemos que si el dardo aterriza en B entonces
tiene que haber aterrizado en A. Siguiendo este razonamiento tenemos:
P (A|B)= (rea de A tambin en B)/ (rea de B)= (rea de B)/ (rea de B)= 1.
Pregunta
Si el dardo aterriz fuera de B, cul es la probabilidad que haya aterrizado en C?
Un tablero general de dardos
El tablero de la derecha nos presenta una situacin ms general. En este caso ninguna regin (excepto
S) contiene totalmente cualquier otra regin, pero los argumentos todava son vlidos. Supongamos que
las reas de S, A, B y C son como antes. Supongamos ahora que el rea en la interseccin de las
regiones A y B es 1/ 30. Todava podemos preguntar las mismas preguntas.
33
Para calcular P (B|A) debemos darnos cuenta de que B tiene un pedazo pequeo en comn con la
regin A. Este pedazo tiene rea igual a 1/ 30. Si sabemos que el dardo aterriz en A, para que haya
cado en B, debe haber aterrizado en esta pequea regin en comn. La regin A es nuestra unidad de
comparacin. Comparamos el rea en la interseccin de A y B con el rea de A para obtener nuestra
contestacin. As P (B|A) es igual a la proporcin (1/ 30) / ( 1/2)= 1/ 15. Este resultado se puede
interpretar como el nmero de veces que la regin en comn entre A y B cabe en la regin A.
La respuesta a P (A|B) no es tan fcil de hallar como antes. Sabemos ahora que el dardo aterriza en la
regin B. Debemos hallar la proporcin del rea de la interseccin de A y B al rea de B. Ahora la
regin B es nuestra unidad y as P (A|B) es igual a (1/30) / (1/10)= 1/3.
Un ejercicio fcil de resolver es hallar P (A|C). Como A y C son disjuntos, si el dardo aterriz en C
sabemos que es imposible que haya aterrizado tambin en A, por esta razn la probabilidad buscada
debe ser cero.
Una representacin relacionada
Otra forma de representar la probabilidad condicional se puede ver en el siguiente ejemplo.
Supongamos que tomamos una muestra al azar de 100 estudiantes y obtenemos los siguientes
resultados:
15 mujeres reciben ayuda econmica y trabajan
45 mujeres reciben ayuda econmica
20 mujeres trabajan
55 de los estudiantes son mujeres
25 estudiantes reciben ayuda econmica y trabajan
60 estudiantes reciben ayuda econmica
40 estudiantes trabajan
Se puede traducir estos datos en proporciones o porcentajes y representar en un diagrama de Venn tal
como a la derecha. El conjunto W representa todas las mujeres en la muestra, F el conjunto representa
los estudiantes que reciben ayuda econmica y J el conjunto de estudiantes en la muestra que trabajan.
34
Nos proponemos seleccionar al azar una persona de estos 100 estudiantes en la muestra. Entonces
podemos hablar acerca de la probabilidad que la persona seleccionada es una mujer, por ejemplo. Sin
temor a confundirnos, usaremos los nombres F, J y W para denotar el evento que la persona
seleccionada recibe ayuda econmica, trabaja o es una mujer, respectivamente.
Entonces P (W)= .30 + .05 + .05 + .15 = .55, por ejemplo. De este diagrama de Venn podemos
contestar rpidamente muchas preguntas que a primera vista parecen ser muy complicados, tal como,
qu proporcin de estudiantes son mujeres que no trabajan y reciben ayuda econmica? Esta pregunta
es equivalente a encontrar P (W y F y no J). La solucin, .30 se encuentra en la interseccin de los tres
conjuntos W, no J, F.
La probabilidad condicional se ve en situaciones donde queremos saber, por ejemplo qu proporcin
de estudiantes que trabajan son mujeres. Esto es equivalente a encontrar P (W | J). La proporcin de
estudiantes que trabajan es .40, la proporcin de mujeres que trabajan es .20. De esta manera la
proporcin de mujeres de entre todos los estudiantes que trabajan es .20/ .40= .50, es decir, la mitad de
los estudiantes que trabajan son mujeres. Igual a las ideas desarrolladas previamente podemos escribir
la solucin como P (W | J ) = P (W y J)/ P (J) = .20/ .40 = .50.
El diagrama de Venn que representa los resultados obtenidos en la encuesta parece tambin un tablero
de dardos. La probabilidad de que el dardo caiga en cualquiera de esas regiones est dada por la
proporcin de estudiantes representados en esa regin.
Probabilidad condicional y el conteo de resultados
Lanzamos dos dados balanceados, uno rojo y el otro verde. El espacio muestral de este experimento
consta de 36 pares ordenados tal como en la tabla ms abajo.
Dejemos que R y G denoten el valor observado en la cara del dado rojo y en el dado verde,
respectivamente y X la suma de los valores observados, es decir, X = R + G. Si suponemos que los
dados estn balanceados, entonces los 36 resultados distintos del experimento son igualmente
probables. Por la forma como se lleva a cabo el experimento, vemos que el valor observado en un dado
no est relacionado con el valor en el otro dado, es decir. El valor obtenido en un dado es independiente
del obtenido en el otro. De estas suposiciones tenemos que P (R = r) = P (G = g) = 1/ 6 y que P (R= r,
G= g)= 1/ 36 para r, g= 1,2, ..., 6.
En esta situacin muchas preguntas acerca de la probabilidad de eventos particulares se pueden reducir
a contar el nmero de elementos en el conjunto apropiado.
35
Espacio muestral de los resultados al tirar dos dados
Pregunta
Encontremos la probabilidad que el nmero de puntos en el dado rojo es menor o igual a 3: P(R 3).
Para encontrar esta probabilidad debemos contar el nmero de pares en la tabla para los cuales R 3.
Vemos que hay 18 de estos pares de un total de 36 pares posibles as obtenemos P (R 3)= 18/ 36= 1/2.
Pregunta
Cul es la probabilidad que la suma X de los valores observados en los dos dados es menor de 6, es
decir, P (X< 6)?
El nmero de pares donde observamos esta situacin es 10, de un total de 36 pares posibles, por eso
debemos tener P(X < 6) = P (X 5)= 10/ 36. Supongamos ests en tu casa y un amigo te invita a jugar
un juego donde se lanzan dos dados, tal como Parchs. A ti te interesa que la suma de los puntos en los
dados sea 9. Tiras los dados, pero no miras el resultado. Tu amigo te dice que la suma de los dados es
mayor de 7. Te dice algo este dato? Cules son ahora tus oportunidades de haber obtenido 9? Si
hubiera dicho que la suma era menor de siete sabras de seguro que perdiste.
Necesitamos calcular P ( X= 9 | X> 7). Antes de tirar los dados, sabas que la probabilidad de ganar,
P(X=9) era igual a 4/ 36. Cambi esto? En la Tabla 2 estn sealados todos los pares donde X > 7 y
los pares donde X = 9.
Regiones donde X > 7 y X = 9
Como sabemos que X > 7 el resultado observado debe estar dentro del tringulo azul. All hay 15 pares
distintos de los cuales cuatro son consistentes con X= 9, por esto P (X = 9| X> 7)= 4/ 15 esto significa
que tus oportunidades de haber ganado han aumentado.
36
El resultado se puede obtener de la siguiente forma. La proporcin de pares donde X > 7 es 15/ 36. La
proporcin de pares donde X > 7 y X = 9 es 4/ 36, siguiendo las ideas anteriores tenemos que P ( X = 9|
X > 7) = (4/36) (15/ 36) = 4/ 15. Igual que antes esta representacin se asemeja a un tablero de dardos
y el resultado se obtiene al comparar el "rea" de la regin que representa X = 9 con el "rea" de la
regin que representa X > 9. De igual manera, tambin se asemeja a un diagrama de Venn.
Considera la probabilidad de que en el dado Rojo se observe un tres si sabemos que la suma de los
dados es 5, es decir, P (R = 3 | X= 5). De la Tabla 1 se puede ver que P (X = 5)= 4/ 36, P (R = 3)= 6/ 36
y P( X = 5 y R = 3) = 1/36. La suma X es igual a cinco slo cuando se observa uno de los cuatro pares:
(1,4), (2,3), (3,2), (4,1). De esos, slo uno es compatible con que el dado rojo sea igual a 3, por esta
razn, P (R = 3| X= 5)= 1/ 4. Este resultado implica que el evento {R = 3} afecta la probabilidad de que
el evento {X = 5} ocurra. Antes de hacer el experimento, la probabilidad de observar {R=3} es 1/6,
pero ahora sabemos que {X=5} ocurri y por lo tanto la probabilidad de observar {R=3} es ahora 1/4.
Pregunta
Qu hubiera pasado si el evento que condiciona hubiera sido X= 7?
De la tabla se puede ver que P (R = 3 | X = 7) = 1/6 = P (R = 3). Es decir, el saber que {X=7} ocurri
no nos ofrece informacin alguna sobre la probabilidad de que {R=3} ocurra.
Probabilidad condicional y rboles
Otra manera natural y til de estudiar probabilidad condicional es por medio de una estructura de rbol.
Esta forma de visualizar el experimento es particularmente pertinente cuando ste se ejecuta en etapas.
Toma por ejemplo el experimento de seleccionar a la vez dos canicas al azar de una caja que contiene 2
rojas y 3 azules. Este experimento es equivalente al de seleccionar al azar una canica, y entonces, sin
reemplazar la primera, seleccionar al azar otra canica. Este proceso se puede visualizar fcilmente por
medio de un rbol.
En cada nodo del rbol representamos el nmero de canicas rojas y azules que quedan en la caja. Las
ramas que emanan de cada nodo representan los dos resultados posibles que se pueden obtener cuando
se selecciona una canica al azar: rojo o azul. Cada rama es rotulada por el resultado obtenido y por la
probabilidad condicional de observar ese resultado. Los nodos al final representan los estados finales
posibles que podemos obtener como resultado del experimento. Estos nodos finales se llaman hojas.
Diagrama de rbol que ilustra el experimento de seleccionar dos canicas de una caja
37
Pregunta
Cul es la probabilidad que la segunda canica seleccionada sea roja dado que la primera es azul?
Si la primera canica fue azul, ahora quedan en la caja dos canicas rojas y dos azules. De ah
seleccionamos otra canica. La probabilidad de que una canica seleccionada de esa caja sea roja es 2/4.
Para facilitar el trabajo denotamos el evento de que la primera canica seleccionada es roja por R1 y el
evento de que la segunda sea roja por R2. Hacemos lo propio para las canicas azules. Esta
representacin es til para encontrar probabilidades conjuntas y marginales.
Por ejemplo, la probabilidad que la primera canica sea roja y la segunda azul, denotada P (R1 y B2) es
el producto de las probabilidades que rotulan el camino de la raz del rbol y que son consistentes con
los resultados R1 y B2. Entonces P (R1 y B2) = 2/5 x 3/4 = 6/20.
Si nos interesamos por la probabilidad marginal de que la segunda canica sea roja, P(R2), tenemos que
darnos cuenta de que hay dos caminos posibles en que la segunda canica es roja. Estos dos caminos
dependen del resultado que se observ cuando seleccionamos la primera canica, que pudo haber sido
rojo o azul. As observamos una canica roja en la segunda seleccin cuando cualquiera de los dos
eventos conjuntos (B1 y R2) (R1 y R2) ocurren. Estos son eventos son disjuntos por lo cual P ( R2 )
= P (B1 y R2) + P (R1 y R2) = 6/20+ 2/20 = 8/20.
Los rboles son especialmente tiles para encontrar probabilidades condicionales tal como P( R1 | B2 ).
Esta probabilidad se puede entender si pensamos en un experimento donde escogemos una canica al
azar, sin mirarla, la escondemos y luego seleccionamos al azar otra canica. Si la segunda canica
seleccionada es azul, cul es la probabilidad que la canica que escogimos primero era roja?
Una forma de contestar esta pregunta es usando la Regla de Bayes, que an no hemos estudiado. Otra
forma es la siguiente. Imaginemos que antes de comenzar el experimento quitamos una canica azul.
Esa ser la canica azul que escogeremos como segunda seleccin, la hemos reservado de antemano.
Ahora, en esta caja imaginaria hay 2 canicas rojas y 2 azules, por esta razn la probabilidad P (R1 | B2)
debe ser igual a (nmero de canicas rojas) / (nmero total de canicas) = 2/4.
Probabilidad condicional en general
Estos ejemplos motivan la definicin matemtica de probabilidad condicional de que un evento A
ocurra cuando sabemos que el evento B ocurri como:
Pregunta
Verifica que la medida P( | B) satisface los axiomas de probabilidad, es decir, si B es un evento fijo
en el espacio muestral S, entonces P( | B) es una medida de probabilidad.
Con la representacin del rbol vimos como obtener la probabilidad conjunta de dos eventos A, B. Por
ejemplo, vimos que para obtener la probabilidad de que la primera canica fuera roja y la segunda fuera
azul, P(R1 y B2) multiplicamos P ( B2 | R1 ) por la cantidad P (R1) a lo largo de las ramas apropiadas
del rbol. Esta operacin se justifica ahora por nuestra definicin de probabilidad condicional. Si A, B
son dos eventos cualquiera en un espacio muestral S, tenemos la regla de multiplicacin.
38
Teorema 1 (Regla de multiplicacin)
Si A , B son dos eventos cualquiera en un espacio muestral S donde P(B) > 0, tenemos P(A y B) = P(A
| B) P(B).
Prueba
Usa la definicin de probabilidad condicional.
Ejemplo 1
Tienes los cuatro ases de la baraja en tus manos {A, A, A, A}. Sabemos que dos de esas barajas
son rojas y las otras dos son de color negro. Sin mirar, un amigo selecciona una baraja primero luego
de las restantes tres selecciona una segunda baraja. Queremos encontrar la probabilidad del evento que
ambas barajas seleccionadas sean rojas, {A, A}. La nica forma en que ambas barajas sern rojas es
que la primera sea roja y dado que la primera fue roja, la segunda debe ser roja tambin. La
probabilidad de que la primera sea roja es 2/4. Si la primera fue roja, la probabilidad de que la segunda
sea roja es entonces 1/3. Por lo tanto P(ambas barajas son rojas)=2/4 1/3 = 2/12.
Pregunta
Enumera el espacio muestral de este experimento. Cul representacin sera ms til? Expresa el
problema del Ejemplo 1 en forma de smbolos, usando la regla de multiplicacin.
Ejemplo 2
El almacn de la UT recibe 100 togas para su graduacin. El fabricante haba llamado a la escuela para
anticiparle que entre esas 100 togas hay 10 que son de un tamao equivocado, muy pequeas para
estudiantes de escuela superior. Seleccionamos dos togas al azar. Cul es la probabilidad de que
ambas sean muy pequeas?
Seguimos el mismo argumento de arriba para resolver este ejercicio. La probabilidad de que la primera
seleccionada sea muy pequea es 10/100. Una vez seleccionada la primera toga pequea,
seleccionamos la siguiente toga de las restantes 99, de las cuales ahora 9 son muy pequeas. As, la
probabilidad de que ambas sean muy pequeas es 10/100 9/99.
Qu tal si seleccionamos 3 togas? Cul es la probabilidad de que las tres sean muy pequeas?
Podemos representar este experimento con un rbol que tiene 8 ramas (cmo?). Esto nos permite
extender el argumento de antes. En este caso la probabilidad deseada es 10/100 9/99 8/98.
Esta situacin facilita el generalizar la regla de multiplicacin. Para facilitar la discusin representemos
por T1 el evento de que la primera toga sea muy pequea, por T2 el evento de que la segunda sea muy
pequea y por T3 el evento de que la tercera toga sea muy pequea. Vemos que 10/100 es la
probabilidad de que la primera toga sea pequea, es decir P( T1 ). El valor 9/99 representa la
probabilidad de que la segunda sea pequea si la primera fue pequea, P( T2 | T1 ). El valor 8/98 es un
poco ms complicado. Para obtener la tercera toga pequea en sucesin, debimos haber seleccionado la
primera y la segunda togas pequeas, as, 8/98 es el resultado de calcular P( T3 | T1 y T2 ).
La probabilidad de que las tres togas sean pequeas es entonces P( T1 y T2 y T3 ) = P( T1 ) P( T2 | T1)
P( T3 | T1 y T2 ). Este resultado se puede escribir ahora como un teorema.
Teorema 2
Sean A, B, C eventos cualquiera en un espacio muestral S tal que P(A) > 0 y P(AB) > 0. Entonces
P( ABC ) = P(A) P(A | B) P(C | AB).
39
Prueba.
P( ABC ) = P( (AB)C ) = P( C | AB) P(AB), usando la regla de multiplicacin para los
eventos C y AB. Usamos nuevamente esa regla para calcular P( AB ) = P(A | B) P(B) y sustituimos
arriba para obtener el resultado.
Pregunta
Usa induccin matemtica para generalizar esta regla para n eventos.
40
Prctica 1
Elaborar ejercicios donde se emplee la frmula de probabilidad condicional en problemas del mbito
profesional donde la ocurrencia de un evento dependa de otro.
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
1. Considera una caja con cinco canicas. Dos de las canicas son blancas y las restantes son negras.
Selecciona una canica al azar y anota su color.
a. Representa el experimento usando un rbol.
b. Enumera el espacio muestral.
c. Usa la notacin y operaciones de conjuntos para representar el evento de que la canica
seleccionada:
i. sea negra.
ii. sea blanca.
iii. no sea negra
iv. sea blanca o negra
v. sea negra y blanca.
d. Ilustra los eventos de arriba en el rbol que representa el experimento y en un diagrama de
Venn.
e. Encuentra la probabilidad de que la canica seleccionada:
i. sea negra.
ii. sea blanca.
iii. no sea negra
iv. sea blanca o negra
v. sea negra y blanca.
2. Considera una caja con cinco canicas. Dos de las canicas son blancas y las restantes son negras.
Selecciona una canica al azar, anota su color y devulvela a la caja. Selecciona otra canica y anota su
color.
a. Representa el experimento usando un rbol.
b. Enumera el espacio muestral.
c. Encuentra la probabilidad de que la primera canica seleccionada:
i. sea negra.
ii. sea blanca.
iii. no sea negra
iv. sea blanca o negra
v. sea negra y blanca.
d. Usa la notacin y operaciones de conjuntos para representar el evento de que:
i. ambas canicas seleccionadas sean negras.
ii. una de las canicas seleccionadas sea blanca.
iii. ninguna canica sea blanca.
iv. la segunda canica sea blanca si la primera fue negra.
v. la primera canica sea blanca si la segunda no fue blanca.
vi. la segunda canica es blanca.
e. Encuentra la probabilidad de que:
i. ambas canicas seleccionadas sean negras.
ii. una de las canicas selecionadas sea blanca.
iii. ninguna canica sea blanca.
iv. la primera canica es blanca y la segunda es negra,
41
v. la segunda canica sea blanca si la primera fue negra.
vi. la primera canica sea blanca si la segunda no fue blanca.
f. Es el evento de que la primera canica sea negra independiente del evento de que la segunda
canica sea blanca? Explica.
g. Son los eventos {la primera canica es negra}, {la segunda canica es blanca} mutuamente
excluyentes? Explica.
3. Considera una caja con cinco canicas. Dos de las canicas son blancas y las restantes son negras.
Selecciona una canica al azar, anota su color, esta vez no la devuelvas a la caja. Selecciona otra canica
y anota su color.
a. Enumera el espacio muestral.
b. Encuentra la probabilidad de que:
i. ambas canicas seleccionadas sean negras.
ii. una de las canicas seleccionadas sea blanca.
iii. ninguna canica sea blanca.
iv. la primera canica no es ni blanca ni negra.
v. la primera canica es blanca y la segunda es negra.
vi. la segunda canica sea blanca si la primera fue negra.
vii. la primera canica sea blanca si la segunda no fue blanca.
viii. la segunda canica es blanca.
c. En qu se distingue este experimento del efectuado en el problema nmero 2?
d. Es el evento de que la primera canica sea negra independiente del evento de que la segunda
canica sea blanca? Explica.
e. Son los eventos {la primera canica es negra}, {la segunda canica es blanca} mutuamente
excluyentes? Explica.
4. Considera una caja con cinco canicas. Dos de las canicas son blancas y las restantes son negras.
Selecciona una canica al azar, anota su color, devulvela a la caja y aade a la caja dos canicas del
mismo color de la canica seleccionada. Selecciona otra canica y anota su color.
a. Representa el experimento usando un rbol.
b. Enumera el espacio muestral.
c. Encuentra la probabilidad de que:
i. ambas canicas seleccionadas sean negras.
ii. una de las canicas seleccionadas sea blanca.
iii. ninguna canica sea blanca.
iv. la primera canica no es ni blanca ni negra.
42
v. la primera canica es blanca y la segunda es negra.
vi. la segunda canica sea blanca si la primera fue negra.
vii. la primera canica sea blanca si la segunda no fue blanca.
viii. la segunda canica sea negra.
d. Es el evento de que la primera canica sea negra independiente del evento de que la segunda
canica sea blanca? Explica.
e. Son los eventos {la primera canica es negra}, {la segunda canica es blanca} mutuamente
excluyentes? Explica.
5. Considera una caja con seis canicas. Dos de las canicas son blancas, una es roja y las restantes son
negras. Selecciona una canica al azar, anota su color, devulvela a la caja y aade a la caja dos canicas
del mismo color de la canica seleccionada. Selecciona otra canica y anota su color.
a. Representa el experimento usando un rbol.
b. Enumera el espacio muestral.
c. Encuentra la probabilidad de que:
i. ambas canicas seleccionadas sean rojas.
ii. una de las canicas seleccionadas sea blanca.
iii. ninguna canica sea blanca.
iv. la primera canica no es ni blanca ni negra.
v. la primera canica es blanca y la segunda es roja.
vi. la segunda canica sea roja si la primera fue roja.
vii. la primera canica sea negra si la segunda no fue blanca.
viii. las dos canicas sean de colores distintos.
ix. las dos canicas sean del mismo color.
x. la segunda canica sea negra.
d. Es el evento de que la primera canica sea roja independiente del evento de que la segunda
canica sea blanca? Son estos eventos mutuamente excluyentes? Explica.
e. Son los eventos {la primera canica es negra}, {la segunda canica es blanca} mutuamente
excluyentes? Explica.
6. Considera una caja con cinco canicas. Dos de las canicas son blancas y las restantes son negras. A la
misma vez, selecciona dos canicas al azar y anota sus colores.
a. Representa el experimento usando un rbol.
b. Enumera el espacio muestral.
c. Usa la notacin y operaciones de conjuntos para representar el evento de que las canicas
seleccionadas:
i. ambas sean negras.
ii. ninguna sea negra.
iii. sean de colores distintos.
d. Ilustra los eventos de arriba en el rbol que representa el experimento.
e. Encuentra la probabilidad de que las canicas seleccionadas:
i. ambas sean negras.
ii. ninguna sea blanca.
43
iii. sean de colores distintos.
f. Tiene alguna relacin este problema con el nmero 3 arriba? Explica.
Hacemos un experimento con dos cajas. La caja A tiene siete canicas. En esta caja, dos de las canicas
son blancas, tres son rojas y dos son negras. La caja B tiene seis canicas. Cuatro de las canicas en B son
rojas y dos son negras. Se tira un dado para decidir de cul caja se selecciona una canica al azar. Si se
observa el evento {1,2,3,4} se selecciona una canica de la caja A. En el caso de observar el evento
{5,6} se selecciona al azar una canica de la caja B.
a. Representa el experimento usando un rbol.
b. Enumera el espacio muestral.
c. Usa la notacin y operaciones de conjuntos para representar el evento de que la canica
seleccionada:
i. sea negra.
ii. no sea roja.
iii. sea negra blanca.
iv. provenga de la caja A
v. sea roja y venga de la caja B.
vi. sea blanca y venga de la caja B.
d. Ilustra los eventos de arriba en el rbol que representa el experimento.
e. Encuentra la probabilidad de que la canica seleccionada:
i. sea negra.
ii. no sea roja.
iii. sea negra blanca.
iv. provenga de la caja A
v. sea roja y venga de la caja B.
vi. sea blanca y venga de la caja A.
vii. sea negra dado que viene de la caja B.
viii. sea blanca dado que viene de la caja B.
ix. haya provenido de la caja B dado que es blanca.
x. haya provenido de la caja A dado que es roja.
f. Puedes generalizar tus resultados en ix y x? Explica.
44
TEMA 5
Objetivo de aprendizaje.
5. Definir el Teorema de Bayes.
Criterio de Aprendizaje.
5.1. Utilizar el teorema de Bayes en problemas del mbito profesional que involucren probabilidades
subjetivas.
Didctica de enseanza.
Pa. 2 Elaborar ejercicios donde se planteen problemas del mbito profesional que involucren
probabilidades subjetivas y aplicar el Teorema de Bayes en su solucin
Un problema que nos sirve de introduccin
En el distrito universitario de Jauja los estudiantes se distribuyen entre las tres carreras que pueden
cursarse del siguiente modo: el 20% estudian arquitectura, el 35% medicina y el 45% economa. El
porcentaje de alumnos que finalizan sus estudios en cada caso es del 5%, 12% y del 18%. Elegido un
alumno al azar determinar la probabilidad de que haya acabado los estudios.
Como Sea T el suceso "finalizar los estudios".
Como
E = A
1
o A
2
o A
3

T = (T y E) = T y (A
1
o A
2
o A
3
) =
= (T y A
1
) o (T y A
2
) o (T y A
3
)
Resulta
p(T) = p(T y A
1
) + p(T y A
2
) + (T y A
3
)
Y por tanto
p(T) =
= p(A
1
) p(T/A
1
) +
+ p(A
2
) p(T/A
2
) +
+ p(A
3
) p(T/A
3
)
Vemos todo esto mediante un diagrama de flujo y calculamos la probabilidad de que un alumno elegido
al azar haya terminado los estudios.
Si A
1
, A
2
, y A
3
son, respectivamente, los sucesos "estudiar arquitectura", "estudiar medicina" y
"estudiar economa" resulta
p(A
i
) = 1
Y los sucesos A
1
, A
2
, y A
3
son incompatibles (no existen estudiantes que cursen dos carreras).
Adems
45
E = A
1
o A
2
o A
3

En estas condiciones podemos aplicar el razonamiento de la columna de la izquierda.
A partir del razonamiento anterior podemos enunciar el siguiente teorema que es conocido como
teorema de la probabilidad total
Si los sucesos A
1
, A
2
, A
3
... A
n
son una particin ( ) del espacio
Muestral E y T un suceso de S, entonces
Otro ejemplo y una pregunta
46
La fbrica de enlatados PI S.A. produce 5000 envases diarios. La mquina A produce 3000 de estos
envases, de los que el 2% son defectuosos y la mquina B produce los 2000 restantes de los que se sabe
que el 4% son defectuosos. Determinar la probabilidad de que un envase elegido al azar sea defectuoso.
Si D es el suceso "seleccionar un envase defectuoso" y (no D) = "seleccionar un envase no defectuoso",
el diagrama siguiente nos muestra el camino
Aplicando el teorema anterior resulta:
p(D) = p(A y D) + p(B y D) = p(A) p(D/A) + p(B) p(D/B) = 0,028
Y ahora la pregunta Si el envase seleccionado es defectuoso, qu probabilidad hay de que proceda de
la mquina A? Y de la B?
Es decir, sabemos que la botella seleccionada es defectuosa
La respuesta a dicha cuestin viene dada por la denominada frmula de Bayes
Probabilidad de que provenga de la mquina A
Calculamos la probabilidad p(A/D) es decir, la probabilidad de que provenga de la mquina A en el
supuesto que el envase es defectuoso:
Probabilidad de que provenga de la mquina B
Calculamos la probabilidad p(B/D) es decir, la probabilidad de que provenga de la mquina B en el
supuesto que el envase es defectuoso:
Las expresiones
47
Son las de la "frmula de Bayes" para cada uno de las preguntas formuladas. Estas expresiones pueden
generalizarse fcilmente para un conjunto finito de sucesos con las condiciones indicadas.
Podemos hacernos ahora varias preguntas que son fciles de contestar. Por ejemplo:
Si el envase no es defectuoso, qu probabilidad hay de que provenga de la mquina A?. Y de la
B?.
O bien, teniendo en cuenta el primer ejercicio, si un alumno seleccionado ha finalizado la carrera, qu
probabilidad hay que haya estudiado arquitectura?. Y medicina?
Y adems ya estamos en condiciones de resolver el problema enunciado en la portada.
Thomas Bayes naci en Londres, Inglaterra. Su padre fue ministro presbiteriano. Posiblemente De
Moivre fue su maestro particular, pues se sabe que por ese entonces ejerca como profesor en Londres.
Bayes fue ordenado ministro presbiteriano y muere en 1761. Sus restos descansan en el cementerio
londinense de Bunhill Fields. La traduccin de la inscripcin en su tumba es
Reverendo Thomas Bayes.
Hijo de los conocidos Joshua y Ann Bayes. 7 de abril de 1761. En reconocimiento al importante trabajo
que realiz Thomas Bayes en probabilidad. Su tumba fue restaurada en 1969 con donativos de
estadsticos de todo el mundo.
Miembro de la Royal Society desde 1742, Bayes fue uno de los primeros en utilizar la probabilidad
inductivamente y establecer una base matemtica para la inferencia probabilstica. Public los trabajos:
Divine Providence and Government Is the Happiness of His Creatures (1731) An Introduction to the
Doctrine of Fluxions, and a Defence of The Analyst (1736)
En 1763, dos aos despus de su muerte, se publica Essay Towards Solving a Problem in the Doctrine
of Chances, en el que trataba el problema de las causas a travs de los efectos observados, y donde se
enuncia el teorema que lleva su nombre. El trabajo fue entregado a la Royal Society por Richard Price
y es la base de la tcnica bayesiana.
48
En una urna hay 5 bolas, 3 azules y 2 verdes. Se saca una bola de la urna y sin mirarla, se guarda. A
continuacin se vuelve a sacar otra bola que es verde. Cul es la probabilidad de que la primera haya
sido verde?. Y si la segunda hubiera sido azul, cul es la probabilidad de que la primera sea verde?.
Y azul?.
Un diagrama nos aclara la situacin
En donde (A1 y A2), es el suceso "sacar azul la primera bola y azul la segunda" y anlogamente los
restantes (A1 y V2), (V1 y A2), (V1 y V2).
Probabilidad de que la primera haya sido verde (en el supuesto que la segunda ha sido verde)
Aplicamos el teorema de Bayes y resulta:
Probabilidad de que la primera haya sido verde (en el supuesto que la segunda ha sido azul)
Aplicamos el teorema de Bayes y resulta:
Probabilidad de que la primera haya sido azul (en el supuesto que la segunda ha sido azul)
Aplicamos el teorema de Bayes y resulta:
49
Prctica 2
Elaborar ejercicios donde se planteen problemas del mbito profesional que involucren probabilidades
subjetivas y aplicar el Teorema de Bayes en su solucin
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
1) Los alumnos de la Universidad Tecnolgica, proceden de 3 localidades A, B y C, siendo un 20% de
A, un 30% de B y el resto de C. El 80% de los alumnos de A cursa 1 cuatrimestre y el resto 4. El 50%
de los alumnos de B cursa 1 cuatrimestre y el resto 4. El 60% de los alumnos de C cursa 1
cuatrimestre y el resto 4.
(a) Seleccionado, al azar, un alumno la Universidad Tecnolgica, cul es la probabilidad de que
sea de 4?
(b) Si elegimos, al azar, un alumno la Universidad Tecnolgica y ste es un alumno de 1, cul
es la probabilidad de que proceda de la localidad B?
2) Segn la estadstica de los resultados en las Prueba de Acceso en una provincia andaluza, en
septiembre de 2001, el nmero de alumnas presentadas es de 840, de las que han aprobado un 70%,
mientras que el nmero de alumnos presentados es 668, habiendo aprobado un 75% de estos.
(a) Elegida, al azar, una persona presentada a las Pruebas, cul es la probabilidad de que haya
aprobado?
(b) Sabiendo que una persona ha aprobado, cul es la probabilidad de que sea varn?
50
CAPITULO2
ORGANIZACINYPRESENTACINDE
DATOS
INTRODUCCIN
El propsito de la presente unidad es que el alumno adquiera la habilidad para ordenar y tabular
datos, construyendo con ellos diversas grficas que le permitirn calcular sus medidas de
tendencia central y dispersin, as como utilizar los fundamentos matemticos de probabilidad
para resolver algunos problemas de Procesos Agroindustriales que se presentan en las empresas.
OBJETIVO Y CRITERIOS DE APRENDIZAJE Pgina
1- . Reconocer los mtodos tabulares de presentacin de datos.
1.1. . Ilustrar y describir tablas de frecuencias relativas y absolutas.
1.2. . Ilustrar y describir tablas para representar dos conjuntos de datos.
52
52
52
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
1.1.1. Utilizar las tablas de frecuencias relativas y absolutas, de datos.
1.2.1. Utilizar tablas para representar dos conjuntos de datos.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
2. Diferenciar los mtodos grficos empleados para organizar datos
2.1. Ilustrar los mtodos grficos empleados para organizar datos.
60
60
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
2.1.1 Utilizar mtodos grficos empleados para organizar datos.
DEMOSTRACIN DE HABILIDADES FINALES
Ta. 3 Realizar ejercicios, organizando datos en tablas de frecuencia relativas y
absolutas de datos, as como tambin tablas para representar dos conjuntos de datos.
Pa. 3 Elaborar, organizar datos y construir diagramas de puntos histogramas y
polgonos de frecuencias.
59
70
51
TEMA 1
Objetivo de aprendizaje.
1. Reconocer los mtodos tabulares de presentacin de datos.
Criterio de Aprendizaje.
1.1. Ilustrar y describir tablas de frecuencias relativas y absolutas.
1.2. Ilustrar y describir tablas para representar dos conjuntos de datos.
Didctica de enseanza.
Ta. 3 Realizar ejercicios, organizando datos en tablas de frecuencia relativas y absolutas de datos, as
como tambin tablas para representar dos conjuntos de datos.
Consideremos una poblacin estadstica de n individuos, descrita segn un carcter o variable C cuyas
modalidades han sido agrupadas en un nmero k de clases, que denotamos mediante .
Para cada una de las clases c
i
, , introducimos las siguientes magnitudes:
Frecuencia absoluta
De la clase c
i
es el nmero n
i
, de observaciones que presentan una modalidad perteneciente a esa clase.
Frecuencia relativa
De la clase c
i
es el cociente f
i
, entre las frecuencias absolutas de dicha clase y el nmero total de
observaciones, es decir
Obsrvese que f
i
es el tanto por uno de observaciones que estn en la clase c
i
. Multiplicado por 100%
representa el porcentaje de la poblacin que comprende esa clase.
Frecuencia absoluta acumulada
N
i
, se calcula sobre variables cuantitativas o cuasicuantitativas, y es el nmero de elementos de la
poblacin cuya modalidad es inferior o equivalente a la modalidad c
i
:
Frecuencia relativa acumulada
F
i
, se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos
de la poblacin que estn en alguna de las clases y que presentan una modalidad inferior o igual a la c
i
,
es decir,
Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que
52
O lo que es lo mismo,
Frecuencia absoluta (n
i
): Nmero de elementos que presentan la clase x
i
.
Frecuencia relativa: .
Frecuencia absoluta acumulada: .
Frecuencia relativa acumulada:
Llamaremos distribucin de frecuencias al conjunto de clases junto a las frecuencias correspondientes
a cada una de ellas. Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de
frecuencias. Su forma general es la siguiente:
Modali. Frec. Abs. Frec. Rel. Frec. Abs. Acumu. Frec. Rel. Acumu.
C n
i
f
i
N
i
F
i
c
1
n
1
N
1
= n
1
... ... ... ... ...
c
j
n
j
... ... ... ... ...
c
k
n
k
N
k
= n F
k
= 1
n 1
Ejemplo
Calcular los datos que faltan en la siguiente tabla:
l
i-1
-- l
i
n
i
f
i
N
i
53
0 -- 10 60 f
1
60
10 -- 20 n
2
0,4 N
2
20 -- 30 30 f
3
170
30 -- 100 n
4
0,1 N
4
100 -- 200 n
5
f
5
200
n
Solucin:
Sabemos que la ltima frecuencia acumulada es igual al total de observaciones, luego n=200.
Como N
3
=170 y n
3
=30, entonces
N
2
=N
3
-n
3
=170-30=140.
Adems al ser n
1
=60, tenemos que
n
2
=N
2
-n
1
=140-60=80.
Por otro lado podemos calcular n
4
teniendo en cuenta que conocemos la frecuencia relativa
correspondiente:
As:
N
4
=n
4
+N
3
=20+170 =190.
Este ltimo clculo nos permite obtener
n
5
=N
5
-N
4
=200-190=10.
Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas:
Escribimos entonces la tabla completa:
l
i-1
-- l
i
n
i
f
i
N
i
0 -- 10 60 0,3 60
10 -- 20 80 0,4 140
20 -- 30 30 0,15 170
30 -- 100 20 0,1 190
100 -- 200 10 0,05 200
200
54
Eleccin de las clases
En cuanto a la eleccin de las clases, deben seguirse los siguientes criterios en funcin del tipo de
variable que estudiemos:
Cuando se trate de variables cualitativas o cuasicuantitativas, las clases c
i
sern de tipo nominal;
En el caso de variables cuantitativas, existen dos posibilidades:
o Si la variable es discreta, las clases sern valores numricos ;
o Si la variable es continua las clases vendrn definidas mediante lo que denominamos
intervalos. En este caso, las modalidades que contiene una clase son todos los valores numricos
posibles contenidos en el intervalo, el cual viene normalmente definido de la forma
O bien
En estos casos llamaremos amplitud del intervalo a las cantidades
a
i
= l
i
-l
i-1

Y marca de clase c
i
, a un punto representativo del intervalo. Si ste es acotado, tomamos como marca
de clase al punto ms representativo, es decir al punto medio del intervalo,
La marca de clase no es ms que una forma abreviada de representar un intervalo mediante uno de sus
puntos. Por ello hemos tomado como representante, el punto medio del mismo. Esto est plenamente
justificado si recordamos que cuando se mide una variable continua como el peso, la cantidad con
cierto nmero de decimales que expresa esta medicin, no es el valor exacto de la variable, sino una
medida que contiene cierto margen de error, y por tanto representa a todo un intervalo del cual ella es el
centro.
En el caso de variables continuas, la forma de la tabla estadstica es la siguiente:
Interv. M. clase Frec. Abs. Frec. Rel. Frec. Abs. Acum. Frec. Rel. Acum.
C n
i
f
i
N
i
F
i
l
0
-- l
1
c
1
n
1
N
1
= n
1
F
1
= f
1
... ... ... ... ... ...
l
j-1
-- l
j
c
j
n
j
N
j
= N
j-1
+n
j
F
j
= F
j-1
+ f
j
... ... ... ... ... ...
l
k-1
-- l
k
c
k
n
k
N
k
=n F
k
=1
n 1
Eleccin de intervalos para variables continuas
55
A la hora de seleccionar los intervalos para las variables continuas, se plantean varios problemas como
son el nmero de intervalos a elegir y sus tamaos respectivos. La notacin ms comn que usaremos
para un intervalo sea
El primer intervalo, l
0
-- l
1
, podemos a cerrarlo en el extremo inferior para no excluir la observacin
ms pequea, l
0

ste es un convenio que tomaremos en las pginas que siguen. El considerar los intervalos por el lado
izquierdo y abrirlos por el derecho no cambia de modo significativo nada de lo que expondremos.
El nmero de intervalos, k, a utilizar no est determinado de forma fija y por tanto tomaremos un k que
nos permita trabajar cmodamente y ver bien la estructura de los datos; Como referencia nosotros
tomaremos una de los siguientes valores aproximados:
Por ejemplo si el nmero de observaciones que tenemos es n=100, un buen criterio es agrupar las
observaciones en intervalos. Sin embargo si tenemos n=1.000.000, ser mas razonable
elegir intervalos, que .
La amplitud de cada intervalo
a
i
= l
i
-l
i-1

Suele tomarse constante, considerando la observacin ms pequea y ms grande de la poblacin
(respectivamente y ) para calcular la amplitud total, A, de la poblacin
A= l
k
- l
0

de forma que la amplitud de cada intervalo sea:
As la divisin en intervalos podra hacerse tomando:
Observacin
56
Podra ocurrir que la cantidad a fuese un nmero muy desagradable a la hora de escribir los intervalos
(ej. a=10,325467). En este caso, es recomendable variar simtricamente los extremos,
, de forma que se tenga que a es un nmero ms simple (ej. a=10).
Recorrido:
Amplitud: a
i
= l
i
- l
i-1

Marca de clase:
Frecuencias rectificadas: ;
Ejemplo
Sobre un grupo de n=21 personas se realizan las siguientes observaciones de sus pesos, medidos en
kilogramos:
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64
Agrupar los datos en una tabla estadstica.
Solucin:
En primer lugar hay que observar que si denominamos X a la variable ``peso de cada persona'' esta es
una variable de tipo cuantitativa y continua. Por tanto a la hora de ser ordenados los resultados en una
tabla estadstica, esto se ha de hacer agrupndolos en intervalos de longitud conveniente. Esto nos lleva
a perder cierto grado de precisin. Para que la perdida de informacin no sea muy relevante seguimos
el criterio de utilizar intervalos (no son demasiadas las observaciones). En este punto
podemos tomar bien k=4 o bien k=5. Arbitrariamente se elige una de estas dos posibilidades. Por
ejemplo, vamos a tomar k=5.
Lo siguiente es determinar la longitud de cada intervalo, a
i
. Lo ms cmodo es tomar la
misma longitud en todos los intervalos, a
i
=a (aunque esto no tiene por qu ser necesariamente as),
donde
57
Entonces tomaremos k=5 intervalos de longitud a=6,6comenzando por l
0
=x
min
=39 y terminando en
l
5
=33:
Intervalos M. clase f.a. f.r. f.a.a. f.r.a.
l
i-1
-- l
i
c
i
n
i
f
i
N
i
F
i
i=1 39 -- 45,6 42,3 3 0,1428 3 0,1428
i=2 45,6 -- 52,2 48,9 2 0,0952 5 0,2381
i=3 52,2 -- 58,8 55,5 6 0,2857 11 0,5238
i=4 58,8 -- 65,4 62,1 3 0,1428 14 0,6667
i=5 65,4 -- 72 68,7 7 0,3333 21
21
Otra posibilidad a la hora de construir la tabla, y que nos permite que trabajemos con cantidades ms
simples a la hora de construir los intervalos, es la siguiente. Como la regla para elegir l
0
y l
5
no es muy
estricta podemos hacer la siguiente eleccin:
ya que as la tabla estadstica no contiene decimales en la expresin de los intervalos, y el exceso d,
cometido al ampliar el rango de las observaciones desde A hasta A', se reparte del mismo modo a los
lados de las observaciones menores y mayores:
Intervalos M. clase f.a. f.r. f.a.a. f.r.a.
l
i-1
-- l
i
c
i
n
i
f
i
N
i
F
i
i=1 38 -- 45 41,5 3 0,1428 3 0,1428
i=2 45 -- 52 48,5 2 0,0952 5 0,2381
i=3 52 -- 59 55,5 7 0,3333 12 0,5714
i=4 59 -- 66 62,5 3 0,1428 15 0,7143
i=5 66 -- 73 69,5 6 0,2857 21
21
Evidencia parcial
Ta. 3 Realizar ejercicios, organizando datos en tablas de frecuencia relativas y absolutas de datos, as
como tambin tablas para representar dos conjuntos de datos.
Evaluacin parcial
58
Entrega de Ta.3
59
TEMA 2
Objetivo de aprendizaje.
2. Diferenciar los mtodos grficos empleados para organizar datos.
Criterio de Aprendizaje.
2.1. Ilustrar los mtodos grficos empleados para organizar datos.
Didctica de enseanza.
Pa. 3 Elaborar, organizar datos y construir diagramas de puntos histogramas y polgonos de
frecuencias.
Grficos para variables cualitativas
Los grficos ms usuales para representar variables de tipo nominal son los siguientes:
Diagramas de barras:
En la siguiendo la figura, representamos en el eje de ordenadas las modalidades y en abscisas las
frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el grfico, se intenta comparar
varias poblaciones entre s, existen otras modalidades, como las mostradas en la figura posterior.
Cuando los tamaos de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias
relativas, ya que en otro caso podran resultar engaosas.
Figura: Diagrama de barras para una variable cualitativa.
Figura: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha
de tener en cuenta que la altura de cada barra es proporcional al nmero de observaciones (frecuencias
relativas).
60
Diagramas de sectores
Se divide un crculo en tantas porciones como clases existan, de modo que a cada clase le corresponde
un arco de crculo proporcional a su frecuencia absoluta o relativa .
Figura: Diagrama de sectores.
El arco de cada porcin se calcula usando la regla de tres:
Como en la situacin anterior, puede interesar comparar dos poblaciones. En este caso tambin es
aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre grficos como los
anteriores. Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama
semicircular, al igual que en la figura anterior. Sean los tamaos respectivos de las 2
poblaciones. La poblacin ms pequea se representa con un semicrculo de radio r
1
y la mayor con otro
de radio r
2
. La relacin existente entre los radios, es la que se obtiene de suponer que la relacin entre
las reas de las circunferencias es igual a la de los tamaos de las poblaciones respectivas, es decir:
61
Figura: Diagrama de sectores para comparar dos poblaciones
Pictogramas
Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable.
Estos grficos se hacen representado a diferentes escalas un mismo dibujo, como vemos en la siguiente
figura.
Figura: Pictograma. Las reas son proporcionales a las
frecuencias.
El escalamiento de los dibujos debe ser tal que el rea de cada uno de ellos sea proporcional a la
frecuencia de la modalidad que representa. Este tipo de grficos suele usarse en los medios de
comunicacin, para que sean comprendidos por el pblico no especializado, sin que sea necesaria una
explicacin compleja.
62
Grficos para variables cuantitativas
Para las variables cuantitativas, consideraremos dos tipos de grficos, en funcin de que para
realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas:
Diagramas diferenciales:
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el
nmero o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el nmero de elementos que presentan una modalidad inferior o
igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a grficos
crecientes, y es obvio que este tipo de grficos no tiene sentido para variables cualitativas.
Segn hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a
continuacin las diferentes representaciones grficas que pueden realizarse para cada una de ellas as
como los nombres especficos que reciben.
Grficos para variables discretas
Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos
hacer una grfica diferencial. Las barras deben ser estrechas para representar el que los valores que
toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable,
forma de escalera. Un ejemplo de diagrama de barras as como su diagrama integral correspondiente
estn representados en la figura del ejercicio siguiente.
Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el nmero de caras, X, obtenindose los
siguientes resultados:
Representar grficamente el resultado.
Solucin: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las
modalidades:
Ordenamos a continuacin los datos en una tabla estadstica, y se representa la misma en la figura
Figura: Diagrama diferencial (barras) e integral para una variable discreta. Obsrvese que el diagrama
integral (creciente) contabiliza el nmero de observaciones de la variable inferiores o iguales a cada
punto del eje de abcisas.
63
x
i
n
i
f
i
N
i
F
i
0 1 1/8 1 1/8
1 3 3/8 4 4/8
2 3 3/8 7 7/8
3 1 1/8 8 8/8
n=8 1
Ejemplo
Clasificadas 12 familias por su nmero de hijos se obtuvo:
Nmero de hijos (x
i
) 1 2 3 4
Frecuencias (n
i
) 1 3 5 3
Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama
acumulativo creciente.
Solucin: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:
Variable F. Absolutas F. Relativas F. Acumuladas
x
i
n
i
f
i
N
i
1 1 0,083 1
2 3 0,250 4
3 5 0,416 9
4 3 0,250 12
12 1
Con las columnas relativas a x
i
y n
i
realizamos el diagrama de barras para frecuencias absolutas, lo que
se muestra en la figura siguiente. Como puede verse es idntico (salvo un cambio de escala en el eje de
64
ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado usando las
columnas de x
i
y f
i
. El diagrama escalonado (acumulado) se ha construido con la informacin
procedente de las columnas x
i
y N
i
.
Figura: Diagramas de frecuencias para una variable discreta
Grficos para variables continuas
Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los
polgonos de frecuencias.
Un histograma se construye a partir de la tabla estadstica, representando sobre cada intervalo, un
rectngulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectngulo es
el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el
rea de los mismos.
El polgono de frecuencias se construye fcilmente si tenemos representado previamente el histograma,
ya que consiste en unir mediante lneas rectas los puntos del histograma que corresponden a las marcas
de clase. Para representar el polgono de frecuencias en el primer y ltimo intervalo, suponemos que
adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una
lnea recta los puntos del histograma que corresponden a sus marcas de clase. Obsrvese que de este
modo, el polgono de frecuencias tiene en comn con el histograma el que las reas de las grficas
sobre un intervalo son idnticas. Veanse ambas grficas diferenciales representadas en la parte superior
de la figura siguiente.
El diagrama integral para una variable continua se denomina tambin polgono de frecuencias
acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los
intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son
65
proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polgono de frecuencias absolutas
es una primitiva del histograma. Vase la parte inferior de la figura siguiente, en la que se representa a
modo de ilustracin los diagramas correspondientes a la variable cuantitativa continua expresada en la
tabla siguiente:
Intervalos c
i
n
i
N
i

0 -- 2 1 2 2
2 -- 4 3 1 3
4 -- 6 5 4 7
6 -- 8 7 3 10
8 - 10 9 2 12
12
Figura: Diagramas diferenciales e integrales para una variable continua.
Ejemplo
La siguiente distribucin se refiere a la duracin en horas (completas) de un lote de 500 tubos:
66
Duracin en horas Nmero de tubos
300 -- 500 50
500 -- 700 150
700 -- 1.100 275
ms de 1.100 25
Total 500
Representar el histograma de frecuencias relativas y el polgono de frecuencias.
Trazar la curva de frecuencias relativas acumuladas.
Determinar el nmero mnimo de tubos que tienen una duracin inferior a 900 horas.
Solucin: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al
tener un rango tan amplio de valores resulta ms conveniente agruparla en intervalos, como si de una
variable continua se tratase. La consecuencia es una ligera perdida de precisin.
El ltimo intervalo est abierto por el lmite superior. Dado que en l hay 25 observaciones puede ser
conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto el tercero tienen una
amplitud de 200 horas, luego podramos cerrar el ltimo intervalo en 1.300 horas.
Antes de realizar el histograma conviene hacer una observacin importante. El histograma representa
las frecuencias de los intervalos mediante reas y no mediante alturas. Sin embargo nos es mucho ms
fcil hacer representaciones grficas teniendo en cuenta estas ltimas. Si todos los intervalos tienen la
misma amplitud no es necesario diferenciar entre los conceptos de rea y altura, pero en este caso el
tercer intervalo tiene una amplitud doble a los dems, y por tanto hay que repartir su rea en un
rectngulo de base doble (lo que reduce su altura a la mitad).
As ser conveniente aadir a la habitual tabla de frecuencias una columna que represente a las
amplitudes a
i
de cada intervalo, y otra de frecuencias relativas rectificadas, f
i
', para representar la altura
del histograma. Los grficos requeridos se representan en las figuras siguientes.
Intervalos a
i
n
i
f
i
f
i
' F
i
300 -- 500 200 50 0,10 0,10 0,10
500 -- 700 200 150 0,30 0,30 0,40
700 -- 1.100 400 275 0,55 0,275 0,95
1.100 -- 1.300 200 25 0,05 0,05 1,00
n=500
Figura: Histograma. Obsrvese que la altura del histograma en cada intervalo es f
i
' que coincide en
todos con f
i
salvo en el intervalo 700 -- 1.100 en el que ya que la amplitud de ese intervalo
es doble a la de los dems.
67
Figura: Diagrama acumulativo de frecuencias relativas
Por otro lado, mirando la figura anterior se ve que sumando frecuencias relativas, hasta las 900 horas
de duracin hay 0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
Esta cantidad se obtiene de modo ms directo viendo a qu altura corresponde al valor 900 en el
diagrama de frecuencias acumuladas.
Como en total son 500 tubos, el nmero de tubos con una duracin igual o menor que 900 horas es
, redondeando, 338 tubos.
Tabla: Principales diagramas segn el tipo de variable.
Tipo de variable Diagrama

68
V. Cualitativa Barras, sectores, pictogramas


V. Discreta Diferencial (barras)
Integral (en escalera)


V. Continua Diferencial (histograma, polgono de frecuencias)
Integral (diagramas acumulados)

69
Prctica 3
Elaborar, organizar datos y construir diagramas de puntos histogramas y polgonos de frecuencias.
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
A) En el siguiente conjunto de datos, se proporcionan los dimetros de melocotones (Prunus persica L.
Batsch.) en centmetros
4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5,
7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.
1. Construir una distribucin de frecuencia, de dimetros.
2. Encontrar las frecuencias relativas.
3. Encontrar las frecuencias acumuladas.
4. Encontrar las frecuencias relativas acumuladas.
5. Dibujar un histograma con los datos.
6. Por qu se ha utilizado un histograma para representar estos datos, en lugar de una grfica de
barras?
B) Una empresa maltera recibe mensualmente 50 lotes de cebada, los cuales se les mide su peso
hectoltrico (lb/bu), y se les clasifica segn la siguiente tabla:
Estado Rango de aceptabilidad (lb/bu)
Buen estado 54 - 56
Aceptable 51 - 53
Aceptable con restricciones 48 - 50
Rechazo Todo aquel fuera de los tres rangos anteriores
Los datos obtenidos son los siguientes:
55.8, 48, 54, 50, 51, 50, 56, 58, 59, 49, 49.9, 55, 58, 60, 45, 58, 59, 52, 54, 56, 48, 49, 56, 51, 52, 48,
59, 53, 51, 50, 58, 56, 54, 57, 56, 52, 49, 46, 56, 45, 49, 58, 59, 52, 56, 54, 52, 57, 49, 56
1. Construir una distribucin de frecuencia.
2. Encontrar las frecuencias relativas.
3. Encontrar las frecuencias acumuladas.
4. Encontrar las frecuencias relativas acumuladas.
70
5. Elige y elabora un grfico con los datos, que ayuden a interpretar los el conjunto de datos.
6.- Cules son las ventajas de realizar grficos de un conjunto de datos?
71
CAPITULO3
MEDIDASDESCRIPTIVAS
INTRODUCCIN
En este captulo se abordarn las medidas de tendencia central, que se conocen como medidas de
posicin, se refieren al punto medio de una distribucin. Generalmente el objetivo principal de
las medidas de tendencia central es describir las caractersticas tpicas de conjuntos de datos y,
como hay varias formas de hacerlo, existen y se utilizan varios tipos de promedios. Se les llama
medidas de tendencia central porque la acumulacin ms alta de datos se encuentra en los
valores intermedios. Las medidas de tendencia central ms comunes son: La media aritmtica
(comnmente conocida como media o promedio); la mediana: la cual es el puntaje que es ubica
en el centro de una distribucin; la moda (que es el puntaje que se presenta con mayor frecuencia
en una distribucin); entre otras.
OBJETIVO Y CRITERIOS DE APRENDIZAJE Pgina
1. Definir y explicar los conceptos y frmulas de la media aritmtica, mediana y
moda.
1.1. Practicar y analizar la media aritmtica, mediana y moda de un conjunto de
datos.
74
74
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
1.1.1. Calcular y obtener la media aritmtica, mediana y moda de un conjunto de
datos.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
2. Definir y explicar las frmulas y conceptos de amplitud o rango, desviacin media,
varianza, desviacin Estndar y coeficiente de variacin.
2.1. Practicar y analizar amplitud o rango, desviacin media, varianza, desviacin
Estndar y coeficiente de variacin de una muestra de datos y de una tabla de
frecuencias.
79
79
2.1.1. Calcular y obtener de una muestra de datos y de una tabla de frecuencias:
amplitud o rango, desviacin media, varianza, desviacin Estndar y coeficiente de
variacin.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
3. Enunciar las ventajas y desventajas de las medidas de tendencia central y de
dispersin
3.1 Analizar las medidas de tendencia central de un conjunto de datos de acuerdo a
su naturaleza.
84
84
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
3.1.1. Aplicar las medidas de tendencia central de un conjunto de datos de acuerdo a
su naturaleza.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
4. Definir el concepto de covarianza y correlacin
4.1. Practicar y analizar la covarianza y correlacin de dos muestras de datos y
87
87
72
determinar si las dos estn relacionadas.
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
4.1.1. Calcular y obtener la covarianza y correlacin de dos muestras de datos y
determinar si las dos estn relacionadas.
DEMOSTRACIN DE HABILIDADES FINALES
Ta. 4 En base a un conjunto de datos, calcular la media aritmtica, mediana y moda.
Ta. 5 En base a una muestra de datos y una tabla de frecuencias calcular amplitud o
rango, desviacin media, varianza, desviacin Estndar y coeficiente de
variacin
Pa.4 En base a un conjunto de datos calcular: media aritmtica, mediana y moda;
elaborar tabla de frecuencias y obtener: rango, desviacin media, desviacin
estndar, varianza y coeficiente de variacin.
Pa. 5 Calcular y obtener covarianza y correlacin de un conjunto de datos.
78
83
86
92
73
TEMA 1
Objetivo de aprendizaje.
1. Definir y explicar los conceptos y frmulas de la media aritmtica, mediana y moda.
Criterio de Aprendizaje.
1.1. Practicar y analizar la media aritmtica, mediana y moda de un conjunto de datos.
Didctica de enseanza.
Ta. 4 En base a un conjunto de datos, calcular la media aritmtica, mediana y moda.
Media aritmtica
Es el promedio ms comnmente usado, este puede ser simple o ponderado.
La media aritmtica simple esta dada por la formula X/n y que significa: la suma de todos los valores
y el resultado se divide entre el nmero de observaciones; y que adems el valor de la media representa
un valor con respecto a toda la informacin.
Una muestra de una poblacin consiste en n observaciones, con una media de x. Las medidas que
calculamos para una muestra se conocen como estadstica.
La notacin es diferente cuando calculamos medidas para la poblacin entera, es decir, para el grupo
que contiene a todos los elementos que estamos describiendo. La media de una poblacin se simboliza
con . El nmero de elementos de una poblacin se denota con la letra mayscula cursiva N. Por lo
general, en estadstica se utilizan letras del alfabeto latino para simbolizar la informacin sobre las
muestras y letras del griego para referirnos a la informacin sobre poblaciones.
Por ejemplo:
Media de una serie de datos.
10, 13, 10, 13, 14, 10, 13, 10, 15
Media de la poblacin:
= x / N
Para calcular esta media, sumamos todas las observaciones. Los estadsticos se refieren a este tipo de
datos como datos no agrupados.
Media Aritmtica Ponderada o media de datos agrupados
Si los valores que toma x en una serie de datos, no todos tienen la misma importancia, es valido asignar
"pesos" o "ponderaciones" de acuerdo a la importancia de cada dato.
74
Una distribucin de frecuencias consta de datos agrupados en clases. Cada valor de una observacin
cae dentro de alguna de las clases. No sabemos el valor individual de cada observacin. A partir de la
informacin de la tabla, podemos calcular fcilmente una estimacin del valor de la media de estos
datos agrupados.
Para encontrar la media aritmtica de datos agrupados, primero calculamos el punto medio de cada
clase. Para lograr que los puntos medios queden en cifras cerradas, redondeamos las cantidades.
Despus, multiplicamos cada punto medio por la frecuencia de las observaciones de dicha clase,
sumamos todos los resultados y dividimos esta suma entre el nmero total de observaciones de la
muestra.
.= (f x) / n
f = frecuencia de observaciones de cada clase
x= punto medio de cada clase de la muestra
n = nmero de observaciones de la muestra
En la serie del ejemplo anterior aparecen los nmeros; pero cada uno con diferente frecuencia. Si cada
uno de estos datos se multiplica por su respectiva frecuencia o ponderacin y se suman estos productos,
se obtendr la misma suma que si se hubieran sumado uno por uno
Sin ponderar Clculo ponderado
Nmero x Nmero x Frecuencia Producto (fx)
10 10 4 40
13 13 3 39
14 14 1 14
15 15 1 15
Suma = 52 9 108
52/4 = 13 108/9 = 12
Mediana
La mediana es un solo valor calculado a partir del conjunto de datos que mide la observacin central de
stos. Esta sola observacin es la ms central o la que est ms en medio en el conjunto de nmeros.
La mitad de los elementos estn por encima de este punto y la otra mitad est por debajo.
Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden descendente o
ascendente. Si el conjunto de datos contiene un nmero impar de elementos, el de en medio en el
arreglo es la mediana. Si hay un nmero par de observaciones, la mediana es el promedio de los dos
elementos de en medio.
Mediana = (n + 1) / 2
A continuacin se muestran los criterios para construir la mediana:
Lo primero que se requiere es ordenar los datos en forma ascendente o descendente, cualquiera
de los dos criterios conduce al mismo resultado.
75
Si el nmero de valores es impar, la mediana es el valor medio, el cual corresponde al dato.
Cuando el nmero de valores en el conjunto es par, no existe un solo valor medio, si no que
existen dos valores medios, en tal caso, la mediana es el promedio de los valores.
Algunas propiedades de la mediana son:
1.- Es nica.
2.- Es simple.
3.- Los valores extremos no tienen efectos importantes sobre la mediana, lo que si ocurre con la media.
Por ejemplo:
Dados los siguientes datos:
1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3
Para la obtencin de la mediana se debern de ordenar. Tomemos el criterio de orden ascendente con lo
que, se tiene:
0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4,
Se observa que el nmero de datos es igual a 15 datos, siendo el nmero de datos impar se elige el dato
que se encuentra a la mitad, una vez ordenados los datos, en este caso es 1.
Ejemplo 2.
3, 4, 4, 5, 16, 19, 25, 30 Med = (5+16)/2 = 10.5
Se observa que el nmero de datos es par, por los que se promedian los dos valores centrales es decir
el 5 y el 16 y el valor obtenido ser la mediana del conjunto de datos.
Mediana a partir de datos agrupados:
1. Encontrar qu observacin de la distribucin est ms al centro (Mediana = (n + 1) / 2).
2. Sumar las frecuencias de cada clase para encontrar la clase que contiene a ese elemento ms
central.
3. Determinar el nmero de elementos de la clase y la localizacin de la clase que contiene al
elemento mediano.
4. Determinar el ancho de cada paso para pasar de una observacin a otra en la clase mediana,
dividiendo el intervalo de cada clase entre el nmero de elementos contenido en la clase.
5. Determinar el nmero de pasos que hay desde el lmite inferior de la clase mediana hasta el
elemento correspondiente a la mediana.
6. Calcular el valor estimado del elemento mediano multiplicando el nmero de pasos que se
necesitan para llegar a la observacin mediana por el ancho de cada paso. Al producto sumarle
el valor del lmite inferior de la clase mediana.
7. Si existe un nmero par de observaciones en la distribucin, tomar el promedio de los valores
obtenidos para el elemento mediano calculados en el paso nmero 6.
Un mtodo ms sencillo:
Med = {[(n + 1) / 2 (F + 1)] / fm} w + Lm
76
Donde:
n = nmero total de elementos de la distribucin
F = suma de todas las frecuencias de clase hasta, pero sin incluir, la clase mediana
fm = frecuencia de la clase mediana
w = ancho de intervalo de clase
Lm = lmite inferior del intervalo de clase mediano
Moda
La moda es la medida que se relaciona con la frecuencia con que se presenta el dato o los datos con
mayor incidencia, con lo que se considera la posibilidad de que exista ms de una moda para un
conjunto de datos. La notacin ms frecuente es la siguiente: Mo . Esta medida se puede aparecer tanto
para datos cualitativos como cuantitativos. Se dice que cuando un conjunto de datos tiene una moda la
muestra es unimodal, cuando tiene dos modas bimodal, cuando la muestra contiene mas de un dato
repetido se dice que es multimodal y un ltimo caso es cuando ningn dato tiene una frecuencia, en
dicho caso se dice que la muestra es amodal.
La moda es una medida de tendencia central diferente de la media, pero un tanto parecida a la mediana,
pues en realidad no se calcula mediante algn proceso aritmtico ordinario. La moda es aquel valor que
ms se repite en el conjunto de datos.
En ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser el
valor ms frecuente del conjunto de datos. Es por esta razn que rara vez se utiliza la moda de un
conjunto de datos no agrupados como medida de tendencia central.
Por esta razn, siempre que se utiliza la moda como medida de tendencia central de un conjunto de
datos, debemos calcular la moda de datos agrupados (buscar la clase modal).
Ejemplos:
1.- Determinar la moda del siguiente conjunto de datos:
a).- 1, 2, 3, 3, 4, 5, 6, 7, 7, 3, 1, 9, 3
La moda de este conjunto de datos es igual a 3 y si considera unimodal
b).- 1, 2, 3, 4, 4, 5, 2, 1, 3, 4, 2, -3, 4, 6, 3, 3
Las modas de este conjunto de datos son 3 y 4 ya que ambas tienen la ms alta frecuencia, por lo que
la muestra es bimodal
c).- 1, 2, 3, 4, 5, 6, 7, 8, 9
La muestra no contiene ningn dato repetido por lo que se considera que la muestra es amodal.
Moda de datos agrupados:
Cuando los datos ya se encuentran agrupados en una distribucin de frecuencias, podemos poner que la
moda est localizada en la clase que contiene el mayor nmero de elementos, es decir, en la clase que
tiene mayor frecuencia. Para determinar un solo valor para la moda a partir de esta clase modal:
Mo = L
mo
+ [d
1
/ (d
1
+ d
2
)] w
77
L
mo
= lmite inferior de la clase modal.
d
1
= frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por
debajo de ella.
d
2
= frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por
encima de ella.
w = ancho del intervalo de la clase modal.
Evidencia parcial
Ta. 4 En base a un conjunto de datos, calcular la media aritmtica, mediana y moda.
Evaluacin parcial
Entrega de Ta.4
78
TEMA 2
Objetivo de aprendizaje.
2. Definir y explicar las frmulas y conceptos de amplitud o rango, desviacin media, varianza,
desviacin Estndar y coeficiente de variacin.
Criterio de Aprendizaje.
2.1. Practicar y analizar amplitud o rango, desviacin media, varianza, desviacin Estndar y
coeficiente de variacin de una muestra de datos y de una tabla de frecuencias.
Didctica de enseanza.
Ta. 5 En base a una muestra de datos y una tabla de frecuencias calcular amplitud o rango, desviacin
media, varianza, desviacin Estndar y coeficiente de variacin
Las medidas de tendencia central son de un gran valor representativo para una masa de observaciones.
Pero el valor de esas medidas depender de cuan variable sea la masa de informacin. Por eso se
establecen medidas que tratan de explicar la dispersin de los datos y son: la desviacin estndar, el
coeficiente de variacin, el error estndar y los lmites de confianza. Una medida de dispersin
conveniente deber tomar en consideracin todos los datos de la serie sopesando cada dato por su
distancia al centro de la distribucin.
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda slo nos revelan
una parte de la informacin que necesitamos acerca de las caractersticas de los datos. Para aumentar
nuestro entendimiento del patrn de los datos, debemos medir tambin su dispersin, extensin o
variabilidad.
La dispersin es importante porque:

1. Proporciona informacin adicional que permite juzgar la confiabilidad de la medida de tendencia
central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos
representativa de los datos.
2. Ya que existen problemas caractersticos para datos ampliamente dispersos, debemos ser capaces
de distinguir que presentan esa dispersin antes de abordar esos problemas.
3. Quiz se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia
dispersin de valores con respecto al centro de distribucin o esto presenta riesgos inaceptables,
necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las
dispersiones ms grandes.
Rango
Una medida razonable de la variabilidad podra ser la amplitud o rango, que se obtiene restando el
valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil de calcular y sus unidades
son las mismas que las de la variable, aunque posee varios inconvenientes:
No utiliza todas las observaciones (slo dos de ellas);
Se puede ver muy afectada por alguna observacin extrema;
El rango aumenta con el nmero de observaciones, o bien se queda igual. En cualquier caso nunca
disminuye.
79
Desviacin media
Se define la desviacin media como la media de las diferencias en valor absoluto de los valores de la
variable a la media, es decir, si tenemos un conjunto de n observaciones, x
1
, ..., x
n
, entonces
Si los datos estn agrupados en una tabla estadstica es ms sencillo usar la relacin
Como se observa, la desviacin media guarda las mismas dimensiones que las observaciones. La suma
de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente:
Desde el punto de vista geomtrico, la distancia que induce la desviacin media en el espacio de
observaciones no es la natural (no permite definir ngulos entre dos conjuntos de observaciones). Esto
hace que sea muy engorroso trabajar con ella a la hora de hacer inferencia a la poblacin.
Varianza
Para calcular la varianza de una poblacin, dividimos la suma de las distancias al cuadrado entre la
media y cada elemento de la poblacin entre el nmero total de observaciones de dicha poblacin.
= (x - )
2
/ N
= varianza de la poblacin.
x = elemento u observacin.
= media de la poblacin.
N = nmero total de elementos de la poblacin.
Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son
intuitivamente claras o fciles de interpretar. Por esta razn, tenemos que hacer un cambio significativo
en la varianza para calcular una medida til de la desviacin, que sea menos confusa. Esta medida se
conoce como la desviacin estndar, y es la raz cuadrada de la varianza. La desviacin estndar,
entonces, est en las mismas unidades que los datos originales.
La suma de los cuadrados de los desvos de la totalidad de las observaciones, respecto de la media
aritmtica de la distribucin, es menor que la suma de los cuadrados de los desvos respecto de
cualquier otro valor que no sea la media aritmtica.
Si observamos, veremos que la varianza no es ms que el desvo estndar al cuadrado. Precisamente la
manera de simbolizarla es .
Por lo mismo, el desvo estndar puede definirse como la raz cuadrada de la varianza
80
La varianza es una medida primaria de variabilidad utilizada en varias pruebas estadsticas. Su clculo
es simplemente elevar al cuadrado la desviacin estndar.
Desviacin estndar
La desviacin estndar es la medida de dispersin mas usada en estadstica, tanto en aspectos
descriptivos como analticos. En su forma conceptual, la desviacin estndar se define as:
Es posible identificar conjuntos de datos que a pesar de ser muy distintos en trminos de valores
absolutos, poseen la misma media. Una medida diferencial para identificar esos conjuntos de datos es
la concentracin o dispersin alrededor de la media.
Desviacin estndar para datos sin agrupar
Una manera que aparece como muy natural para construir una medida de dispersin sera promediar las
desviaciones de la media.
Una manera de evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que
todas las desviaciones sean positivas. La raz cuadrada del promedio de estas cantidades recibe el
nombre de desvo estndar, o desviacin tpica y es representada por la siguiente frmula:
La desviacin estndar slo puede utilizarse en el caso de que las observaciones se hayan medido con
escalas de intervalos o razones.
A mayor valor del coeficiente del desvo estndar, mayor dispersin de los datos con respecto a su
media. Es un valor que representa los promedios de todas las diferencias individuales de las
observaciones respecto a un punto de referencia comn, que es la media aritmtica. Se entiende
entonces que cuando este valor es ms pequeo, las diferencias de los valores respecto a la media, es
decir, los desvos, son menores y, por lo tanto, el grupo de observaciones es ms homogneo que si el
valor de la desviacin estndar fuera ms grande. O sea que a menor dispersin mayor homogeneidad y
a mayor dispersin, menor homogeneidad.
La raz cuadrada de un nmero positivo puede ser tanto positiva como negativa. Cuando tomamos la
raz cuadrada de la varianza para calcular la desviacin estndar, los estadsticos solamente consideran
la raz cuadrada positiva.
La desviacin estndar nos permite determinar, con un buen grado de precisin, dnde estn
localizados los valores de una distribucin de frecuencias con relacin a la media. El teorema de
Chebyshev dice que no importa qu forma tenga la distribucin, al menos 75% de los valores caen
81
dentro de + 2 desviaciones estndar a partir de la media de la distribucin, y al menos 89% de los
valores caen dentro de + 3 desviaciones estndar a partir de la media.
Con ms precisin:
Aproximadamente 68% de los valores de la poblacin cae dentro de + 1 desviacin estndar
a partir de la media.
Aproximadamente 95% de los valores estar dentro de + 2 desviaciones estndar a partir de
la media.
Aproximadamente 99% de los valores estar en el intervalo que va desde tres desviaciones
estndar por debajo de la media hasta tres desviaciones estndar por arriba de la media.
Resultado estndar:
La desviacin estndar es tambin til para describir qu tan lejos las observaciones individuales de
una distribucin de frecuencias se apartan de la media de la distribucin. Una medida que se conoce
como resultado estndar nos da el nmero de desviaciones estndar que una observacin en particular
ocupa por debajo o por encima de la media:
Resultado estndar = (x - ) /s
Clculo de la varianza y la desviacin estndar utilizando datos agrupados:
= f(x - )
2
/ N
= varianza de la poblacin.
x = punto medio de cada una de las clases.
= media de la poblacin.
N = nmero total de elementos de la poblacin.
f = frecuencia de cada una de las clases.
Desviacin estndar de una muestra:
Para calcular la varianza y la desviacin estndar de una muestra, utilizamos las mismas frmulas,
sustituyendo por y N con n 1.
s
2
= (x - )
2
/ (n 1)
Por qu utilizamos n 1 como denominador en lugar de N? Los especialistas en estadstica pueden
demostrar que si tomamos muchas muestras de una poblacin dada, si encontramos la varianza de la
muestra para cada muestra y promediamos los resultados, entonces este promedio no tiende a tomar el
valor de la varianza de la poblacin, a menos que tomemos n 1 como denominador de los clculos.
Coeficiente de variacin
Para comparar la dispersin de variables que aparecen en unidades diferentes (metros, kilos, etc.) o que
corresponden a poblaciones extremadamente desiguales, es necesario disponer de una medida de
82
variabilidad que no dependa de las unidades o del tamao de los datos. Este coeficiente nicamente
sirve para comparar las dispersiones de variables correspondientes a escalas de razn.
Una manera de construir una medida de variabilidad que cumpla los requisitos anteriores es el llamado
coeficiente de variacin.
El coeficiente de variacin es una medida relativa de dispersin que nos permite hacer comparaciones
de diferentes grupos con diferentes unidades de medida o diferentes magnitudes y obtener mejores
conclusiones.
Evidencia parcial
Ta. 5 En base a una muestra de datos y una tabla de frecuencias calcular amplitud o rango, desviacin
media, varianza, desviacin Estndar y coeficiente de variacin
Evaluacin parcial
Entrega de Ta.5
83
TEMA 3
Objetivo de aprendizaje.
3. Enunciar las ventajas y desventajas de las medidas de tendencia central y de dispersin
Criterio de Aprendizaje.
3.1 Analizar las medidas de tendencia central de un conjunto de datos de acuerdo a su naturaleza
Didctica de enseanza.
Pa.4 En base a un conjunto de datos calcular: media aritmtica, mediana y moda; elaborar tabla de
frecuencias y obtener: rango, desviacin media, desviacin estndar, varianza y coeficiente de
variacin.
Ventajas y desventajas de la media aritmtica.
La media aritmtica, en su carcter de un solo nmero que representa a un conjunto de datos completo,
tiene importantes ventajas:
Se trata de un concepto familiar para la mayora de las personas y es intuitivamente claro.
1. Cada conjunto de datos tiene una media, es una medida que puede calcularse y es nica debido
a que cada conjunto de datos posee una y slo una media.
2. Es til para llevar a cabo procedimientos estadsticos como la comparacin de medias de varios
conjuntos de datos.
Desventajas:
1. Puede verse afectada por valores extremos que no son representativos del resto de los datos.
2. Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato de
nuestro clculo.
3. Somos incapaces de calcular la media para un conjunto de datos que tiene clases de extremo
abierto, ya sea en el inferior o en el superior de la escala.
La media aritmtica, a menudo, puede mal interpretarse si los datos no entran en un grupo homogneo.
Ventajas y desventajas de la mediana:
Los valores extremos no afectan a la mediana tan intensamente como a la media. La mediana es fcil
de entender y se puede calcular a partir de cualquier tipo de datos incluso a partir de datos agrupados
con clases de extremo abierto a menos que la mediana entre en una clase de extremo abierto.
Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas, en lugar
de nmeros.
Ciertos procedimientos estadsticos que utilizan la mediana son ms complejos que aquellos que
utilizan la media. Debido a que la mediana es una posicin promedio, debemos ordenar los datos antes
de llevar a cabo cualquier clculo. Esto implica consumo de tiempo para cualquier conjunto de datos
que contenga un gran nmero de elementos. Por consiguiente, si deseamos utilizar una estadstica de
muestra para estimar un parmetro de poblacin, la media es ms fcil de usar que la mediana.
84
Ventajas y desventajas de la moda:
La moda, al igual que la mediana, se puede utilizar como una posicin central para datos tanto
cualitativos como cuantitativos.
Tambin, al igual que la mediana, la moda no se ve mayormente afectada por los valores extremos.
Incluso si los valores extremos son muy altos o muy bajos, nosotros escogemos el valor ms frecuente
del conjunto de datos como el valor modal. Podemos utilizar la moda sin importar qu tan grandes o
qu tan pequeos sean los valores del conjunto de datos, e independientemente de cul sea su
dispersin.
La podemos utilizar aun cuando una o ms clases sean de extremo abierto.
Muy a menudo, no existe un valor modal debido a que el conjunto de datos no contiene valores que se
presenten ms de una vez. En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta
el mismo nmero de veces. Otra desventaja consiste en que cuando los datos contienen dos, tres o ms
modas, resultan difciles de interpretar y comparar.
Comparacin entre la media, la mediana y la moda.
Cuando trabajamos un problema de estadstica, debemos decidir si vamos a utilizar la media, la
mediana o la moda como medidas de tendencia central. Las distribuciones simtricas que slo
contienen una moda, siempre tienen el mismo valor para la media, la mediana y la moda. En tales
casos, no es necesario escoger la medida de tendencia central, pues ya est hecha la seleccin.
En una distribucin positivamente sesgada (es decir, sesgada hacia la derecha), la moda todava se
encuentra en el punto ms alto de la distribucin, la mediana est hacia la derecha de la moda y la
media se encuentra todava ms a la derecha de la moda y la mediana.
En una distribucin negativamente sesgada, la moda sigue siendo el punto ms alto de la distribucin,
la mediana est hacia la izquierda de ella y la media se encuentra todava ms a la izquierda de la moda
y la mediana.
Cuando la poblacin est sesgada negativa o positivamente, con frecuencia la mediana resulta ser la
mejor medida de posicin, debido a que siempre est entre la moda y la media. La mediana no se ve
altamente influida por la frecuencia de aparicin de un solo valor como es el caso de la moda, ni se
distorsiona con la presencia de valores extremos como la media.
La seleccin de la media, la mediana o la moda, en ocasiones, depende de la prctica comn de una
industria en particular (salario medio de los obreros, precio mediano de una casa, familia modal para el
diseo de automviles).
85
Prctica 4
En base a un conjunto de datos calcular: media aritmtica, mediana y moda; elaborar tabla de
frecuencias y obtener: rango, desviacin media, desviacin estndar, varianza y coeficiente de
variacin.
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
1. Encuentre la media aritmtica, mediana y moda; elaborar tabla de frecuencias y obtener: rango,
desviacin media, desviacin estndar, varianza y coeficiente de variacin; de los siguientes conjuntos
de datos:
a) 3, 4, 4, 6, 6, 6, 8, 8, 12
b) 8, 40, 48, 62, 65, 65, 80, 83, 92
c) 27 30 25 34 30 32 26 31 29 30 32 30 33 32
25 33 34 27 30 31
d) Se evala la calidad de mermelada de guayaba, segn los expertos el mnimo puntaje para que una
mermelada fuese considerada de buena calidad era si calificaba con 169.5 puntos de 190 posibles
evalu los siguientes datos de 60 muestras analizadas.
161 161 162 162 165 165 165 165 165 165 166 166
168 168 169 169 169 169 169 169 170 170 170 170
170 170 170 171 171 171 171 171 171 171 171 172
172 172 172 172 172 172 175 175 175 175 176 176
177 177 178 180 180 181 181 185 185 185 189 189
86
TEMA 4
Objetivo de aprendizaje.
4. Definir el concepto de covarianza y correlacin
Criterio de Aprendizaje.
4.1. Practicar y analizar la covarianza y correlacin de dos muestras de datos y determinar si las dos
estn relacionadas.
Didctica de enseanza.
Pa. 5 Calcular y obtener covarianza y correlacin de un conjunto de datos.
Si observamos con atencin los trminos
vemos que las cantidades y van al cuadrado y por tanto no pueden ser negativas.
La covarianza , es una manera de generalizar la varianza y se define como:
Como se ve, la frmula es muy parecida a las de las varianzas. Es sencillo comprobar que se verifica la
siguiente expresin de , ms til en la prctica:
Proposicin
Si las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que
87
o lo que es lo mismo
Ejemplo
Se han clasificado 100 familias segn el nmero de hijos varones ( ) o hembras ( ), en la tabla
siguiente:
0 1 2 3 4

0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0
1. Hallar las medias, varianzas y desviaciones tpicas marginales.
2. Qu nmero medio de hijas hay en aquellas familias que tienen 2 hijos?
3. Qu nmero medio de hijos varones hay en aquellas familias que no tienen hijas?
4. Qu nmero medio de hijos varones tienen aquellas familias que a lo sumo tienen 2 hijas?
5. Hallar la covarianza
Solucin:
En primer lugar, definimos las variables X= nmero de hijos varones, e Y=nmero de hijas y
construimos la tabla con las frecuencias marginales, y con otras cantidades que nos son tiles en el
clculo de medias y varianzas:
y
1
y
2
y
3
y
4
y
5

88
0 1 2 3 4
4 6 9 4 1 24 0 0 0
5 10 7 4 2 28 28 28 44
7 8 5 3 1 24 48 96 62
5 5 3 2 1 16 48 144 63
2 3 2 1 0 8 32 128 40
23 32 26 14 5 100 156 396 209
0 32 52 42 20 146
0 32 104 126 80 342
de este modo, las medias marginales son
Calculamos despus las varianzas marginales
que nos dan directamente las desviaciones tpicas marginales,
El nmero medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribucin
condicionada de
n
3j
n
3j
y
j
89
7 0
8 8
5 10
3 9
1 4
24 31
Del mismo modo, el nmero medio de hijos varones de las familias sin hijas, se calcula con la
distribucin condicionada
n
i1
n
i1
x
i
4 0
5 5
7 14
5 15
2 8
23 42
El nmero medio de hijos varones en las familias que a lo sumo tienen dos hijas, se calcula usando las
marginales de la tabla obtenida a partir de las columnas y
1
, y
2
e y
3

n
i1
n
i2
n
i3
n
i1
+n
i2
+n
i3
(n
i1
+n
i2
+n
i3
) x
i
4 6 9 19 19
90
5 10 7 22 22
7 8 5 20 40
5 5 3 13 39
2 3 2 7 28
81 129
La covarianza es:
91
Prctica 5 Calcular y obtener covarianza y correlacin de un conjunto de datos.
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
1) Las siguientes notas, son las calificaciones de 25 alumnos en las asignaturas de Matemticas y
Termodinmica:
B 4 5 5 5 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9 9 9 9 1
0
Q 3 5 5 6 7 7 7 7 7 7 8 8 8 7 7 8 8 8 8 8 8 8 1
0
1
0
1
0
a) Obtener la tabla de frecuencias conjunta.
b) Qu proporcin de alumnos obtienen ms de un cinco en ambas asignaturas? Qu
proporcin de alumnos obtienen ms de un cinco en Matemticas? Y en Termodinmica?
c) Son independientes las calificaciones en Termodinmica y en Matemticas?
d) Representa grficamente, comenta el resultado.
e) Hallar el coeficiente de correlacin.
2) Para realizar un estudio sobre la utilizacin de una impresora en un determinado departamento se
midi en un da los minutos transcurridos entre las sucesivas utilizaciones (X) y el nmero de pginas
impresas (Y), obtenindose los siguientes resultados:
X 9 9 4 6 8 9 7 6 9 9 9 8 8 9 8 9
Y 3 8 3 8 3 8 8 8 3 8 12 12 8 8 8 12
X 9 9 10 9 15 10 12 12 10 10 12 10 10 12 12 10
Y 12 20 8 20 8 8 20 8 8 12 8 20 20 3 3 20
a) Escribir la distribucin de frecuencias conjunta. Cul es el porcentaje de veces que transcurre ms
de nueve minutos desde la anterior utilizacin y se imprimen menos de doce pginas? Cuntas veces
se imprimen menos de doce pginas y transcurren nueve minutos desde la anterior utilizacin?
b) Frecuencias marginales. Cuntas veces se imprimen como mucho doce pginas? Cuntas pginas
como mximo se imprimen en el 80% de las ocasiones?
c) Hallar la distribucin de frecuencias del nmero de pginas impresas condicionada a que han
transcurrido nueve minutos entre sucesivas utilizaciones.
d) Dibujar el diagrama de dispersin.
3) De la distribucin bidimensional (x
i
,y
i
,n
ij
) se sabe que para 100 observaciones:


ij
ij j i j j i i
n y x n y n x 6000 1000 . 50
.
a) Cunto vale la covarianza entre X e Y?
b) Y la covarianza de (U,Z), si se tiene que X=
2
4 3 + U
y
2
3 2 +

Z
Y
92
4) Las estaturas y pesos de los 50 nios nacidos en una maternidad durante una semana fueron los
siguientes:
E 50 51 53 50 51 48 50 49 52 52 49 50 52 51 52 49
P 3.2 4.1 4.5 3 3.6 2.9 3.8 3.8 3.6 3.9 3 3.8 4.1 3.5 4.0 3.1
50 51 50 51 52 53 52 52 51 50 51 54 50 51 51 51 52
3.1 4.3 3.3 3.9 3.7 4.1 4.2 3.5 3.8 3.6 3.4 4.6 3.5 3.6 3.1 4 3.8
51 52 51 50 51 49 51 48 50 52 53 52 50 52 51 51 51
4.2 4 4.4 3.9 3.7 3.4 3.3 2.7 3.4 3.6 4.4 4.3 3.3 4.2 4.2 3.3 3.7
a) Constryase una tabla de doble entrada, agrupando los pesos en intervalos de 0.5 kg.
b) Es la estatura independiente del peso?
5) En el examen de una asignatura que consta de parte terica y parte prctica, las calificaciones de
nueve alumnos fueron:
Teora 5 7 6 9 3 1 2 4 6
Prcti
ca
6 5 8 6 4 2 1 3 7
Calcular la covarianza y el coeficiente de correlacin lineal. Dibujar la nube de puntos. Comentar los
resultados.
6) Se desea investigar el ganado caprino y el ganado ovino de un pas. En la tabla de doble entrada
adjunta se presentan los resultados de un estudio de 100 explotaciones ganaderas, seleccionadas
aleatoriamente del censo agropecuario. Se proporcionan las frecuencias conjuntas del nmero de
cabezas (en miles) de cabras (X) y ovejas (Y) que poseen las explotaciones.
X\
Y
0 1 2 3 4
0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0
a) Hallar las medias, varianzas y desviaciones tpicas marginales.
b) Hallar el nmero medio de ovejas condicionado a que en la explotacin hay 2000 cabras.
c) Hallar el nmero medio de cabras que tienen aquellas explotaciones que sabemos que no tienen
ovejas.
d) Hallar la covarianza y el coeficiente de correlacin entre ambas variables.
93
7) Se realiza una prueba a 20 aspirantes a un puesto de grabador consistente en un dictado con cierto
tiempo de duracin (en minutos, que ser variable para cada aspirante) y luego contar el nmero de
errores cometidos al transcribirlo a un ordenador. Los resultados fueron:
T 7 6 5 4 5 8 7 8 9 6 5 8 6 8 7 8 7 6 6 9
Er
r
8 7 6 6 7 10 9 9 10 8 6 10 8 9 8 8 7 8 6 8
a) Construir la tabla de correlacin.
b) Para la variable tiempo calcular: media, mediana, moda, recorrido, recorrido intercuartlico y
coeficiente de variacin.
c) Covarianza.
d) Nmero medio de errores de los aspirantes sometidos a un dictado de 6 minutos.
e) Porcentaje de aspirantes que cometen menos de 8 errores de entre los que son sometidos a un
dictado de ms de 6 minutos.
8) La siguiente tabla muestra la talla de calzado y los pesos de 55 estudiantes:
Talla 39 40 40 40 41 41 41 41 42 42 42 42 43 43 44
Peso 55 60 65 70 60 65 70 85 65 70 75 80 65 75 85
Nestud
ia.
1 3 3 4 3 4 6 1 8 8 7 2 2 1 2
a) Calcular la tabla de doble entrada de la distribucin conjunta (tabla de correlacin).
b) Calcula la distribucin del peso condicionado a una talla de 42. Para esta distribucin condicionada
calcula: mediana, tercer cuartil y nonagsimo percentil.
c) Son independientes el peso y la talla de calzado?
d) Determina la covarianza.
9) Se trat a 5 enfermos de hepatitis con un mismo frmaco, variando el tratamiento en las cantidades
diarias suministradas. Medido el nmero de das que cada enfermo tard en sanar, se tiene:
mg. de
frmaco
10 20 30 40 50
Das en
sanar
200 180 150 120 100
Calcular la covarianza entre estas dos variables.
94
CAPITULO4
MODELOSPROBABILSTICOS
INTRODUCCIN
Probabilidad, rama de las matemticas que se ocupa de medir o determinar cuantitativamente la
posibilidad de que ocurra un determinado suceso. La probabilidad est basada en el estudio de la
combinatoria y es fundamento necesario de la estadstica.
La definicin de variable aleatoria permite el uso de un lenguaje comn que ayuda a entender de
una forma sistemtica los experimentos aleatorios. En la medida en que se analizan distintos
tipos de experimentos aleatorios se comienza a notar que el comportamiento de muchos de ellos
es bastante similar entre s. Comienzan a repetirse caractersticas de una variable aleatoria a
otra lo que conlleva a continuar la sistematizacin del anlisis al verificar esas caractersticas
comunes. Este anlisis lleva a definir modelos probabilsticos particulares que permiten explicar
fenmenos aleatorios que tienen un comportamiento similar entre s.
Un modelo es una simplificacin de la realidad. Un modelo probabilstico es un modelo
matemtico que describe el comportamiento de una variable aleatoria. Es una funcin que
depende de los valores de la variable aleatoria, y de otras cantidades que caracterizan a una
poblacin en particular y que se denominan parmetros del modelo.
OBJETIVO Y CRITERIOS DE APRENDIZAJE Pgina
1. Definir los conceptos de variable aleatoria, parmetros funcin y distribucin de
probabilidades.
1.1. Ilustrar los conceptos de variable aleatoria, parmetros funcin y distribucin de
probabilidades.
97
97
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
1.1.1. Diferenciar los conceptos de variable aleatoria, parmetros funcin y
distribucin de probabilidades.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
2. Definir las variables aleatorias continuas y discretas.
2.1. Ilustrar las variables aleatorias continuas y discretas.
97
97
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
2.1.1. Diferenciar las variables aleatorias continuas y discretas.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
3. Definir los conceptos y expresar las funciones de probabilidad: uniforme, binomial,
hipergeomtrica y Poisson.
3.1. Calcular mediante tablas de esas distribuciones discretas un conjunto de datos.
102
102
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
3.1.1. Analizar los resultados obtenidos del clculo mediante tablas de esas
distribuciones discretas un conjunto de datos
95
OBJETIVO Y CRITERIOS DE APRENDIZAJE
4. Describir las consideraciones para elegir un modelo probabilstico discreto
4.1. Seleccionar el modelo probabilstico discreto de acuerdo a la naturaleza de un
conjunto de datos.
102
102
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
4.1.1. Analizar el modelo probabilstico discreto seleccionado para un conjunto de
datos.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
5. Definir y expresar la distribucin de probabilidades: Normal, Ji cuadrada, t de
student y F.
5.1. Calcular mediante tablas de distribuciones continuas, la probabilidad de la
ocurrencia de un evento.
108
108
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
5.1.1. Analizar los resultados obtenidos del clculo mediante tablas de distribuciones
continuas, la probabilidad de la ocurrencia de un evento.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
6. Describir las circunstancias en que se elige un modelo probabilstico continuo.
6.1. Seleccionar el modelo probabilstico continuo de acuerdo a la naturaleza de un
conjunto de datos.
108
108
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
6.1.1. Analizar el modelo probabilstico continuo de acuerdo a la naturaleza de un
conjunto de datos.
DEMOSTRACIN DE HABILIDADES FINALES
Ta.6 Establezca cinco ejemplos relacionados con un experimento aleatorio discreto.
Ta.7 Solucin de ejercicio
Pa.6 Determine la probabilidad de que uno de estos dispositivos seleccionados al azar
contenga del ejercicio dado.
101
107
110
96
TEMA 1
Objetivo de aprendizaje.
1. Definir los conceptos de variable aleatoria, parmetros funcin y distribucin de probabilidades.
Criterio de Aprendizaje.
1.1. Ilustrar los conceptos de variable aleatoria, parmetros funcin y distribucin de probabilidades.
Didctica de enseanza.
TEMA 2
Objetivo de aprendizaje.
2. Definir las variables aleatorias continuas y discretas.
Criterio de Aprendizaje.
2.1. Ilustrar las variables aleatorias continuas y discretas.
Didctica de enseanza.
Ta. 6 Establezca cinco ejemplos relacionados con un experimento aleatorio discreto.
El modelo uniforme discreto es una variable aleatoria donde todos sus valores tienen igual
probabilidad de ocurrencia.
El modelo uniforme continuo es una variable aleatoria donde la probabilidad de que un evento ocurra
en un intervalo de ancho t es proporcional a ese intervalo.
La variable aleatoria se define al asignar a cada evento elemental un nmero entero. La numeracin de
los posibles valores de la variable se inicia en uno y termina en el nmero n de eventos elementales
asociados al experimento aleatorio.
En la presente unidad se pretende que el alumno adquiera la habilidad del manejo de las anteriores
herramientas estadsticas.
Variable Aleatoria:
Es aquella que al tener una funcin se asigna un nmero real a cada resultado en el espacio muestral de
un experimento aleatorio.
Una variable aleatoria es el resultado numrico de un experimento aleatorio. Por ejemplo, podemos
considerar X el nmero resultante de tirar un dado; o podemos tirar 6 dados y tomar X como la suma de
los seis valores resultantes. La distribucin de una variable aleatoria es la coleccin de posibles
resultados con sus probabilidades asociadas. Esto puede ser descrito por una tabla, una formula, o un
histograma de probabilidades
Si repetimos un experimento muchas veces, podremos calcular el histograma de frecuencias, el cual es
un grafico de barra que muestra el nmero de veces que cada valor de X fue observado. Esto debera
darnos una aproximacin del histograma de probabilidades.
Ejemplo.
97
Probabilidades para n Dados.
Supongamos que tiramos seis n dados regulares balanceados. Si X es la suma de los valores que
aparecen en los n dados, Que son las probabilidades asociadas a cada valor de X dentro de los posibles
valores de X = n , ... , 6n?
En el caso de n=1, esas posibilidades son todas 1/6. Para dos dados, es ms fcil considerar una tabla
con los posibles resultados:
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
Ahora, podemos considerar la suma asociada a esos resultados:
2 3 4 5 6 7
3 4 5 6 7 8
4 5 6 7 8 9
5 6 7 8 9 10
6 7 8 9 10 11
7 8 9 10 11 12
Como hay 36 resultados posibles, todos igualmente probables, podemos ver que las probabilidades son:
X frecuencia P(X)
2 1 1/36
3 2 2/36
4 3 3/36
5 4 4/36
6 5 5/36
7 6 6/36
8 5 5/36
9 4 4/36
10 3 3/36
11 2 2/36
12 1 1/36
98
Si hubiera ms de dos dados, hacer tablas como las anteriores es difcil. El nmero de posibles
resultados seria 6
n
, sin embargo basta contar el nmero de veces que cada suma se da entre los 6
n
posibles resultados para calcular la probabilidad de cada suma. Esto es fcil de hacer si consideramos la
funcin generadora para el nmero de veces que cada suma aparece:
f(x) = (x + x
2
+ x
3
+ x
4
+ x
5
+x
6
)
n
Por Ejemplo, para n=2 se tiene que:
(x + x
2
+ x
3
+ x
4
+ x
5
+x
6
)
2
= x
2
+2x
3
+3x
4
+4x
5
+5x
6
+6x
7
+5x
8
+4x
9
+3x
10
+2x
11
+x
12
El coeficiente de x
n
es el nmero de veces que la i-sima suma se da.
Ejercicio.
Probabilidades para n mondas con dos caras guila o sol que son definidas por valor 1 y 2
respectivamente. Supongamos que tiramos cinco n monedas. Si X es la suma de los valores que
aparecen en los n monedas, Que son las probabilidades asociadas a cada valor de X dentro de los
posibles valores de X = n, ... , 5n?
En el caso de n =2, esas posibilidades son todas 1/5. Considere una tabla con los posibles resultados.
Determine la posibilidad de que se obtenga la suma asociada a esos resultados y determine las
propiedades del cada evento.
Variable Aleatoria:
Es aquella que al tener una funcin se asigna un nmero real a cada resultado en el espacio muestral de
un experimento aleatorio.
Existen Variables continuas y Variables discretas.
Variables discretas:
Son aquellas que toman determinado valor exacto como: El No. De hijos de una familia.
Variable Continua :
Es un rango que puede concebirse como un continuo de valores.
Parmetros: cantidades que aparecen en la formulacin de un modelo, relacionadas con las
propiedades de la variable aleatoria en estudio.
Modelo o distribucin de probabilidades: funcin que distribuye probabilidades entre los valores de
una variable aleatoria.
Variables aleatorias continuas y discretas.
99
Una variable aleatoria es una funcin que asigna un nmero real a cada resultado en el espacio
muestral de un experimento aleatorio.
Las variables aleatorias se denotan con una letra mayscula, tal como X , y con una letra minscula,
como
x
, el valor posible de X . El conjunto de los posibles valores de la variable aleatoria X
recibe el nombre de rango de X .
Una variable aleatoria discreta es una variable aleatoria con un rango finito.
Ejemplo:
Se evala un nuevo proceso para la fabricacin de partes moldeadas en plstico en trminos de la
coloracin y reduccin de tamao. Una de las primeras corridas del proceso proporciona la informacin
para el espacio muestral y las probabilidades que aparecen en la siguiente tabla:
Coloracin Reduccin de tamao Probabilidad
aprobado aprobado 0.64
aprobado inaceptable 0.16
inaceptable aprobado 0.16
inaceptable inaceptable 0.04
Supngase que el inters recae en resumir los resultados de este experimento aleatorio con el nmero
de caractersticas (de coloracin y reduccin de tamao) que son aprobadas. Por lo cual, se define una
variable aleatoria, X , para ser igual al nmero de caractersticas aprobadas.
La cuarta columna de la siguiente tabla, contiene los valores de X asignados a cada resultado del
experimento. Por ejemplo al resultado (aprobado, aprobado) se le ha asignado 2 x .
Coloracin Reduccin de tamao Probabilidad x
aprobado aprobado 0.64 2
aprobado inaceptable 0.16 1
inaceptable aprobado 0.16 1
inaceptable inaceptable 0.04 0
En todos los procesos productivos las caractersticas del producto deben ser medidas para asegura que
el producto cuenta con las caractersticas especificadas en su diseo. En la prctica pueden presentarse
pequeas variaciones en las longitudes medidas, por muchas causas, tales como vibraciones,
fluctuaciones de temperatura, diferencias entre quienes toman las mediciones, calibraciones, desgaste
en la herramienta de corte, desgaste en los cojinetes y cambios en la materia prima. Incluso el
procedimiento de medicin puede producir variaciones en los resultados finales.
En estos tipos de experimentos, las mediciones de inters la corriente en el alambre de cobre, la
longitud de una parte maquinada puede representarse con una variable aleatoria. Es razonable modelar
el rango de los avalores posibles de la variable aleatoria con un intervalo (finito o infinito) de nmeros
reales. Por ejemplo, para la longitud de una parte maquinada, este modelo permite que las mediciones
del experimento produzcan cualquier valor dentro de un intervalo de nmeros reales. Dado que el rango
es cualquier valor en el intervalo, el modelo es adecuado para cualquier precisin utilizada al efectuar
las mediciones. Sin embargo, como el nmero de valores posibles de la variable aleatoria X es infinito
no contable, X tiene una distribucin muy diferente de las de las variables aleatorias discretas
estudiadas en el captulo anterior. El rango de X incluye todos los valores contenidos en un intervalo
100
de nmeros reales; esto es, el rango de X puede concebirse como un continuo de valores. En
consecuencia, se tiene la siguiente definicin.
Evidencia parcial
Ta. 6 Establezca cinco ejemplos relacionados con un experimento aleatorio discreto.
Evaluacin parcial
Entrega de Ta.6
101
TEMA 3
Objetivo de aprendizaje.
3. Definir los conceptos y expresar las funciones de probabilidad: uniforme, binomial, hipergeomtrica
y Poisson.
Criterio de Aprendizaje.
3.1. Calcular mediante tablas de esas distribuciones discretas un conjunto de datos.
Didctica de enseanza.
TEMA 4
Objetivo de aprendizaje.
4. Describir las consideraciones para elegir un modelo probabilstico discreto
Criterio de Aprendizaje.
4.1. Seleccionar el modelo probabilstico discreto de acuerdo a la naturaleza de un conjunto de datos.
Didctica de enseanza.
Pa.6 Determine la probabilidad de que uno de estos dispositivos seleccionados al azar, contenga el
ejercicio dado.
Modelo Uniforme.
Al analizar un experimento aleatorio en el cual el espacio muestral es un conjunto discreto y finito y
utilizar la definicin clsica de probabilidades para el proceso de asignacin de probabilidades a los
eventos elementales, se concluye que todos ellos tienen igual probabilidad dada por el inverso del
nmero de eventos elementales. Esta es la base de la definicin de un modelo uniforme discreto.
El modelo uniforme discreto es una variable aleatoria donde todos sus valores tienen igual
probabilidad de ocurrencia. La numeracin de los posibles valores de la variable se inicia en uno y
termina en el nmero n de eventos elementales asociados al experimento aleatorio. La regla de
asignacin se indica en la siguiente ecuacin.
1
El modelo uniforme discreto se denotar como UD(n). La asignacin de probabilidades de cada valor
de la variable est dada por la ecuacin.
2
Como consecuencia de la Ecuacin 2, la funcin de distribucin acumulativa de probabilidades, la
funcin de densidad de probabilidades y la funcin de probabilidad vienen dadas por las ecuaciones 3,
4 y 5, respectivamente.
102
3
4
5
La siguiente tabla muestra los valores esperados ms importantes correspondientes al modelo uniforme
discreto.
Valores Esperados ms Importantes para el Modelo Uniforme Discreto.
Ejercicio: Considere el experimento aleatorio de lanzar una moneda honesta. Si al resultado sello se
le asigna el valor uno y al resultado cara se le asigna el valor dos entonces la variable aleatoria
definida se corresponde con el modelo uniforme discreto n = 2.
Ejercicio: Considere la variable aleatoria definida para el experimento aleatorio de lanzar un dado
honesto. Esta variable corresponde al modelo uniforme discreto con n = 6.
Distribucin binomial.
Un proceso de manufacturas electrnicas produce miles de diodos diariamente. En promedio, el 1% de
estos diodos no se apega a las especificaciones. Cada hora, un inspector selecciona una muestra
aleatoria de 50 diodos y los clasifica como conformes o disconformes. Sea x la variable aleatoria que
representa el nmero de piezas con disconformidad en la muestra; entonces la distribucin de
probabilidad de x es:
( ) ( )
x n x
p p
x
n
x p

,
_

1
n x ... 2 , 1 , 0
103
( ) ( ) ( )
x x
x
x p

,
_

50
99 . 0 01 . 0
50
50 ... 2 , 1 , 0 x
Donde
( )! 50 !
! 50
50
x x x

,
_

que es el nmero de combinaciones de 50 partes tomadas x cada vez. Esta


es una distribucin discreta, ya que el nmero observado de disconformidades es
50 ... 2 , 1 , 0 x
y se
denomina distribucin binmica o binomial.
Podemos calcular la probabilidad de encontrar a lo ms una pieza disconforme en la pieza:
( ) ( ) ( ) 1 0 1 + x p x p x p
( ) ( ) 1 0 p p +
( ) ( )

,
_

1
0
50
99 . 0 01 . 0
50
x
x x
x
( ) ( ) ( ) ( )
49 1 0 50
99 . 0 01 . 0
! 49 ! 1
! 50
01 . 0 99 . 0
! 50 ! 0
! 50
+
9106 . 0 3056 . 0 6050 . 0 +
% 06 . 91 De encontrar 1 o no encontrar ninguna.
Distribucin Exponencial
La variable aleatoria X que es igual a la distancia entre ocurrencias sucesivas de un proceso Poisson
con media 0 > , tiene una distribucin exponencial con parmetro . La funcin de densidad de
probabilidad de X es:
( ) , ;
x
x
x f




Para < x 0
La distribucin exponencial obtiene su nombre de la funcin exponencial que aparece en la funcin de
densidad de probabilidad. Para cualquier valor de la distribucin exponencial tiene mucho sesgo. Los
resultados siguientes se obtienen con facilidad y la deduccin de stos se deja como ejercicio.
Si la variable aleatoria X tiene una distribucin exponencial con parmetro , entonces
( )

1
X E
Y ( )
2
1

X V
Ejemplo:
La vida til de un foco es una variable exponencial con un promedio de 500 hrs. Calcula la
probabilidad de que la vida de un foco cualquiera:
a) Este entre 400 y 700 hrs.
104


500
1

( )
( )
7534 . 0 1 700
700
500
1


e F
( )
( )
5506 . 0 1 400
400
500
1


e F
( ) ( ) ( ) 2028 . 0 5506 . 0 7534 . 0 400 700 700 400 < < F F x p
La probabilidad de que el foco dure entre 400 y 700 hrs. Es de 20.28%
b) Sea menor que el promedio.
500
1

( )


<
500
0
) 500 dx e x p
x

( ) ( )
1
]
1


1
]
1


0
500
1
500
500
1
1 1 e e
=0.6321-0
=0.6321
Ejercicio
La vida de anaquel de producto enlatado es exponencial en funciona al tratamiento trmico que se
aplique en el proceso. La vida de anaquel es una variable exponencial con un promedio de 520 das.
Calcula la probabilidad de que la vida de anaquel de cualquier producto enlatado:
1. Que se ubique entre 450 y 800 das.
2. Que sea menor que el promedio.
La probabilidad de que un foco dure menos que el promedio (500 hrs. ) es de 63.21%
Distribucin de Poisson
Una aplicacin clsica de la distribucin de Poisson en el control de calidad es como un modelo del
nmero de defectos o disconformidades que ocurren en una unidad del producto por ejemplo,
supngase que el nmero de defectos por unidad en las conexiones de conductores en un dispositivo
electrnico de semiconductores tiene distribucin de Poisson, con parmetro = 4 (o sea 4 defectos en
promedio cada unidad). Entonces, la probabilidad de que uno de estos dispositivos seleccionados al
azar contenga 2 defectos o menos (incluso ninguno) es:
( ) ( ) ( ) ( ) 2 1 0 2 p p p x p + +
105
( ) .... 2 , 1 , 0
!

x
x
e
x p
x



2
( ) 0183156 . 0
! 0
4
0
0

e
p
x P(x)
0 0.0183
1 0.0733
2 0.1465
3 0.1954
4 0.1954
5 0.1563
6 0.1042
7 0.0595
8 0.0298
9 0.0132
10 0.0053
11 0.0019
12 0.0006
13 0.0002
14 0.0000
15 0.0000
16 0.0000
. 0.0000
. 0.0000
. 0.0000
Existe 23.81% de probabilidad de encontrar dos, uno o ninguno.
106
Resultado .2381
Prctica 6
Determine la probabilidad de que uno de estos dispositivos seleccionados al azar, contenga el ejercicio
dado.
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
En una agroindustria seleccionadora de manzana se aplico el control de calidad es como un modelo del
nmero de defectos o disconformidades que ocurren en una unidad del empaque, supngase que el
nmero de defectos por caja tiene distribucin de Poisson, con parmetro = 2 (o sea 2 defectos en
promedio cada unidad).
1. Determine la probabilidad de que uno de estos dispositivos seleccionados al azar contenga 2.
107
TEMA 5
Objetivo de aprendizaje.
5. Definir y expresar la distribucin de probabilidades: Normal, Ji cuadrada, t de student y F.
Criterio de Aprendizaje.
5.1. Calcular mediante tablas de distribuciones continuas, la probabilidad de la ocurrencia de un evento.
Didctica de enseanza.
TEMA 6
Objetivo de aprendizaje.
6. Describir las circunstancias en que se elige un modelo probabilstico continuo.
Criterio de Aprendizaje.
6.1. Seleccionar el modelo probabilstico continuo de acuerdo a la naturaleza de un conjunto de datos.
Didctica de enseanza.
Ta.7 Solucin de ejercicio
Distribucin Normal
Sin lugar a dudas, la distribucin ms utilizada para modelar experimentos aleatorios es la distribucin
normal. Esta distribucin puede obtenerse al considerar el modelo bsico de una variable aleatoria
binomial cuando el nmero de ensayos se vuelve cada vez ms grande. Este fue el enfoque original
seguido por De Moivre en 1733. Desafortunadamente, su trabajo se perdi por algn tiempo, y Karl
Gauus Desarroll, de manera independiente, la distribucin normal casi cien aos despus. Aunque
ms tarde se dio crdito a De Moivre, la distribucin normal tambin se conoce como distribucin
Gaussiana.
Una variable aleatoria X con funcin de densidad de probabilidad normal:
( )
2
2
1
2
1

,
_


x
e x f

< < x
Ejemplo.
La resistencia a la tensin del papel utilizado en la fabricacin de bolsas para las compras es una
caracterstica de calidad importante, se sabe que la resistencia (x) tiene distribucin normal, con media
2
lg
40
p
lb

(psi, del ingls poud per square inch) y desviacin estndar 2
lg
2
p
lb

, lo que se
denota por ( )
2
2 , 40 N x . El comprador de las bolsas necesita una resistencia de por lo menos
2
lg 35 p lbs . La probabilidad de que una bolsa producida con este papel satisfaga o exceda esta
especificacin es
{ } 35 x p
. Ntese que

{ } { } 35 1 35 x p x p
108
Para evaluar esta probabilidad a partir de las tablas de distribucin estndar hay que estandarizar el
punto 35 y se encuentra que:
{ }

'


2
40 35
35

x
z p x p
{ } 5 . 2 z p
( ) 25
0062 . 0
Por consiguiente la probabilidad buscada es
{ } { } 9938 . 0 0062 . 1 35 1 35 x p x p
La probabilidad de que una bolsa exceda las 2
lg
35
p
lbs
es de 99.38%
Ejercicio.
Un parmetro a evaluar como control de calidad en los empaque de manzana Red Deliciuos la textura.
Mediante un penetrmetro se sabe que la resistencia (x) tiene distribucin normal, con media
2
lg
40
p
lb

(psi, del ingls poud per square inch) y desviacin estndar 2
lg
2
p
lb

, lo que se
denota por ( )
2
2 , 40 N x . El comprador de manzana necesita una resistencia de por lo menos 38
lb/plg
2
. Determine la probabilidad de que una manzana empacada satisfaga o exceda esta
especificacin.
Distribucin T-Student
Supngase que se toma una muestra de una poblacin normal con media

y varianza
2
. Si X es
el promedio de las n observaciones que contiene la muestra aleatoria, entonces la distribucin de
( ) ( ) n X Z / / es una distribucin normal estndar. Supngase que la varianza de la poblacin
2
es desconocida. Qu sucede con la distribucin de esta estadstica si se reemplaza

por S? La
distribucin t proporciona la respuesta a esta pregunta.
Sea <Z una variable aleatoria con distribucin N(0,1) y V una variable aleatoria jicuadrada con k
grados de libertad. Si Z y V son independientes, entonces la variable aleatoria
K V
Z
T
/

Tiene la funcin de densidad de probabilidad


( )
( ) [ ]
( )
( ) [ ]
( ) 2 / 1
2
1 /
1
2 /
2 / 1
+
+

k
k x
k k
k T
x f


< < x
y se dice que sigue la distribucin t con k grados de libertad, lo que se abrevia como k
t
.
109
La media y la varianza de la distribucin t son

= 0 y ( ) 2 /
2
k k para que k>2, respectivamente.
Ejemplo:
Un qumico afirma que el rendimiento medio de la poblacin de cierto proceso en lotes es 500 gramos
por milmetro de materia prima. Para verificar esta afirmacin muestrea 25 lotes cada mes. Si el valor
t calculado cae entre 05 . 0
t
y 05 . 0
t
, queda satisfecho con su afirmacin. Qu conclusin
extraera de una muestra que tiene una media 518 x gramos por milmetro y una desviacin estndar
muestral 40 s gramos? Suponga que la distribucin de rendimientos es aproximadamente normal.
De las tablas se extrae el valor
711 . 1
05 . 0
t
para 24 grados de libertad. Por tanto, el fabricante queda
satisfecho con esta afirmacin si una muestra de 25 lotes rinde un valor t entre 1.711 y 1.711. Si
500
, entonces,
25 . 2
25 / 40
500 518

t
un valor muy por arriba de 1.771. La probabilidad de obtener un valor t , con 24 v , igual o mayor
que 2.25 es aproximadamente 0.02. Si
500 >
, el valor de t calculado de la muestra sera ms
razonable. De aqu que es probable que el fabricante concluya que el proceso produce un mejor
producto del que piensa.
Ta.7 Solucin de ejercicio
En una agroindustria de lcteos se realiza un anlisis de acidez a leche caliente (recin ordeada). El
resultado arroja una acidez expresada en Dornikc superior a 18. Lo que indica que la materia prima
esta altamente contaminada y disminuirn en medida correctiva el precio a los productores. Para
verificar esta afirmacin los productores muestrea 25 lotes cada mes. Si el valor t calculado cae entre
05 . 0
t
y 05 . 0
t
, queda satisfecho con su afirmacin. Qu conclusin extraera de una muestra que
tiene una media 19 D y una desviacin estndar muestra 3 2 D. A que conclusin llegara si la
distribucin de acidez es aproximadamente normal?
110
CAPITULO5
PRUEBASDEHIPTESIS
INTRODUCCIN
A menudo, el problema que enfrenta el cientfico o el ingeniero no es
tanto la estimacin de un parmetro poblacional, sino ms bien la
formacin de un procedimiento de decisin que se base en los datos que
pueda producir una conclusin acerca de algn sistema cientfico. Por
ejemplo, un investigador mdico puede decidir sobre la base de
evidencia experimental si beber caf aumenta el riego de cncer en
humanos; un ingeniero puede tener que decidir sobre la base de datos
muestrales si hay una diferencia entre la precisin de dos tipos de
medidores; o un socilogo puede desear reunir los datos apropiados que
le permitan decidir si el tipo sanguneo de una persona y el color de los
ojos son variables independientes. En cada uno de estos casos el
cientfico o el ingeniero postula o conjetura algo acerca de un sistema.
Adems, cada uno debe incluir el uso de datos experimentales y la toma
de decisiones basadas en stos. De manera formal, en cada caso, la
conjetura se puede poner en forma de hiptesis estadstica. Los
procedimientos que conducen a la aceptacin o rechazo de hiptesis
estadsticas como stas comprenden un rea principal de la inferencia
estadstica y son los que y trataremos en la presente unidad.
OBJETIVO Y CRITERIOS DE APRENDIZAJE Pgina
1. Describir la naturaleza de una prueba de hiptesis y los tipos de hiptesis: una y
dos colas.
1.1. Practicar las pruebas de hiptesis, clasificarlas y esbozar el procedimiento de
contrastabilidad.
113
113
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
1.1.1. Diferenciar las pruebas de hiptesis, clasificarlas y esbozar el procedimiento de
contrastabilidad.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
2. Ilustrar los errores tipo I y II que se pueden presentar al aceptar o rechazar una
hiptesis.
2.1. Demostrar los errores tipo I y II que se pueden presentar al aceptar o rechazar
una hiptesis
113
113
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
2.1.1. Diferenciar los errores tipo I y II que se pueden presentar al aceptar o
rechazar una hiptesis.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
3. Describir el procedimiento para realizar prueba de hiptesis sobre la media de una
distribucin normal y los casos en los que se emplea esta prueba.
3.1. Practicar pruebas de hiptesis sobre la media de una muestra de datos, as como
118
118
111
el procedimiento de prueba para aceptar o rechazar la hiptesis e interpretar los
resultados.
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
3.1.1. Aplicar pruebas de hiptesis sobre la media de una muestra de datos, as como
el procedimiento de prueba para aceptar o rechazar la hiptesis e interpretar los
resultados.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
4. Describir el procedimiento para realizar prueba de hiptesis sobre la varianza de
una distribucin normal y los casos en que se emplea esta prueba.
4.1. Practicar el procedimiento para realizar prueba de hiptesis sobre la varianza de
una distribucin normal y los casos en que se emplea esta prueba.
123
123
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
4.1.1. Aplicar el procedimiento para realizar prueba de hiptesis sobre la varianza de
una distribucin normal y los casos en que se emplea esta prueba.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
5. Describir el procedimiento de la prueba de hiptesis sobre p de una muestra de
datos de una distribucin binomial y los casos en que se emplea esta prueba.
5.1 Practicar el procedimiento de la prueba de hiptesis sobre p de una muestra de
datos de una distribucin binomial y los casos en que se emplea esta prueba.
126
126
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
5.1.1. Aplicar el procedimiento de la prueba de hiptesis sobre p de una muestra de
datos de una distribucin binomial y los casos en que se emplea esta prueba.
DEMOSTRACIN DE HABILIDADES FINALES
Ta.8 Defina hiptesis nulas y hiptesis alternas en funcin de cinco ejemplos de
control estadstico en alguna agroindustria. Adems considere las opciones de error
tipo I y error tipo II.
Ta.9 Realizar el ejercicio, probando la hiptesis.
In 1 y Ta.10 Investigar y desarrollar, tres ejercicios relacionados con el control de
calidad aplicado a la agroindustria, donde se aplique prueba de hiptesis sobre la
varianza de una distribucin normal
Pa.7 Elaborar ejercicios sobre prueba de hiptesis p
117
122
125
129
112
TEMA 1
Objetivo de aprendizaje.
1. Describir la naturaleza de una prueba de hiptesis y los tipos de hiptesis: una y dos colas.
Criterio de Aprendizaje.
1.1. Practicar las pruebas de hiptesis, clasificarlas y esbozar el procedimiento de contrastabilidad.
Didctica de enseanza.
TEMA 2
Objetivo de aprendizaje.
2. Ilustrar los errores tipo I y II que se pueden presentar al aceptar o rechazar una hiptesis.
Criterio de Aprendizaje.
2.1. Demostrar los errores tipo I y II que se pueden presentar al aceptar o rechazar una hiptesis
Didctica de enseanza.
Ta.8 Defina hiptesis nulas y hiptesis alternas en funcin de cinco ejemplos de control estadstico en
alguna agroindustria. Adems considere las opciones de error tipo I y error tipo II.
Pruebas de hiptesis.
Primero, definamos con precisin que entendemos por hiptesis estadstica.
Una hiptesis estadstica es una aseveracin o conjetura con respecto a una o ms poblaciones.
La verdad o falsedad de una hiptesis estadstica nunca se sabe con absoluta certidumbre a menos que
examinemos toda la poblacin. Esto, por supuesto, sera poco prctico en la mayora de las situaciones.
En su lugar, tomamos una muestra aleatoria de la poblacin de inters y utilizamos los datos
contenidos en esta muestra para proporcionar evidencia que apoye o no a la hiptesis. La evidencia de
la muestra que es inconsistente con la hiptesis que se establece conduce al rechazo de sta, mientras
que la evidencia que la apoya conduce a su aceptacin.
Debe quedar claro al estudioso de la materia que el diseo de un procedimiento de decisin se debe
hacer con la idea en mente de la probabilidad de una conclusin errnea. Por ejemplo, suponga que la
conjetura (hiptesis) que postula el tcnico es que la fraccin
p
de defectuosos en cierto proceso es
0.10. El experimento es la observacin de una muestra aleatoria del producto en cuestin. Suponga que
se prueban 100 artculos y se encuentra que 12 estn defectuosos. Es razonable concluir que esta
evidencia no rechaza la condicin
10 . 0 p
, y por ello puede conducir a la aceptacin de la hiptesis.
Sin embargo, tampoco rechaza
12 p
o incluso
15 p
. Como resultado, el lector se debe
acostumbrar a comprender que la aceptacin de una hiptesis simplemente implica que los datos no
dan suficiente evidencia para rechazarla. Por otro lado, el rechazo implica que la evidencia muestral la
refuta. Puesto de otra forma, el rechazo significa que hay una pequea probabilidad de obtener la
informacin muestral observada cuando, de hecho, la hiptesis es verdadera. Por ejemplo, en nuestra
hiptesis de proporcin de defectuosos, una muestra de100 que revela 20 artculos defectuosos es
ciertamente evidencia de rechazo. Por qu? Si, en realidad,
10 . 0 p
, la probabilidad de obtener 20 o
ms defectuosos es aproximadamente 0.0035. Con el pequeo riesgo resultante de una conclusin
errnea, parecera seguro rechazar la hiptesis de que
10 . 0 p
. En otras palabras, el rechazo de una
113
hiptesis tiende a casi excluir la hiptesis. Por otro lado, es muy importante enfatizar que la
aceptacin o, ms bien, la falla al rechazo no excluyen otras posibilidades. Como resultado, el analista
de los datos establece una conclusin firme cuando se rechaza una hiptesis.
El planteamiento formal de una hiptesis a menudo est influido por la estructura de la probabilidad de
una conclusin errnea. Si el cientfico se interesa en apoyar con fuerza una opinin, desea llegar a la
opinin en la forma de rechazo de una hiptesis. Si el investigador mdico desea mostrar fuerte
evidencia a favor de la opinin de que beber caf aumenta el riesgo de contraer cncer , la hiptesis a
aprobar debe ser de la forma no hay aumento en el riesgo de contraer cncer como producto de beber
caf. Como resultado, la opinin se alcanza por medio de un rechazo. De manera similar, para apoyar
la afirmacin de que un tipo de medidores es ms preciso que otro, el ingeniero prueba la hiptesis de
que no hay diferencia en la precisin de los dos tipos de medidor.
Hiptesis nula y alternativa
La estructura de la prueba de hiptesis se formular con el uso del trmino hiptesis nula. ste se
refiere a cualquier hiptesis que deseamos probar y se denota con
0
H
conduce a la aceptacin de una
hiptesis alternativa, que se denota con
1
H . Una hiptesis nula con respecto a un parmetro
poblacional siempre se establecer de modo que especifique un valor exacto del parmetro, mientras
que la hiptesis alternativa permite la posibilidad de varios valores. De aqu, si
0
H
es la hiptesis nula
5 . 0 p
para una poblacin binominal, la hiptesis alternativa
1
H sera una de las siguientes:
, 5 . 0 > p

, 5 . 0 < p
O,
. 5 . 0 p
Pruebas de Hiptesis
Hiptesis
Afirmacin acerca de los parmetros de la poblacin.
Hiptesis nula
Es una afirmacin acerca de los valores de uno o ms parmetros de la poblacin. Se pone a prueba
usando la evidencia muestral. Establece que la diferencia entre el parmetro poblacional y el
estadstico muestral se debe a la variacin aleatoria del muestreo. Se denota por H
0
.
Hiptesis Alterna o alternativa
Es la afirmacin sobre los parmetros de la poblacin que es cierta si la hiptesis nula es falsa
(rechazada). Se denota por H
1
.
Regin de rechazo
Tambin llamada regin crtica. Es el rango de valores de un estadstico muestral que conducir al
rechazo de la hiptesis nula, bajo el nivel de significancia dado.
114
Error de tipo I
Se incurre en este error cuando incorrectamente se rechaza la hiptesis nula. Denotamos por la
probabilidad de que se cometa un error de tipo I.
Error de tipo II
Se incurre en este error cuando incorrectamente no se rechaza la hiptesis nula. Denotamos por la
probabilidad de que se cometa un error de tipo II.
Colas
Una prueba de una cola es una en la que la hiptesis alternativa indica una direccin. Una prueba de
dos colas es aquella en la que la hiptesis alternativa no especifica direccin.
Prueba de Hiptesis:
1. Se Especifica H
0
y H
1
, y un nivel aceptable de (Nivel de significancia de una prueba de
Hiptesis).
2. Se define un estadstico muestral (estadstico de prueba) y la regin de rechazo para la hiptesis nula
(regla de decisin).
3. Se recogen los datos de la muestra y se calcula el estadstico de prueba.
4. Se decide rechazar o no rechazar la hiptesis nula.
5. Interpretar los resultados en el marco del problema.
Estadstico de prueba
Es un estadstico de la muestra cuya distribucin muestral puede ser especificada para la hiptesis nula
o para la hiptesis alternativa, aunque para la hiptesis alternativa esto pueda ser bastante complejo.
Despus de especificar el nivel de significancia , la distribucin muestral de este estadstico de
prueba puede usarse para definir la regin de rechazo.
Ejemplo:
115
Segn la FEDEFUT, el peso promedio de un jugador nuevo de la Liga Nacional de Ftbol es de 168.
Ahora, la nutricionista del equipo XYZ piensa que el peso promedio del equipo XYZ es diferente que
168. Como se estn haciendo reclutamientos, escoge una muestra aleatoria del peso de 40 candidatos.
Asuma que = 23
H
0
: = 168
H
1
: 168
Nivel de significancia (probabilidad de rechazar la hiptesis nula cuando esta es cierta): 0.05.
La media y la desviacin estndar de la muestra
El estadstico de prueba es la media muestral. Entonces rechazaramos la hiptesis nula, si el promedio
muestral es mayor que un valor C
1
o menor que un valor C2, para un nivel de significancia del 5%.
Si H0 es verdadera, entonces la media muestral tiene una distribucin normal con media igual a 168
y una desviacin estndar , donde es la desviacin estndar de la poblacin.

Siendo simtrica la curva normal,

Se tiene que Z1 = 1.96 y Z2 = 1.96, entonces C1 = 175.13 y C2 =
160.87
116
Si no conociramos , utilizamos la distribucin t de 40 - 1 grados de libertad.
TINV(0.025, 39) = 2.3315
C1 = 177.2161
C2 = 158.78
Conclusin: no se rechaza la hiptesis nula.
En general, la hiptesis nula se construye para ser la hiptesis que siendo cierta, ninguna decisin
concerniente a un cambio se har (cambio nulo). Rechazar la hiptesis nula significa tomar decisiones
que conllevan un cambio, y por lo tanto, representaran un costo. En este sentido, incurrir en un error de
tipo I conlleva una mayor preocupacin.
La hiptesis alternativa describe condiciones para las cuales algo debe hacerse. Es la hiptesis de
investigacin o accin. En un ambiente de investigacin o experimental, la hiptesis alternativa es la
que queremos establecer, al rechazar la hiptesis nula, con un nivel suficientemente bajo de
significancia tal que es improbable que la nueva hiptesis sea errneamente aceptada.
Es importante entonces el especificar un nivel adecuado de significancia. Cometer un error del tipo I
tiene mayores consecuencias, entonces se escoge un valor pequeo de . 0.1, 0.05, 0.01, ms
comnmente 0.05.
Hay una relacin inversa entre y . A menos de que se aumente el tamao de la muestra, se puede
reducir solamente aumentando . Ahora bien, conviene determinar en cada experimento cuales son
las consecuencias de cometer un error de tipo II.
Ta.8 Defina hiptesis nulas y hiptesis alternas en funcin de cinco ejemplos de control estadstico en
alguna agroindustria. Adems considere las opciones de error tipo I y error tipo II.
117
TEMA 3
Objetivo de aprendizaje.
3. Describir el procedimiento para realizar prueba de hiptesis sobre la media de una distribucin
normal y los casos en los que se emplea esta prueba.
Criterio de Aprendizaje.
3.1. Practicar pruebas de hiptesis sobre la media de una muestra de datos, as como el procedimiento
de prueba para aceptar o rechazar la hiptesis e interpretar los resultados.
Didctica de enseanza.
Ta.9 Realizar el ejercicio, probando la hiptesis.
Pruebas de Hiptesis sobre la Media, Varianza Conocida
En este tema se consideran pruebas de hiptesis sobre la media de una poblacin (o la media de una
distribucin de probabilidad), donde la varianza de la poblacin es conocida.
Las suposiciones para esta prueba son mnimas. La poblacin o distribucin de inters tiene media


y varianza
2
, con
2
conocida. El estadstico de prueba se basa en la media muestral X , por lo
que tambin se supondr que la poblacin est distribuida de manera normal o que se aplican las
condiciones del teorema del lmite central. Esto significa que la distribucin de X es
aproximadamente normal con media

y varianza
2
/n.
Desarrollo del procedimiento de prueba
Supngase que se desea probar la hiptesis
0 0
: H

0 1
: H

Donde 0

es una constante especfica. Se tiene una muestra aleatoria n


X X X ,......... ,
2 1 De la
poblacin. Puesto que X tiene una distribucin aproximadamente normal con media 0

y
desviacin estndar
n

si la hiptesis nula es verdadera, entonces puede construirse una regin


crtica con base en el valor calculado de la media muestral x .
Habitualmente, es ms conveniente estandarizar la media muestral y utilizar una estadstica de prueba
basada en la distribucin normal estndar. Esto es, el procedimiento de prueba para 0 0
: H
utiliza
el estadstico de prueba
n
X
Z

0
0

Si la hiptesis nula
0 0
: H
es verdadera,
( )
0
X E
, de donde se desprende que la distribucin
de
0
Z
es la distribucin normal estndar
[
denotada por N
( ) ] 1 , 0
. En consecuencia, si
0 0
: H
es
118
cierta, la probabilidad de que la estadstica de prueba
0
Z
caiga entre
2

Z
y
2

Z
es 1 .
(Recurdese que
2

Z
es el punto que corresponde al porcentaje 2 / 100 de la distribucin normal
estndar). Ntese que la probabilidad de que la estadstica de prueba
0
Z
caiga en la regin
2 / 0
Z Z >

o
2 / 0
Z Z <
cuando
0 0
: H
es verdadera, es

. Es evidente que una muestra que produce un


valor del estadstico de prueba que cae en las colas de la distribucin de
0
Z
ser inusual si
0 0
: H

es cierta; por tanto, esto es un indicador de que
0
H
es falso. En consecuencia,
0
H
debe rechazarse si
2
0
Z Z >

2
0
Z Z >

Por otra parte,
0
H
no puede rechazarse si
2 / 0 2 /
Z Z Z
La ecuacin 5 define la regin de aceptacin de
0
H
, y las ecuaciones 3 y 4 definen la regin crtica o
regin de rechazo. La probabilidad del error tipo I para este procedimiento de prueba es

.
En general, es ms fcil comprender la regin crtica y el procedimiento de prueba cuando la estadstica
de prueba es 0
Z
ms que X . Sin embargo, la misma regin crtica siempre puede escribirse en
trminos del valor calculado de la media muestral x . Un procedimiento idntico al anterior es el
siguiente:
Rechazar
0 0
: H
si a x > o b x <
Donde
n Z a /
2 / 0


+
n Z b /
2 / 0



Ejemplo:
Los sistemas de escape de emergencia para tripulaciones de aeronaves son impulsados por un
combustible slido. Una de las caractersticas importantes de este producto es la rapidez de
combustin. Las especificaciones requieren que la rapidez promedio de combustin sea 50 cm/s. Se
sabe que la desviacin estndar de esta rapidez es 2 cm./s. El experimentador decide especificar
una probabilidad para el error tipo I, o nivel de significancia, de 05 . 0 selecciona una muestra
aleatoria de n = 25 y obtiene una rapidez promedio muestral de combustin de . / 3 . 51 s cm x A qu
conclusiones debe llegar?
La solucin de este problema puede hallarse siguiendo el procedimiento de ocho pasos:
1. El parmetro de inters es
,
la rapidez promedio de combustin.
2.
. / 50 :
0
s cm H
119
(3)
(4)
(5)
3. . / 50 :
1
s cm H
4. 05 . 0
5. La estadstica de prueba es
n
x
Z
/
0
0

6. Rechazar 0
H
si
96 . 1
0
> Z
o
96 . 1
0
< Z
. Ntese que esto es consecuencia del paso 4, donde se
especifica 05 . 0 , de modo que las fronteras de la regin crtica son
96 . 1
025 . 0
Z
y
96 . 1
025 . 0
Z
7. Clculos: Puesto que 3 . 51 x y 2 ,
25 . 3
25 / 2
50 3 . 51
0

Z
8. Conclusin: Dado que
96 . 1 25 . 3
0
> Z
, se rechaza
50 :
0
H
con nivel de significancia de 0.05.
Planteado de manera ms completa, se concluye que, con base en una muestra de 25 mediciones, la
rapidez promedio de combustin es diferente de 50 cm/s. De hecho, existe una evidencia fuerte que la
rapidez promedio de combustin es mayor que 50 cm/s.
Ejercicio
1. Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano.
Deseamos contrastar con un nivel de significacin de si la altura media es diferente de 174
cm. Para ello nos basamos en un estudio en el que con una muestra de n=25 personas se obtuvo:
2. Consideramos el mismo ejercicio anterior. Comprobado que se rechaza el hecho de que la altura
media de la poblacin sea igual a 174 cm. Realizar el contraste sobre si la altura media es menor de 174
cm.
Pruebas de Hiptesis sobre las Medias de dos Distribuciones Normales, Varianzas Desconocidas.
Ahora se considerarn pruebas de hiptesis sobre la igualdad de las medias
1
, y
2
de dos
distribuciones normales donde las varianzas
2
1
y
2
2
son desconocidas. Para probar esta hiptesis se
usar una estadstica t . Se requiere la hiptesis de normalidad para desarrollar el procedimiento de
prueba, pero los alejamientos moderados de la normalidad no tendrn efectos adversos sobre el
procedimiento.
Ejemplo
120
ndices de Octano en Carretera
Formula 1
( con tetraetil-plomo)
Formula 2
(Sin plomo)
89.5 89.5
90.0 91.5
91.0 91.0
91.5 89.0
92.5 91.5
91.0 92.0
89.0 92.0
89.5 90.5
91.0 90.0
92.0 91.0
Se desea probar la hiptesis de que el ndice octnico medio de la formulacin 1 (con plomo) es igual
al ndice de octano medio para la formulacin 2; o sea,
2 1 0
: H
2 1 1
: H
Rechazar
0
H
si v
t t
, 2 / 0
>
34 . 1
16 . 1
7 . 90
10
2
1
1
1
1

S
S
x
n

07 . 1
03 . 1
8 . 90
10
2
2
2
2
2

S
S
x
n
( ) ( )
2
1 1
2 1
2
2 2
2
1 1
+
+

n n
S n S n
S
p
2
2 1
+ n n V
( ) ( )
2 10 10
03 . 1 1 10 34 . 1 1 10
+
+

p
S
18 2 10 10 + V
09 . 1
p
S
2 1
2 1
0
1 1
n n
S
x x
t
p
+

21 . 0
10
1
10
1
09 . 1
8 . 90 7 . 90
0

+

t
Usando 01 . 0 tenemos 18 , 2 / 01 . 0
t
878 . 2
18 , 005 . 0
t
121
878 . 2 21 . 0 <
La decisin es aceptar 0
H
Ejercicio
Establecer las pruebas de hiptesis sobre la igualdad de las medias
1

, y
2

de dos distribuciones
normales donde las varianzas
2
1
y
2
2
son desconocidas. Para probar esta hiptesis se usar una
estadstica t . Se requiere la hiptesis de normalidad para desarrollar el procedimiento de prueba, pero
los alejamientos moderados de la normalidad no tendrn efectos adversos sobre el procedimiento.
Ta.9 Realizar el ejercicio, probando la hiptesis.
Presencia de Plomo en la leche
Leche de la laguna
(ppm)
Leche del Valle del
Mezquital
(ppm)
0.0895 0.0895
0.090 0.0915
0.091 0.0910
0.095 0.0890
0.0925 0.0915
0.0910 0.092
0.0890 0.092
0.0895 0.0905
0.0910 0.090
0.0920 0.091
Se desea probar la hiptesis de que el contenido de plomo entre los productos originados de la laguna y
del Valle del Mezquital es diferente.
2 1 0
: H
2 1 1
: H
122
TEMA 4
Objetivo de aprendizaje.
4. Describir el procedimiento para realizar prueba de hiptesis sobre la varianza de una distribucin
normal y los casos en que se emplea esta prueba.
Criterio de Aprendizaje.
4.1. Practicar el procedimiento para realizar prueba de hiptesis sobre la varianza de una distribucin
normal y los casos en que se emplea esta prueba.
Didctica de enseanza.
In 1 y Ta.10 Investigar y desarrollar, tres ejercicios relacionados con el control de calidad aplicado a la
agroindustria, donde se aplique prueba de hiptesis sobre la varianza de una distribucin normal
Pruebas de Hiptesis sobre la Varianza
Algunas veces se necesitan pruebas sobre la varianza o la desviacin estndar de una poblacin. En
esta seccin se presentan dos procedimientos; uno se basa en la hiptesis de que la poblacin es
normal, mientras que el otro es una prueba para una muestra grande que no requiere la suposicin de
normalidad.
Procedimientos de Prueba para una Poblacin Normal
Supngase que se desea probar la hiptesis de que la varianza de una poblacin normal
2
es igual a
un valor especfico, por ejemplo,
2
0

. Sea n
X X X ,.... ,
2 1 una muestra aleatoria de n observaciones
tomadas de esta poblacin. Para probar.
2
0
2
0
: H
2
0
2
1
: H
Se utiliza el estadstico de prueba
( )
2
0
2
2
0
1

S n
X

Donde
2
S es la varianza muestral. Ahora, si
2
0
2
0
: H es verdadera, entonces el estadstico de
prueba
2
0
X sigue una distribucin ji-cuadrada con 1 n grados de libertad. Por consiguiente, se
calcula el valor de la estadstica de prueba
2
0
X , y la hiptesis
2
0
2
0
: H debe rechazarse si
2
1 , 2 /
2
0
>
n
X X

O si
2
1 , 2 / 1
2
0
<
n
X X

123
(1)
(2
(3)
(4)
Donde
2
1 , 2 / n
X

y
2
1 , 2 / 1 n
X

son los puntos que corresponden a los porcentajes 2 / 100 inferior y
superior de la distribucin ji-cuadrada con 1 n grados de libertad, respectivamente.
El mismo estadstico de prueba se utiliza para hiptesis alternativas unilaterales. Para la hiptesis
unilateral.
2
0
2
0
: H
2
0
2
1
: > H
Se rechaza 0
H
si
2
1 ,
2
0
>
n
X X

Para la hiptesis unilateral
2
0
2
0
: H
2
0
2
1
: < H
Se rechaza
0
H
si
2
1 , 1
2
0
<
n
X X

Ejemplo:
Un fabricante de detergente lquido est interesado en la uniformidad de la mquina utilizada para
llenar las botellas. De manera especfica, es deseable que la desviacin estndar

del proceso de
llenado sea menor que 0.5 onzas de lquido; de otro modo, existe un porcentaje mayor del deseable de
botellas con un contenido menor de detergente. Supngase que la distribucin del volumen de llenado
es aproximadamente normal. Al tomar una muestra aleatoria de 20 botellas, se obtiene una varianza
muestral 0153 . 0
2
s (Onzas de fluido)
2
. Si la varianza del volumen de llenado es mayor que 0.01
(onzas de fluido)
2
, entonces existe una proporcin inaceptable de botellas que sern llenadas con
una cantidad menor de lquido. Existe evidencia en los datos muestrales que sugiera que el fabricante
tiene un problema con el llenado de las botellas? Utilcese 05 . 0 .
Al utilizar el procedimiento de ocho pasos se tiene lo siguiente:
1. El parmetro de inters es la varianza de la poblacin
2
s .
2.
01 . 0 :
2
0
H
3.
01 . 0 :
2
0
> H
4. 05 . 0
5. El estadstico de prueba es
( )
2
0
2
2
0
1

s n
X

124
(5
(6)
(7
(8
6. Se rechaza 0
H
si
14 . 30
2
19 , 05 . 0
2
0
> X X
7. Clculos:
( )
07 . 29
01 . 0
0153 . 0 19
2
0
X
8. Conclusiones: Puesto que
14 . 30 07 . 29
2
19 , 05 . 0
2
0
< X X
, se concluye que no hay ninguna evidencia
fuerte de que la varianza del volumen de llenado sea mayor que 0.01 (onzas de fluido)
2
In.1 y Ta.10 Investigar y desarrollar, tres ejercicios relacionados con el control de calidad aplicado a la
agroindustria, donde se aplique prueba de hiptesis sobre la varianza de una distribucin normal
125
TEMA 5
Objetivo de aprendizaje.
5. Describir el procedimiento de la prueba de hiptesis sobre p de una muestra de datos de una
distribucin binomial y los casos en que se emplea esta prueba.
Criterio de Aprendizaje.
5.1 Practicar el procedimiento de la prueba de hiptesis sobre p de una muestra de datos de una
distribucin binomial y los casos en que se emplea esta prueba.
Didctica de enseanza.
Pa.7 Elaborar ejercicios sobre prueba de hiptesis p
Prueba de hiptesis sobre una distribucin binomial.
Existen muchas formas de ejemplificar la probabilidad de que ocurra un evento y su aplicacin en un
modelo binomial. Por ejemplo, cuando un grupo de productos se elabora en forma independiente y se
evala de acuerdo a su conformacin como articulo defectuoso y no defectuoso; o cuando se hace una
prueba de preferencia entre el producto para ver si agrada o no al consumidor. La comparacin entre la
conformacin probable entre estas dos clases hace posible seleccionar o inferir cual es la tendencia
proporcional..
La distribucin binomial.
Esta distribucin describe una variedad de procesos y describe datos discretos, no continuos, que son
resultado de un experimento conocido como proceso de Bernoulli.
Prueba de hiptesis sobre p de una muestra de datos de una distribucin binomial.
Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que
estudiamos una variable de tipo dicotmico (Bernoulli):
Si X
1
y X
2
contabilizan en cada caso el nmero de xitos en cada muestra se tiene que cada una de ellas
se distribuye como una variable aleatoria binomial:
De modo que los estimadores de las proporciones en cada poblacin tienen distribuciones que de un
modo aproximado son normales (cuando n
1
y n
2
son bastante grandes)
126
El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada poblacin
es una cantidad conocida
Si H
0
fuese cierta se tendra que
Desafortunadamente ni p
1
ni p
2
son conocidos de antemano y utilizamos sus estimadores, lo que da
lugar a un error que es pequeo cuando los tamaos muestrales son importantes:
Contraste bilateral
El contraste bilateral sobre la diferencia de proporciones es
Entonces se define
Y se rechaza la hiptesis nula si o si
Contrastes unilaterales
En el contraste
127
Se rechazar H
0
si . Para el test contrario
Se rechaza H
0
si .
Ejemplo
El gerente de ventas de una empresa agroindustrial asegura que la venta del producto depende del color
que se use en el empaque. Con el propsito de evaluar a la anterior consideracin se estableci un
experimento donde 25 amas de casa elegidas aleatoriamente en forma independiente seleccionaron a su
agrado una muestra del producto en comparacin: empaque color rojo y empaque color azul.
Solucin:
Los resultados indicaron que las amas de casa prefirieron el producto con empaque azul. Al esperar
que el color del empaque no influye en la seleccin del producto se espera una conformacin de
proporcionalidad igual al 50 % ( P = (0.5 y q =0.5 ). a un nivel de significancia =0.05.
Ho: P = 0.5
Ha: P 0.5
Ahora bien, si se tiene que n = 25 y T = 18 y el nivel de significancia es =0.05., al regin crtica se
considera /2=0.025
P1= 18/25= 0.72
P2=7/25 = 0.28
= 0.72-0.28= 0.44
Z calculada = 0.0432 por lo tanto se concluye que la
128
Prctica 7
Elaborar ejercicios sobre prueba de hiptesis p
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
En todos los problemas que siguen a continuacin, se supone que las muestras han sido elegidas de
modo independiente, y que las cantidades cuantitativas que se miden, se distribuyen de modo
gaussiano. En temas posteriores se ver cmo contrastar si estas premisas pueden ser aceptadas o no al
examinar las muestras.
Ejercicio 1.
El calcio se presenta normalmente en la sangre de los mamferos en concentraciones de alrededor de 6
mg por cada 100 ml del total de sangre. La desviacin tpica normal de sta variable es 1 mg de calcio
por cada 100 ml del volumen total de sangre. Una variabilidad mayor a sta puede ocasionar graves
trastornos en la coagulacin de la sangre. Una serie de nueve pruebas sobre un paciente revelaron una
media muestral de 6,2 mg de calcio por 100 ml del volumen total de sangre, y una desviacin tpica
muestral de 2 mg de calcio por cada 100 ml de sangre. Hay alguna evidencia, para un nivel =0.05, de
que el nivel medio de calcio para este paciente sea ms alto del normal?
Ejercicio 2.
El nmero de accidentes mortales en una ciudad es, en promedio, de 12 mensuales. Tras una campaa
de sealizacin y adecentamiento de las vas urbanas se contabilizaron en 6 meses sucesivos 8, 11, 9, 7,
10, 9 accidentes mortales. Fue efectiva la campaa?
Ejercicio 3.
El promedio de las puntuaciones de un nmero elevado de alumnos de Bioestadstica es de 6,50. Un
determinado ao se examinaron 50 alumnos con resultados promedio de 7,25 y desviacin tpica de 1.
Variaron las calificaciones?
Ejercicio 4.
El peso medio de mujeres de 30 a 40 aos es de 53 kg. Un estudio realizado en 16 mujeres de tales
edades que siguen una dieta vegetariana da y . Modifica la dieta el peso medio?
Ejercicio 5.
Una poblacin infantil se dice que es susceptible de recibir una campaa de educacin e higiene si su
porcentaje de nios con dientes cariados es superior al 15%. Una poblacin con 12.637 nios, debe
hacerse la campaa si de 387 de ellos 70 tenan algn diente cariado?
129
CAPITULO6
ANLISISDELAVARIANZA
INTRODUCCIN
El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos o ms
medias, que es necesario porque cuando se quiere comparar ms de dos medias es incorrecto
utilizar repetidamente el contraste basado en la t de Student.
El mtodo que resuelve ambos problemas es el anova, aunque es algo ms que esto: es un mtodo
que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseo de
experimentos y, de alguna manera, es la base del anlisis multivariante.
OBJETIVO Y CRITERIOS DE APRENDIZAJE Pgina
1. Analizar las causas del error experimental durante las mediciones.
1.1. Ilustrar y formular modelo lineal a partir de mediciones experimentales o datos
de texto.
132
132
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
1.1.1. Utilizar un modelo lineal a partir de mediciones experimentales o datos de texto
OBJETIVO Y CRITERIOS DE APRENDIZAJE
2. Reconocer las fuentes de variacin, describir el procedimiento del anlisis de
varianza y explicar el concepto de grado de libertad.
2.1. Ilustrar y diferenciar las fuentes de variacin, el procedimiento del anlisis de
varianza y el concepto de grado de libertad.
134
134
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
2.1.1. Utilizar las fuentes de variacin, el procedimiento del anlisis de varianza y el
concepto de grado de libertad.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
3. Definir el tamao de muestra, la unidad experimental y nmero de repeticiones.
3.1. Practicar para definir en un conjunto de datos el tamao de muestra, la unidad
experimental y nmero de repeticiones.
136
136
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
3.1.1. Emplear en un conjunto de datos el tamao de muestra, la unidad
experimental y nmero de repeticiones..
OBJETIVO Y CRITERIOS DE APRENDIZAJE
4. Identificar de acuerdo a la estructura de los datos, el experimento completamente
al azar, el experimento en bloques al azar y el experimento factorial.
4.1. Diferenciar de acuerdo a la estructura de los datos, el experimento
completamente al azar, el experimento en bloques al azar y el experimento factorial.
136
136
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
4.1.1. Emplear de acuerdo a la estructura de los datos, el experimento completamente
130
al azar, el experimento en bloques al azar y el experimento factorial.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
5. Describir el procedimiento del anlisis de varianza para ese tipo de experimentos.
5.1 Diferenciar el procedimiento del anlisis de varianza para ese tipo de
experimentos.
136
136
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
5.1.1. Determinar el procedimiento del anlisis de varianza para ese tipo de
experimentos.
DEMOSTRACIN DE HABILIDADES FINALES
Pa.8 Anlisis de varianza (ANOVA) 146
131
TEMA 1
Objetivo de aprendizaje.
1. Analizar las causas del error experimental durante las mediciones.
Criterio de Aprendizaje.
1.1. Ilustrar y formular modelo lineal a partir de mediciones experimentales o datos de texto.
Didctica de enseanza.
Modelo Matemtico Lineal
Causas del error experimental
Al conducir un experimento una persona encuentra uno o ms de tres tipos generales de errores: error
humano, error sistemtico, y error al azar.
Error humano (un error) ocurre cuando el experimentador, incurre en una equivocacin. Los ejemplos
seran cuando se instala un experimento incorrectamente, cuando se lee mal un instrumento, o cuando
se incurre en una equivocacin en un clculo.
Error sistemtico, es un error inherente en el experimento instalado que hace sesgar a los resultados
en la misma direccin, es decir, siempre demasiado grande o siempre demasiado pequeo. Algunos
errores sistemticos pueden ser corregidos fcilmente. Por ejemplo, si un equilibrio lee 0,25 g cuando
no hay masa en ella, esto introducira un error sistemtico a cada medida, todo sera demasiado grande
por 0,25 g. Esto puede ser corregido poniendo a cero el equilibrio.
Todos los experimentos tienen error al azar, que ocurre porque ninguna medicin no se puede hacer
con precisin infinita. Los errores al azar harn una serie de medidas demasiado grande y a veces
demasiado pequea. Un ejemplo del error al azar poda ser al hacer sincronizaciones con un
cronmetro. Usted puede parar a veces el reloj demasiado pronto, o a veces demasiado tarde. Cualquier
caso introduce error al azar en sus medidas. (nota que cuando un ser humano est implicado en el
proceso real de la medida, el/ella puede introducir el error experimental vlido que no est dentro de la
definicin del error humano. Su tiempo de reaccin finito no es un error; es una limitacin de una
porcin del proceso experimental, del ser humano haciendo la medida.) El error al azar puede ser
reducido haciendo un promedio de varias mediciones.
Anlisis del error
Una forma para analizar error experimental con un % del clculo del error. El % del error es til
cuando se tiene un solo resultado experimental que se desee comparar con un valor estndar, o cuando
se tienen dos valores experimentales obtenidos por diversos medios que se deseen comparar.
El % del error se calcula segn la frmula siguiente.
% 100 x
# std.
# std. - # expt.
= error %
"expt. #" es su valor experimental, y el "std. #" es el valor del standard o del referente. Usando esta
frmula, un resultado positivo indica que su resultado fuera ms grande que el estndar, mientras que
un resultado negativo implica un resultado experimental ms pequeo que el estndar. Mientras que %
132
del error le dice el tamao relativo de su error, no le da ninguna pista en cuanto al tipo de ese error
(error al azar o error sistemtico)).
En ciertos casos uno puede utilizar una cantidad estadstica llamada la desviacin de estndar ,
denotada generalmente por la sigma griega minscula de la letra, , o la abreviatura std.,
Podemos resumir:
- % pequeos del error, dentro de uno o de dos estndar:, principalmente al azar.
- % pequeos del error, no dentro de dos o de tres estndar: principalmente sistemtico.
- % grandes del error, dentro de uno o de dos estndar: grande, principalmente errores del random.
- % grandes del error, no dentro de dos o de tres estndar: principalmente sistemtico.
133
TEMA 2
Objetivo de aprendizaje.
2. Reconocer las fuentes de variacin, describir el procedimiento del anlisis de varianza y explicar el
concepto de grado de libertad.
Criterio de Aprendizaje.
2.1. Ilustrar y diferenciar las fuentes de variacin, el procedimiento del anlisis de varianza y el
concepto de grado de libertad.
Didctica de enseanza.
Anlisis de varianza del modelo lineal
De acuerdo con la hiptesis nula, segn la cual se supone que las medidas poblacionales de los tres
grupos son iguales, se puede obtener una medicin de la variacin total o suma de los cuadrados,
sumando las diferencias elevadas al cuadrado entre cada observacin y una medida global
__
X
sobre la
base de todas las observaciones. La variacin total se calculara como:
Supngase que el gerente de produccin de una planta en la cual se fabrica y envasa cereal en cajas de
368 gramos, considera sustituir una mquina antigua que afecta directamente la produccin. Es ms
supngase que tres productores le han permitido usar sus equipos para efectuar pruebas , y cuyos
precios de compra y contratos de mantenimientos son totalmente iguales . Para tomar la decisin de
compra , el gerente de produccin decide llevar a cabo un experimento para determinar las diferentas
ms importantes entre las tres macas de equipo en el tiempo promedio (en segundos) que necesitan los
obreros para su produccin. Se asignan en forma aleatoria 15 operarios con experiencia, capacidad y
edades similares, para recibir adiestramiento en una de las tres mquinas de modo que cada mquina
tenga cinco operadores. Despus de una capacitacin adecuada , suficiente y practica, el gerente de
produccin mide el tiempo que necesitan los operadores para trabajar con sus equipos respectivos.
En la siguiente tabla se presentan los resultados de este experimento.
MQUINA
1 2 3
25.40 23.40 20.00
26.31 21.80 22.20
24.10 23.50 19.75
23.74 22.75 20.60
25.10 21.60 20.40
Media 24.93 22.61 20.59
Se expresa la hiptesis nula y alternativa en la forma siguiente:
H
0
:
1
=
2
=
3
= ...=
c
Todas las medias son iguales
H
1
: No todas las medias son iguales
Para el caso del ejemplo las hiptesis nula y alternativa serian:
134
H
0
:
1
=
2
=
3
= ...=
c
Todas las mquinas son iguales
H
1
: No todas las mquinas son iguales
En la tabla se observa que existen diferencias en las medias maestrales para las tres mquinas. La
pregunta es si estos datos son lo suficientemente diferentes para que el gerente de produccin llegue a
la conclusin de que los promedios poblacionales no son todos iguales.
Grados de libertad
Para calcular s
2
se necesita conocer primero la media. Por consiguiente se puede decir que solo n-1
de los valores de muestra estn libres para variar. Es decir , hay n-1 grados de libertad.
135
TEMA 3
Objetivo de aprendizaje.
3. Definir el tamao de muestra, la unidad experimental y nmero de repeticiones.
Criterio de Aprendizaje.
3.1. Practicar para definir en un conjunto de datos el tamao de muestra, la unidad experimental y
nmero de repeticiones.
Didctica de enseanza.
TEMA 4
Objetivo de aprendizaje.
4. Identificar de acuerdo a la estructura de los datos, el experimento completamente al azar, el
experimento en bloques al azar y el experimento factorial.
Criterio de Aprendizaje.
4.1. Diferenciar de acuerdo a la estructura de los datos, el experimento completamente al azar, el
experimento en bloques al azar y el experimento factorial.
Didctica de enseanza.
TEMA 5
Objetivo de aprendizaje.
5. Describir el procedimiento del anlisis de varianza para ese tipo de experimentos.
Criterio de Aprendizaje.
5.1 Diferenciar el procedimiento del anlisis de varianza para ese tipo de experimentos.
Didctica de enseanza.
Pa.8 Anlisis de varianza (ANOVA)
Diseo de experimentos
Los experimentos son usados por los investigadores en todas las reas de la ciencia ya se para describir
algo acerca de un proceso en particular o para comparar el efecto de varias condiciones sobre algn
fenmeno.
Para el diseo y anlisis de experimentos se requiere que toda persona involucrada en el experimento
tenga una idea clara de lo que exactamente se ser estudiado , como sern colectados los datos y al
menos una idea cualitativa de cmo sern analizados los datos.
A continuacin se describe una generalizacin del procedimiento recomendado para el diseo de
experimentos:
1. Establecimiento del problema y objetivos. Un claro establecimiento del problema
frecuentemente contribuye a un buen entendimiento del fenmeno y a la solucin final del
problema. Es necesario desarrollar todas las ideas acerca de los objetivos del experimento.
136
2. Seleccin de factores y niveles el experimento debe seleccionar el factor o los factores
(variable o variables independientes) que sern investigados en el experimento. Tambin se
deber seleccionar los valores o niveles del factor o factores que se usaran en el
experimento y que definen los tratamientos. Al definir los tratamientos se esta definiendo al
denominado especio de exploracin o regin de exploracin.
3. Definir a la unidad experimental. La unidad experimental es aquella subdivisin menor del
material experimental y que puede definir un tratamiento diferente. Para la seleccin de las
unidades experimentales debe tomarse en cuenta el especto prctico, no puede considerarse
representativo el uso de una planta para comparar dosis de fertilizante. En el aspecto
estadstico debe tomarse en cuenta el tamao de la unidad experimental y el nmero de
repeticiones para la precisin del experimento. Se entiende por nmero de repeticiones al
nmero de unidades experimentales que se repiten con el mismo tratamiento.
4. Definir las observaciones o mediciones. En general seleccin de variables respuesta.
5. Eleccin del diseo experimental. El diseo experimental es la forma de asignar los
tratamientos o las unidades experimentales, esto determina un modelo o un anlisis a
seguir. El experimentador debe determinar la diferencia en la respuesta verdadera que desea
detectar, as como la magnitud de riesgo que esta dispuesto a tolerar , con lo cual un tamao
de muestra apropiado puede ser seleccionado.
Tambin debe determinar el orden en el cual los datos debern ser recolectados y el mtodo de
aleatorizacin que ser empleado.
Generalmente en diseos experimentales las ideas centrales guan a la eleccin de aleatorizacin y
bloqueo.
El bloqueo es la inclusin en el diseo de algunos factores que aunque no son de inters, si pueden ser
causa de una fuerte variacin en las unidades experimentales y que no pueden mantenerse constantes
para todas las unidades experimentales del experimento. Un bloque es un grupo de unidades
experimentales que son ms o menos homogneas, de modo que la asignacin de tratamientos
diferentes a dichas unidades produzca en las observaciones un efecto ms fcil de distinguir de otros
factores aleatorios.
Se llama bloque completo a un grupo de unidades experimentales que contienen todos los tratamientos
del experimento y bloque incompleto si contiene solo una parte de todos los tratamientos. Para el caso
de dos tratamientos , los bloques completos son parejas de unidades experimentales semejantes y se les
denomina observaciones apareadas.
La aleatorizacin es un medio de impartir insesgamiento a los estimadores, a pesar de tener unidades
experimentales heterogneas, es decir que todos los factores no estudiados, ni controlados
explcitamente en el modelo y que causan variacin las unidades experimentales, son controlados
por la aleatorizacin.
6. Determinar el nmero de repeticiones. Las repeticiones son las veces que se reproduce cada
tratamiento en la unidad experimental. Las repeticiones permiten obtener una estimacin de
la varianza del error experimental e incrementan la precisin del experimento ya que de
hecho son el tamao de muestra de cada una de las poblaciones estudiadas.
137
7. Proyecto de resultados y anlisis. Estos aspectos deben determinarse antes de efectuar el
experimento , para que puedan sealarse cuales son las suposiciones bsicas del modelo y
determinar si el experimento cumple satisfactoriamente tales suposiciones.
8. Efectuar el experimento y coleccin de datos. Debe tenerse cuidado en a especificacin de
los pasos prcticos a seguir y tener formas especialmente diseadas para capta las
observaciones.
9. Efectuar el anlisis estadstico. Para este anlisis existen programas de computadora , pero
deben complementase con graficas, cuadros o lagunas rutinas de calculo extra que sean
fcilmente explicables.
Obtencin de conclusiones. Si el experimentador o investigador tiene poco conocimiento de la
estadstica, entonces debe ser auxiliado por un estadstico para la interpretacin de los anlisis
El modelo.
Las observaciones pueden expresarse en general mediante el siguiente modelo estadstico lineal:
Y
ij
= +
i
+
ij
i = 1,2,...t j= 1,2,...n
Que es el diseo estadstico completamente aleatorizado y donde:
Y
ij
: es la i-sima observacin tomada bajo el tratamiento i-simo.
: Es el parmetro comn a todos los tratamientos (media general)

I
: Es el parmetro del i-simo tratamiento denominado efecto del i-simo tratamiento.

ij
= Es el componente de error aleatorio ocasionado por todos los factores no constantes en cada una
de las poblaciones estudiadas.
t: es el nmero de tratamientos (poblaciones)
n: Es el nmero de observaciones o tamao de muestra de la i-sima poblacin.
El inters por desarrollar el anlisis de varianza radica en que se desea probar la hiptesis sobre la
igualdad de los efectos de los tratamientos, es decir:
Ho:
1
=
2
=
3
...=
t
vs Ha:
1

j
para al menos i j
Si Ho es cierta entonces cada observacin puede ser representada como:
Y
ij
= +
ij
El procedimiento del anlisis de varianza se resume en el cuadro siguiente:
F.V G.L SC CM F
0
TRATAMIENTOS t-1 SCTr CMTr=SCTr/(t-) CMTr/CME
138
ERROR nt-t SCE CME= SCE/(nt-t)
TOTAL nt-1 SCT
La suma de cuadrados puede obtenerse como sigue:
SCT =
nt
Y
Y Y Y
n
j
ij
t
i
ij
t
i
n
j
2
..
1
2
1
2
1 1
..) (


SCTr =
nt
Y
n
Y
Y Y n
t
i
i
t
i
i
2
..
1
2
2
1
.
) .. (


.
SCE = SCT SCTr
Diseo experimental completamente aleatorizado
Es el diseo experimental ms sencillo, y se origina por la asignacin aleatoria de los tratamientos a un
conjunto de unidades experimentales previamente establecidas. En este diseo pueden probarse
cualquier nmero de tratamientos resultando deseable, aunque no esencial, asignar al mismo nmero de
unidades experimentales a cada tratamiento.
Es un diseo experimental de mucha utilidad en todos los campos de la ciencia, siempre y cuando se
consiga homogeneidad del material experimental y del sitio donde se vaya a desarrollar el experimento.
Se podran enumerar una serie de ventajas y desventajas del diseo:
Ventajas:
1.- Tanto la planificacin como el anlisis son los ms simples si se les compara con los otros diseos
conocidos.
2.- Produce el mximo nmero de grados de libertad para el error, lo que es muy til en pequeos
ensayos.
3.- Cuando existe un nmero desigual de replicaciones por tratamientos, no es causa de complicaciones
en el anlisis estadstico.
4.- Es de fcil manejo tanto en el campo como en el laboratorio.
Desventajas:
1.- Solo puede usarse con material experimental muy homogneo.
2.- Su utilidad es restringida en los experimentos de campo, debido a la heterogeneidad del suelo, que
puede ser muy grande. Para evitar que la misma enmascare los resultados del experimento, debe
recurrirse a diseos muy eficientes.
3.- Presenta desventajas cuando el material no es homogneo, ya que no se puede aumentar mucho el
tamao del experimento, debido a que esto motiva variaciones muy altas, que enmascaran el efecto del
tratamiento.
139
En cuanto al nmero de observaciones para cada tratamiento o factor, se determina en base a los costos
y a la potencia de la prueba.
Seguidamente se presenta con un ejemplo, los pasos a seguir para la realizacin del anlisis en este tipo
de diseo, donde se incluyen: modelo lineal aditivo, supuestos, hiptesis a probar.
En el presente cuadro se muestran los resultados (rea intestinal en dm), en un ensayo donde se prueba
el efecto de 4 desparasitantes en cerdos estabulados.
Desparasitantes
OBS(n) 1 2 3 4
1 4.87 3.30 6.80 1.28
2 4.60 2.25 5.70 3.88
3 1.33 5.85 4.62 5.00
4 5.58 6.16 3.80 3.25
5 5.88 8.35 2.75 1.56
6 2.81 5.93 4.93 4.25
7 4.10 1.50 4.93 4.46
8 5.63 5.85 3.80 5.53
total 34.84 38.19 37.33 29.21 139.53
n= nmero de observaciones por desparasitantes = 8
N= nmero total de observaciones = 32
Modelo lineal:
Yij ij i + +
Y
ij
: observacin j-sima del i-simo tratamiento.
: media general
i
: efecto del i-simo tratamiento

ij
: error experimental de la j-sima observacin en el i-simo tratamiento.
i=1,2,...,t
j=1,2,...,n
MODELO I MODELO II

i
i
t


1
0

2



i ~ NID(0,
2
)
140


ij ~ NID(0,
2
)


ij ~ NID(0,
2
)

Hiptesis:
MODELO I MODELO II

Ho i
Ha
:
:

i 0

0

Ho i
Ha
:
:

i 0
2

0
2
El modelo I se utiliza para tratamientos fijos como el caso del ejemplo, el modelo II, se aplica para
aquellos tratamientos elegidos al azar.
Esquema del anlisis de varianza:
F. V. G .L SC CMI CMII
TRATAMIENTOS
t 1 2
1
Yi
n i
t
FC
.

2
1
+

n
t
i
2 2

+ n
i
ERROR
t n ( ) 1
diferencia

2


2

TOTAL
nt 1 2
1 1
Yij
j
n
i
t
FC


FC
n t
Y
ij
j
n
i
t



( )
.
2
1 1
SCtrat
+ + +

2
34 80
2
38 19
2
37 33
2
29 21
8
2
139 53
32
6 139
. . . . .
.
Suma de cuadrados totales:
SCtot + + + +
2
4 87
2
4 60
2
4 46
2
5 53
2
139 53
32
92 596
. .
.......
. .
.
.
Suma de cuadrados del error experimental
SCEE SCtot SCtrat 86 457 .
141
Cuadrados medio del tratamiento
CMtrat
SCtrat
t


1
2 0463 .
Cuadrado medio del error experimental:
CMEE
SCEE
t n


( )
.
1
3 0877
Anlisis de Varianza:
F DE V G DE L SC CM F
0
Tratamientos 3 6.139 2.0463 0.662
Error 28 86.457 3.0877
Total 31
Prueba de hiptesis:
FC
CMtrat
CMEE
0 662 .
Fteorico
n t

+
2 2
1
2


( )
Para probar la hiptesis compare el F calculado (0,662) con el F tabulado , este se encuentra en la tabla
de "F", con los grados de libertad del numerador (tratamiento) y los grados de libertad del denominador
(error experimental), y con un nivel de significacin o probabilidad de cometer error tipo I ().
Ftab,5% = 2.95 Ftab, 1% = 4,57
Fcal = 0.662
De acuerdo a la no significacin de F, se acepta la Ho: i=0, es decir, no hay diferencia entre los
tratamientos (desparasitantes) estudiados; las reas intestinales promedios correspondientes a los cerdos
criados estabulados tratados con 4 desparasitantes, fueron estadsticamente iguales.
Experimento en bloques al azar
En muchos problemas experimentales es necesario disear el experimento de tal manera que la
variabilidad debida a fuentes extraas pueda ser controlada sistemticamente. El remover la
variabilidad de factores extraos nos permite reducir el error experimental. Un diseo que nos permite
tal situacin es el denominada diseo en bloques al azar. Es una tcnica de bloqueo de variacin en
el material experimental, bloqueo que puede ser en el tiempo o en el espacio. El diseo consiste en
incluir en el modelo, algunos factores que aunque no son de inters, se reconoce que pueden causar una
fuente de variacin en las unidades experimentales del experimento. As un bloque es un grupo de
unidades experimentales que son ms o menos homogneas, de modo que la asignacin de
142
tratamientos diferentes a dichas unidades produzca en las observaciones un efecto ms fcil de
distinguir de otros factores aleatorios.
La estructura de los datos de este diseo es como sigue:
BLOQUE 1 BLOQUE 2 BLOQUE b
El modelo estadstico para este diseo es:
Y
ij
= +
I
+
j
+
ij
i= 1,2,...,t; j= 1,2,...,b;
El procedimiento para un anlisis de varianza para este modelo es el siguiente:
F.V G.L SC CM F
0
TRATAMIENTOS t-1 SCTr CMTr=SCTr/(t-1) CMTr/CME
BLOQUES b-1 SCBlo CMBlo = SCBLo/b-1
ERROR (t-1)(b-1) SCE CME= SCE/(t-1)(b-1)
TOTAL tb-1 SCT
La suma de cuadrados puede obtenerse como sigue:
SCT =
tb
Y
Y
b
j
ij
t
i
2
..
1
2
1



SCTr =
tb
Y
b
Y
t
i
i
2
..
1
2
.

SCBlo=
tb
Y
t
Y
b
i
i
2
..
1
2
.

SCE = SCT SCTr SCBlo


Experimento factorial
Muchos experimentos requieren del estudio de los efectos de dos o ms factores, los experimentos
factoriales son los diseos ms eficientes para este tipo de anlisis. Se entiende por experimento
factorial aquel donde en cada ensayo o repeticin completa del experimento se investigan todas las
posibles combinaciones de los niveles de los factores considerados. Por ejemplo, si se tienen 2 niveles
del factor 1 y 3del factor 2, entonces cada repeticin o ensayo contiene todas las 2x3 =6
combinaciones.
143
Y
11
Y
21
Y
31
.
.
.
Y
t1
Y
12
Y
22
Y
32
.
.
.
Y
t2
Y
1b
Y
2b
Y
3b
.
.
.
Y
tb
En algunos tratamientos puede encontrarse que las diferencias en respuesta entre los niveles de un
factor no es la misma en todos los niveles de otros. Cuando esto ocurre entonces existe una interaccin
entre los factores. Por ejemplo, considrese un factor a y un factor b como se muestra en el siguiente
cuadro:
b
0
b
1
a
0
a
0
b
0
= 20 a
0
b
1
= 40
a
1
a
1
b
0
= 50 a
1
b
1
= 12
Al primer nivel del factor b, el efecto simple del factor a es A= (a
1
b
0
)-(a0b0) = 50-20 = 30 y el efecto
simple del factor a al segundo nivel del factor b es A = (a
1
b
1
)-(a0b1) = 12-40= -28. Entonces el efecto
de a depende del nivel seleccionado para el factor b , entonces se dice que existe interaccin entre los
factores a y b. Lo anterior se ilustra grficamente como sigue:
b
1
b
1
a
0
a
1
b
1
b
1
b
0
b
0
R
e
s
p
u
e
s
t
a
0
10
20
30
40
50
60
a
0
a
1
b
1
b
1
b
0
A B
Figura. Experimento factorial sin interaccin (A) y experimento factorial con interaccin (B)
Graficas de este tipo son tiles en la interpretacin de las interacciones significativas y en los informes
de resultados para personas con poco o ningn entrenamiento estadstico, pero no pueden usarse como
nica tcnica de anlisis.
El procedimiento para el anlisis de varianza de este experimento se resume en el siguiente cuadro.
F.V G.L SC CM F
0
TRATAMIENTO (A) a-1 SCA CMA=SCA/(a-1) CMA/CME
TRATAMIENTO (B) b-1 SCB CMB = SCB/(b-1) CMB/CME
INTERACCIN
(AB)
(a-1)(b-1) SCAB CMAB = SCAB/(a-1)(b-
1)
CMAB/CME
ERROR ab.(n-1) SCE CME= SCE/(t-1)(abn-1)
TOTAL abn-1 SCT
La suma de cuadrados puede obtenerse como sigue:
SCT =
abn
Y
Y
a
i
b
j
n
k
ijk
2
... 2


144
SCA=
abn
Y
bn
Y
a
i
i
2
...
2
..

SCB=
abn
Y
an
Y
b
j
j
2
...
2
. .

SCAB = SC (Subtotales) SCA- SCB


SC =
abn
Y
n
Y
b
j
ij
a
i
2
...
2
.


SCE = SCT SCA SCB - SCAB
145
Prctica 8
Anlisis de varianza (ANOVA)
1. Determinar si el color del envase de un producto influye en las ventas del artculo. Se estableci un
diseo experimental donde se evalo el envase en tres colores: Rojo, Azul y Amarillo, y observaron
las ventas en cada presentacin. Obtenindose los siguientes resultados.
Color Ventas $
Azul
Azul
Azul
Azul
Azul
Rojo
Rojo
Rojo
Rojo
Rojo
Amarillo
Amarillo
Amarillo
Amarillo
Amarillo
400
250
550
600
550
300
200
450
500
500
480
220
360
400
650
2. En un sistema Regional de Control de Calidad, con 15 laboratorios afiliados se quiere investigar las
fluctuaciones entre 3 diferentes maneras de medir RGR (Recuento de Glbulos Rojos). La primera
forma es usando equipos automatizados de recuento, o contadores hematolgicos, tales como el
Technicon H301 y similares. De entre todos los afiliados que usen ese mtodo se eligen cinco de
ellos al azar para conformar el Grupo 1. La segunda manera es usando el mtodo microhematocrito
y para ello, se eligen al azar, otros cinco afiliados que usan tal mtodo para conformar el Grupo 2.
Finalmente, el Grupo 3 se conforma con otros cinco laboratorios seleccionados al azar, de entre los
que usan otros mtodos, como por ejemplo el macrohematocrito, recuento en cmara, etc. Los 15
laboratorios siguen un programa de Control de Calidad interno y se suponen calibrados. Se enva a
cada laboratorio una muestra ciega, con una sangre calibrada en el laboratorio de referencia de:
(2,9467 0,0004).106 gl/ml.
Valores de RGR expresados en 10
6
gl/ml
146
3. Para controlar la influencia del factor humano en las mediciones clnicas se debe hacer medir lo
mismo a varios operadores diferentes. As, se pueden comparar los valores medidos por cada uno,
entre s, con un modelo de Anova. En el ejercicio siguiente se usa un modelo de un factor para
ilustrar el mtodo, sin embargo, cuanto ms factores se tomen en cuenta, mejor ser la sensibilidad
del modelo estadstico para detectar las diferencias.
Registro 1.
Registro 2.
Registro 3.
147
CAPITULO7
REGRESINLINEAL
INTRODUCCIN
Una respuesta a la pregunta tpica que hace cualquier estudiante que se enfrenta a las
dificultades del razonamiento matemtico, para que me sirven las matemticas?, se plantea
aqu como una muestra de la matemtica aplicada en aspectos tangibles y cotidianos como la
estadstica y la matemtica financiera.
Pero tambin en aspectos no tan tangibles como lo son los temas de potenciacin,
radiacin, fracciones y ecuaciones trigonomtricas que sirven de apoyo para otros temas como el
clculo diferencial e integral, el cual tiene una aplicacin ms directa., con estos elementos el
estudiante de la Carrera de Procesos Agroindustriales se beneficia porque complementa su
formacin bsica en matemticas.
OBJETIVO Y CRITERIOS DE APRENDIZAJE Pgina
1. Analizar la importancia de los usos de la regresin lineal simple.
1.1. Describir e ilustrar con ejemplos las aplicaciones practicas de la regresin lineal
simple en el mbito profesional.
149
149
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
1.1.1. Practicar y utilizar la regresin lineal simple en el mbito profesional.
OBJETIVO Y CRITERIOS DE APRENDIZAJE
2. Expresar las ecuaciones para estimar los parmetros de regresin lineal,
definiendo el coeficiente de correlacin R
2
y relacionarlo con la precisin de la recta
estimada.
2.1. Practicar e ilustrar las ecuaciones de mnimos cuadrados en la estimacin de la
recta e interpretar los parmetros de la regresin y el coeficiente de correlacin R
2
.
161
161
DEMOSTRACIN DE HABILIDADES PARCIALES (RESULTADO DE
APRENDIZAJE)
2.1.1. Emplear las ecuaciones de mnimos cuadrados en la estimacin de la recta e
interpretar los parmetros de la regresin y el coeficiente de correlacin R
2
.
DEMOSTRACIN DE HABILIDADES FINALES
Pa.9 Regresin lineal 175
148
TEMA 1
Objetivo de aprendizaje.
1. Analizar la importancia de los usos de la regresin lineal simple.
Criterio de Aprendizaje.
1.1. Describir e ilustrar con ejemplos las aplicaciones practicas de la regresin lineal simple en el
mbito profesional.
Didctica de enseanza.
Modelo regresin lineal
Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es
decir, buscamos cantidades a y b tales que se pueda escribir

Con el menor error posible entre e Y, o bien
De forma que sea una variable que toma valores prximos a cero.
Obsrvese que la relacin explica cosas como que si X vara en 1 unidad, vara la cantidad b. Por
tanto:
Si b>0, las dos variables aumentan o disminuyen a la vez;
Si b<0, cuando una variable aumenta, la otra disminuye.
Por tanto, en el caso de las variables peso y altura lo lgico ser encontrar que b>0.
El problema que se plantea es entonces el de cmo calcular las cantidades a y b a partir de un conjunto
de n observaciones
De forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son
de forma esquemtica, las que siguen:
1. Dadas dos variables X, Y, sobre las que definimos
Medimos el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre
los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los
errores):
149
2. Una aproximacin de Y, se define a partir de dos cantidades a y b. Vamos a calcular
aquellas que minimizan la funcin

3. Posteriormente encontraremos frmulas para el clculo directo de a y b que sirvan para cualquier
problema.
Regresin de Y sobre X
Para calcular la recta de regresin de Y sobre X nos basamos en la figura.
Figura: Los errores a minimizar son las cantidades
Una vez que tenemos definido el error de aproximacin mediante la relacin las cantidades que lo
minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los
mnimos cuadrados):
150

La relacin no es ms que otra manera de escribir la relacin, que se denomina ecuaciones normales.
La primera de se escribe como
Sustituyendo se tiene que
Lo que nos da las relaciones buscadas:
La cantidad b se denomina coeficiente de regresin de Y sobre X.
Regresin de X sobre Y
Las mismas conclusiones se sacan cuando intentamos hacer la regresin de X sobre Y. Para calcular la
recta de regresin de X sobre Y es totalmente incorrecto despejar de
151
Pues esto nos da la regresin de X sobre , que no es lo que buscamos. La regresin de X sobre Y se
hace aproximando X por , del modo
Donde
Pues de este modo se minimiza, en el sentido de los mnimos cuadrados, los errores entre las cantidades
x
i
y las
Figura: Los errores a minimizar son las cantidades
Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X y Y. Los
resultados se muestran resumidos en los siguientes estadsticos:
Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este modelo,
calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solucin:
152
Lo que se busca es la recta, que mejor aproxima los valores de Y (segn el criterio de
los mnimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500
observaciones. Los coeficientes de esta recta son:
As, el modelo lineal consiste en:
Por tanto, si x=15, el modelo lineal predice un valor de Y de:
En este punto hay que preguntarse si realmente esta prediccin puede considerarse fiable. Para dar una
respuesta, es necesario estudiar propiedades de la regresin lineal que estn a continuacin.
Propiedades de la regresin lineal
Una vez que ya tenemos perfectamente definida , (o bien ) nos preguntamos las relaciones que
hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente
proposicin:
En los ajustes lineales se conservan las medias, es decir
En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables
X y Y, y sus aproximaciones y , pues slo se mantienen en un factor de r
2
, es decir,
Basta probar nuestra afirmacin para la variable Y, ya que para X es totalmente anlogo:
153
Donde se ha utilizado la magnitud que denominamos coeficiente de correlacin, r, y que ya definimos
anteriormente como

Como consecuencia de este resultado, puede decirse que la proporcin de varianza explicada por la
regresin lineal es del .
Nos gustara tener que r=1, pues en ese caso ambas variables tendran la misma varianza, pero esto no
es cierto en general. Todo lo que se puede afirmar, como sabemos, es que
Y por tanto
La cantidad que le falta a la varianza de regresin, , para llegar hasta la varianza total de Y, ,
es lo que se denomina varianza residual, que no es ms que la varianza de , ya que
El tercer sumando se anula segn las ecuaciones normales expresadas en la relacin:
154
Por ello
Obsrvese que entonces la bondad del ajuste es
Para el ajuste contrario se define el error como , y su varianza residual es tambin
proporcional a 1-r
2
:
Y el coeficiente de determinacin (que sirve para determinar la bondad del ajuste de X en funcin de Y)
vale:
Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinacin son iguales a r
2
, y por
tanto representan adems la proporcin de varianza explicada por la regresin lineal:
Por ello:
Si el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y
viceversa).
Si las variables X e Y no estn relacionadas (linealmente al menos), por tanto no tiene
sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no posean
ninguna relacin en el caso r=0, ya que si bien el ajuste lineal puede no ser procendente, tal vez
otro tipo de ajuste s lo sea.
Ejemplo 1
155
De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la
siguiente informacin:
Calcule:
1. La recta de regresin de Y sobre X. Explique el significado de los parmetros.
2. El coeficiente de determinacin. Comente el resultado e indique el tanto por ciento de la
variacin de Y que no est explicada por el modelo lineal de regresin.
3. Si el modelo es adecuado, cul es la prediccin para x=4.
Solucin:
1. En primer lugar calculamos las medias y las covarianza entre ambas variables:
Con estas cantidades podemos determinar los parmetros a y b de la recta. La pendiente de la misma es
b, y mide la variacin de Y cuando X aumenta en una unidad:
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que
X aumenta, la tendencia es a la disminucin de Y. En cuanto al valor de la ordenada en el origen, a,
tenemos:
As, la recta de regresin de Y como funcin de X es:
2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinacin:
156
Es decir, el modelo de regresin lineal explica el de la variabilidad de Y en funcin de la de X. Por
tanto queda un de variabilidad no explicada.
3. La prediccin que realiza el modelo lineal de regresin para x=4 es:
Lo cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior, hay
una razonable cantidad de variabilidad que no es explicada por el modelo.
Ejemplo 2
Se realizan 8 mediciones de textura y grado de madurez a 10 manzanas golden, obtenindose los
siguientes resultados:
Resultado de las mediciones
textura 12 8 10 11 7 7 10 14
grado de madurez 58 42 51 54 40 39 49 56
Existe una relacin lineal importante entre ambas variables? Calcular la recta de regresin de la
textura en funcin del grado de madurez y la del grado de madurez en funcin de la textura. Calcular la
bondad del ajuste En qu medida, por trmino medio, vara el grado de madurez?
Solucin:
Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de correlacin
lineal, que vale:
Ya que
157
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ngulo entre el vector formado por las
desviaciones del grado de madurez con respecto a su valor medio y el de la textura con respecto a su
valor medio, , es:
Es decir, entre esos vectores hay un buen grado de paralelismo (slo unos 19 grados de desviacin). La
recta de regresin del grado de madurez en funcin de la textura es:
La recta de regresin de la edad como funcin del peso es
Que como se puede comprobar, no resulta de despejar en la recta de regresin de Y sobre X.
La bondad del ajuste es
Por tanto podemos decir que el de la variabilidad del grado de madurez en funcin de la
textura es explicada mediante la recta de regresin correspondiente. Lo mismo podemos decir en
158
cuanto a la variabilidad de la textura en funcin del grado de madurez. Del mismo modo puede decirse
que hay un de varianza que no es explicada por las rectas de regresin. Por
tanto la varianza residual de la regresin del grado de madurez en funcin de la textura es:
Y la de la textura en funcin del peso:
Anlisis de varianza del modelo lineal
Regresin Lineal
Un problema clsico en estadstica es tratar de determinar la relacin entre dos variables aleatorias X y
Y. Por ejemplo, podramos considerar el alto y ancho de una muestra de adultos.
La regresin lineal trata de explicar esta relacin con una lnea recta que trata de acercarse lo mas
posible a todos los puntos de la muestra.
La regresin lineal postula que
Y= a+bX+e
Donde el "residual" e es una variable aleatoria de media cero. El coeficiente a y b son escogidos de
forma tal que la suma de los cuadrados de los residuales sea lo mas cercano a cero posible.
En multitud de ocasiones, son varias las variables que se observan en la realizacin de un muestreo,
existiendo entre ellas dependencias estadsticas. En tales situaciones puede plantearse el problema de
hasta qu punto el conocimiento de unas variables, llamadas explicativas, aportan informacin
suficiente para predecir los valores de otras denominadas de respuesta.
Dependiendo de los contextos, de las hiptesis que se consideren vlidas, de la naturaleza de las
variables y del nmero de stas, se utilizaran los diferentes mtodos de regresin.
Regresin Simple (Recta de Regresin)
Los datos y el modelo
El problema de la regresin lineal simple entre dos variables X y Y se reduce a calcular la recta de
regresin que mejor represente su distribucin conjunta. Los datos se presentan como una matriz de
dos columnas:
159
Siendo (x
i
, y
i
), con i= 1, 2, ..., n, el i-simo par observado.
Se pretende ajustar un modelo de la forma
y
i
=a x
i
+b+e
i

Bajo las siguientes hiptesis:
1. La variable respuesta y
i
depende de la variable explicativa x
i
de forma lineal (con pendiente a y
ordenada en origen b), ms un factor residual aleatorio e
i
.
2. Los residuos tienen distribucin normal de media 0 y varianza desconocida.
3. Estos factores aleatorios son independientes entre s.
Nota: en el Anexo se pueden encontrar ms ejercicios, adems de las tablas de: Z, Ji2,
160
TEMA 2
Objetivo de aprendizaje.
2. Expresar las ecuaciones para estimar los parmetros de regresin lineal, definiendo el coeficiente de
correlacin R
2
y relacionarlo con la precisin de la recta estimada.
Criterio de Aprendizaje.
2.1. Practicar e ilustrar las ecuaciones de mnimos cuadrados en la estimacin de la recta e interpretar
los parmetros de la regresin y el coeficiente de correlacin R
2
.
Didctica de enseanza.
Pa.9 Regresin Lineal
Estimacin de parmetros
Los parmetros de la recta de regresin, a y b, se calculan siguiendo el criterio de los mnimos
cuadrados, lo que lleva a los siguientes resultados:
Siendo
Y
Las medias de ambas variables estadsticas.
La varianza residual es desconocida, siendo su estimador insesgado
El coeficiente de correlacin
Definiendo el coeficiente de correlacin como
,
Que slo toma valores en el intervalo [-1, 1], nos da una idea de hasta qu punto el ajuste lineal es
razonable:
161
Si r es prximo a -1: el ajuste es aceptablemente bueno, distribuyndose las observaciones (x
i
,
y
i
) alrededor de una recta de pendiente negativa.
Si r es prximo a 0: el ajuste no es aceptable, indicando que no existe relacin lineal entre las
variables.
Si r es prximo a +1: el ajuste es aceptablemente bueno, distribuyndose las observaciones (x
i
,
y
i
) alrededor de una recta de pendiente positiva.
Contraste de independencia
El contraste de independencia entre las variables es ms objetivo que la simple observacin del
coeficiente de correlacin r. As se plantea comprobar si los datos observados corroboran o no la
hiptesis nula:
H
0
: "la variable explicativa X no influye en la respuesta Y".
Frente a la alternativa:
H
1
: "la variable explicativa X influye linealmente en la respuesta Y".
Mediante el estadstico de contraste
Que se distribuye como una t
n-2
de Student, se puede contrastar la hiptesis nula H
0
al nivel de
significacin del 5%.
Caso
Se dispone de los datos de ocho anestesias de diferente duracin, efectuadas con un anestsico voltil y
del tiempo en que se restablece la conciencia suficiente como para contar hacia atrs desde un nmero
determinado sin error:
Duracin
anestesia (min)
Duracin
despertar (min)
150 13
127 16
160 21
210 20
250 16
130 13
60 12
55 14
Se intenta probar la hiptesis de que la duracin del despertar no est influida por la de la anestesia.
El coeficiente de correlacin para esta muestra es de 0.562231, a medio camino entre el 0 y el 1, no
permitiendo dar una respuesta segura sobre el contraste; en cambio, el estadstico A toma un valor de
1.66531, del que se puede deducir que la hiptesis no puede rechazarse al nivel del 5%; en conclusin,
no hay indicios de que la duracin del despertar est linealmente relacionada con el tiempo de duracin
162
de la anestesia. Si se hubiese rechazado la hiptesis de independencia, se podran ajustar los datos a la
recta de ecuacin
y = 0.03 x + 11.62, siendo x la duracin de la anestesia e y la del despertar.
Regresin Lineal Mltiple
Los datos y el modelo
Se trata de predecir el valor de una variable respuesta (y) como funcin lineal de una familia de m
variables explicativas (x
1
, x
2
, ..., x
m
), a partir de una muestra de tamao n cuyas observaciones se
ordenan matricialmente:
Siendo y
i
la i-sima variable respuesta y x
i,j
la j-sima variable explicativa asociada a la observacin i.
As las cosas, se trata de ajustar los datos a un modelo de la forma
Bajo las siguientes hiptesis:
1. Los residuos e
i
son normales de media 0 y varianza comn desconocida ; adems, estos
residuos son independientes.
2. El nmero de variables explicativas (m) es menor que el de observaciones (n); esta hiptesis se
conoce con el nombre de rango completo.
3. No existen relaciones lineales exactas entre las variables explicativas.
Estimacin de los parmetros de regresin
El estimador del vector paramtrico es
Siendo
163
Habindose indicado la transposicin matricial mediante el superndice T.
Estimacin de la varianza
El estimador insesgado de la varianza , conocido con el nombre de varianza residual, tiene por
expresin
Coeficiente de determinacin corregido
El coeficiente de determinacin corregido, definido como
Siendo
Mide el ajuste del modelo, se interpreta como el porcentaje de variacin de la variable respuesta
explicada por el modelo; as, cuanto ms se acerque R
2
a 100, con ms confianza se podr considerar el
modelo lineal como vlido.
Contraste de regresin
El contraste de regresin es imperativo a la hora de diagnosticar y validar el modelo que se est
ajustando; consiste en decidir si realmente la variable respuesta y es funcin lineal de las explicativas
x
1
, x
2
, ..., x
m
. Formalmente, el contraste se plantea en los siguientes trminos:
H
0
: "no existe dependencia lineal: "
Frente a la alternativa:
H
1
: "s existe alguna dependencia lineal: ".
El estadstico de contraste es
Que se distribuye como una F
m,n-m-1
de Snedecor. El contraste se realiza con un nivel de significacin
del 5%.
Caso
164
En una muestra de 25 hospitales, el analista ha recogido los siguientes datos sobre el costo anual en
1988 (variable respuesta), as como sobre el personal sanitario y el nmero de camas durante el mismo
ao.
Coste
hospitalario
Personal
sanitario
Nmero
de camas
1000 100 300
750 50 150
500 25 100
350 15 70
400 20 80
750 30 100
850 70 200
450 30 90
450 35 100
350 25 75
800 39 125
950 70 260
900 60 215
500 25 95
1000 65 300
365 20 75
400 45 94
525 50 108
400 46 93
400 46 93
350 20 76
500 36 129
600 50 183
550 50 145
750 65 250
800 70 275
Se quiere ajustar un modelo lineal que devuelva el coste de mantenimiento hospitalario en funcin del
personal sanitario y del nmero de camas.
En primer lugar observamos que el nmero de variables explicativas es 2, por lo que se necesitan
estimar tres parmetros de regresin: 222.28 para el trmino independiente, 1.28 para la variable
personal sanitario y 2.24 para el nmero de camas. La desviacin tpica residual y el coeficiente de
determinacin corregido toman los valores 107.80 y 76.49%, respectivamente. Finalmente, el contraste
de regresin rechaza la hiptesis de independencia al nivel del 5%, dando a entender que no hay
indicios de que el modelo lineal
y = 222.28 + 1.28 x
1
+ 2.24 x
2
Deba ser rechazado. Sin embargo, un anlisis ms detallado muestra que la inclusin de la variable
personal sanitario no aporta informacin relevante, de modo que al eliminarla se obtiene el modelo
165
y = 232.34 + 2.55 x
2
,
Con una desviacin tpica residual de 106.08 y un coeficiente de determinacin de 77.23%, parmetros
de diagnstico ligeramente mejores que los anteriores. Para comprobar estos resultados, eliminar en el
panel superior de entrada los datos centrales (100, 50, 25, 15, etc.) y volver a pulsar la barra central.
Mtodo de mnimos cuadrados
La formula de regresin de la muestra que represntale modelo de regresin en lnea recta sera:

=bo + b1X
Donde es el valor del predicho de Y para la observacin y X
Estimacin por mnimos cuadrados generalizados.
En un modelo de regresin lineal se supone que la matriz de varianzas-covarianzas de los errores es de
la forma
Siendo I
n
la matriz identidad de orden n. Si no se verifica la hiptesis de homocedasticidad, o la de
independencia, o ambas, entonces la matriz de varianzas-covarianzas tiene la forma general
Siendo una matriz simtrica, definida positiva de orden n n. En este caso, se puede calcular el
estimador de por el mtodo de mnimos cuadrados generalizados. Este mtodo se desarrolla en dos
etapas: en una primera etapa se transforma el modelo de regresin original
Para ello y por ser una matriz simtrica, definida positiva, existe una matriz cuadrada P tal que
Esta matriz no tiene porque ser nica, pero si existe. Multiplicando por P la ecuacin de regresin se
obtiene
(10.3)
Denominando
*
= P , X
*
= PX y
*
= P , se obtiene la ecuacin de regresin
Y los errores del modelo verifican
166
Por tanto los errores son incorrelados y homocedsticos. Ahora se puede aplicar el mtodo de mnimos
cuadrados ordinarios a estos datos transformados para obtener el estimador
Por el Teorema de Gauss-Markov, este estimador
G
es el mejor estimador lineal insesgado. En la
prctica, la matriz P, aunque existe, es desconocida y es necesario estimarla a partir de las
observaciones, obteniendo el estimador
A continuacin se exponen dos situaciones comunes en las que se puede aplicar este mtodo de
estimacin.
Heterocedasticidad.
Si las observaciones son independientes pero heterocedsticas entonces la matriz de varianzas-
covarianzas viene dada por
Y la matriz P
En este caso los datos transformados son
167
Esto equivale a trabajar con el modelo transformado
Sobre este modelo se aplica ahora el mtodo de mnimos cuadrados ordinarios. En particular, si se
trabaja con el modelo de regresin lineal se obtiene el siguiente estimador del coeficiente de regresin
Este estimador se denomina estimador por mnimos cuadrados ponderados y es un caso particular
del estimador por mnimos cuadrados generalizados. En la prctica, para utilizar este estimador hay que
calcular estimadores de los parmetros
1
2
,...,
n
2
, lo que puede hacerse por uno de los siguientes
mtodos:
* Suponer que la varianza se ajusta a una funcin
Y estimar la funcin g.
* Hacer grupos en las observaciones (en el orden en que se han recogido) normalmente del mismo
tamao k y suponer que en cada grupo la varianza es constante. Entonces se estima la varianza en cada
grupo a partir de las observaciones del grupo. Una forma de conseguir esto es ajustar el modelo de
regresin por mnimos cuadrados ordinarios a las observaciones originales y a partir de los residuos de
este modelo obtener los estimadores de la varianza en cada grupo.
Observaciones dependientes.
168
Si las observaciones son homocedsticas pero dependientes entonces la matriz de varianzas-
covarianzas es de la forma general
En la mayora de las situaciones la estructura de dependencia de los errores puede ajustarse a un
modelo paramtrico. Un modelo sencillo y muy utilizado es el modelo AR , (modelo autorregresivo
de orden uno). En este caso se verifica que los errores siguen la ecuacin
siendo la autocorrelacin de orden 1 del proceso
t
, por tanto, < 1, y a
t
es una sucesin de variables
aleatorias independientes e igualmente distribudas.
En este caso, la matriz de varianzas-covarianzas es
La matriz P de transformacin es
Y la matriz
-1
es
169
Utilizando esta matriz se obtiene el estimador por mnimos cuadrados generalizados
Nuevamente, en la prctica,
-1
es desconocido y se tiene que estimar. Por la forma de la matriz
-1
, es
suficiente con estimar el parmetro y sustituir en la matriz. Para estimar , puede utilizarse el
siguiente procedimiento: ajustar a los datos el modelo de regresin lineal por mnimos cuadrados
ordinarios y calcular los residuos mnimo cuadrticos
A partir de estos residuos se obtiene el siguiente estimador de ,
sustituyendo por en la matriz
-1
se obtiene la matriz estimada
-1
, a partir de la cual se obtiene el
estimador
Siguiendo este procedimiento se puede obtener el siguiente estimador iterativo:
Paso 1. Se utiliza el estimador
F
para obtener nuevos residuos e
i
'
.
Paso 2. De estos residuos se obtiene un nuevo estimador
'
.
Paso 3. Utilizando
'
se calcula un nuevo estimador
F
'
.
Se contina el proceso de forma iterativa (volver al Paso 1) hasta obtener la convergencia del estimador
F
(estimador iterativo de Cochran y Orcutt (1949)).
En este problema tambin se pueden considerar otros estimadores del parmetro o modelos de
dependencia ms complejos que dependen de un nmero mayor de parmetros.
Ejemplo
Se desea ajustar un modelo de regresin lineal simple de diseo fijo a cien observaciones, donde los
valores de la variable explicativa son x
i
= i/n, i = 1,...,100 (diseo fijo equiespaciado) y los valores de la
variable respuesta vienen dados en la tabla adjunta (ledos por columnas). Analizar la hiptesis de
independencia de los residuos.
2
'
4
1
1
'
4
3
2
'
3
4
2
'
1
1
2
'
9
1
4
'
5
2
3
'
5
5
3
'
6
3
2
'
3
2
2
'
5
9
3
'
1
0
1
'
4
9
2
'
5
6
2
'
1
3
2
'
6
4
4
'
1
4
3
'
0
4
3
'
6
4
2
'
4
6
3
'
1
5
2
'
6 1
'
8 2
'
5 1
'
8 2
'
5 4
'
1 3
'
3 3
'
4 2
'
3 3
'
2
170
1 5 5 5 3 7 4 0 1 9
1
'
8
7
1
'
6
9
2
'
9
5
2
'
2
5
2
'
7
5
3
'
6
6
3
'
2
1
3
'
1
7
2
'
4
1
3
'
2
3
1
'
4
7
1
'
0
1
2
'
2
8
2
'
4
2
2
'
7
2
2
'
8
4
2
'
1
5
2
'
8
0
2
'
2
9
2
'
8
1
2
'
7
0
2
'
5
6
3
'
3
1
2
'
7
6
3
'
1
6
3
'
4
7
2
'
6
9
3
'
2
4
2
'
7
0
2
'
0
8
1
'
4
8
1
'
9
1
2
'
0
8
3
'
1
4
3
'
1
9
2
'
3
0
3
'
3
9
3
'
5
2
2
'
8
0
2
'
5
7
1
'
4
7
2
'
7
3
2
'
1
0
3
'
0
3
3
'
4
3
3
'
1
0
3
'
8
4
3
'
5
3
3
'
2
9
3
'
1
7
1
'
8
5
1
'
9
3
2
'
0
3
3
'
0
5
3
'
2
2
3
'
8
9
4
'
0
7
3
'
2
2
3
'
1
4
2
'
8
0
1
'
9
1
1
'
9
3
1
'
7
0
3
'
3
1
4
'
2
4
3
'
6
0
3
'
4
5
2
'
5
2
2
'
7
8
2
'
3
8
Ajustando la recta de regresin por mnimos cuadrados se obtiene
Las observaciones muestrales y la recta ajustada se representan en la Figura.
Figura. Datos y recta ajustada por MCO.
171
Los residuos de este modelo presentan una clara dependencia positiva. Esto se observa en el grfico de
residuos frente al ndice
Figura Residuos MCO segn ndice.
En la Figura 10.3. Se representa el correlograma (f.a.s.) de los residuos del modelo y se observa que las
primeras autocorrelaciones de los residuos son muy altas. En particular, r
1
= 0
'
758, con desviacin
tpica = 0
'
099. Utilizando el contraste de independencia de Ljung-Box (Seccin 4.7.2.) se obtiene
para m = 5 (nmero de retardos) que
172
Figura. F.a.s. de los residuos MCO.
En la Figura se representa el grfico de autocorrelaciones parciales (f.a.p.) de los residuos y se observa
que la fap de orden uno es muy grande. De todo se concluye que no se acepta la hiptesis de
independencia.
Figura. F.a.p. de los residuos MCO.
De los grficos representados en las Figuras 10.3 y 10.4 se deduce que la sucesin de errores del
modelo de regresin sigue una estructura de dependencia del tipo AR (1) con = 0
'
758. En base a ello
se estima la recta de regresin por mnimos cuadrados generalizados utilizando la matriz de
transformacin dada anteriormente. Se obtiene el siguiente modelo de regresin
Las dos rectas de regresin obtenidas por mnimos cuadrados y por mnimos cuadrados generalizados
se representan en la Figura siguiente. En este ejemplo la diferencia entre las dos rectas estimadas es
pequea.
173
Figura. Las dos rectas ajustadas.
174
Prctica 9
Regresin lineal
Instrucciones: resuelve correctamente los ejercicios que se enlistan.
Nota: Debido al perfil de la materia lo que se recomienda es la resolucin de ejercicios.
1. Sea la matriz de covarianzas entre X y Y:
> var(datos)
X Y
X 1.866667 1.100
Y 1.100000 1.175
Halla la correlacin lineal entre ambas (r
XY
).
2. Sea la variable dependiente Z predicha a travs de la expresin lineal aY+b, donde Y es una
variable regresora. Deduce la expresin de los estimadores de a y b por mnimos cuadrados.
3. Sean las variables X = "nmero de hijos" y Y = "gastos navideos". La siguiente tabla recoge
las frecuencias observadas en cierta encuesta:
Y \X 0 1 2
5 3 3 2
10 8 9 3
15 5 9 7
20 0 1 2
Da las medias y desviaciones tpicas de cada variable, as como el coeficiente de correlacin lineal
entre las dos.
4. Considera una regresin Y=a+bX. Se pretende predecir el comportamiento de Y para X=X
0
.
Explica las diferencias entre un intervalo de confianza para el valor esperado de Y y un intervalo
de prediccin para Y.
5. Se quiere predecir la variable Z a partir de alguna (y slo una) de las variables X, Y y V. Cmo
decidiras cul de las tres escoger?
6. Cmo se expresa la calidad de un anlisis de regresin?
7. En un proceso agroindustrial, se han considerado el factor A = "intensidad media" y B =
"cantidad de proyeccin". Se han observado treinta valores (a
i
,b
i
) (i=1..30). Representados
grficamente, parece que adoptan una forma hiperblica. Por ello, se pretende ajustar la curva
AB=x+yA, siendo x y y parmetros de la curva. Cmo llevaras a cabo el anlisis?
8. La siguiente tabla presenta una muestra experimental relacionada con un estudio sobre la
influencia del tiempo trascurrido desde el despertar (T) en el rendimiento en una prueba
sicotcnica (R):
9.
T 2'5 2'8 3'1 3'3 3'9 4'0 4'5
R 9'6 9'9 9'8 9'9 9'2 9'1 7'8
Los puntos adoptan una disposicin claramente parablica. Describe un modelo matemtico y un
mtodo de anlisis adecuados.
175
10. Un fabricante de motos pretende determinar qu factores influyen en la velocidad mxima que
pueden alcanzar sus modelos. Efecta mediciones de la velocidad mxima que alcanzan
ochenta motos, para las cuales registra los valores de cuarenta variables continuas que piensa
pueden tener relacin con aqulla: potencia, cilindrada, dimensiones, aerodinmica, etc. Propn
un mtodo para llevar a cabo el estudio, detallando los pasos principales.
11. Da una interpretacin del coeficiente de determinacin.
12. En un estudio llevado a cabo en ocho ciudades de Mxico, se obtuvo el nmero de autos y
celulares por cada mil habitantes:
Provincia Xicotepec Zacatln Huahuchinango Teziutln Acatln Tehuacn Amozoc Zaragoza
Autos 58 84 78 81 82 102 85 102
Mviles 64 78 83 88 89 99 101 102
Discute qu proporcin de la variacin de la tasa de celulares por mil habitantes puede explicarse a
partir de la tasa de autos. Dato: la recta de mnimos cuadrados de "mviles" sobre "autos" es
19'83+0'81autos, con r=0'87.
13. Relaciona el coeficiente de determinacin con el contraste de regresin
176
V REFERENCIAS
Rendn, S. Gilberto. 1997. Muestreo, aplicacin en la estimacin simultnea de varios
parmetros. Universidad Autnoma Chapingo, Mxico.
Rendn, S. Gilberto. 1998. Mtodos estadsticos, muestreo, diseos experimentales, estadstica
no paramtrica. Universidad Autnoma Chapingo, Mxico.
Tamayo, T. Mario. 1998. El proceso de la investigacin cientfica
Levin, I. Richard; Rubin S. David. 1996. Estadstica para Administradores, Ed. Prentice Hall,
Sexta Edicin
Menderihall, William; Wackerly, Demis; . Estadstica Matemticas
Len T., Aurelio et al. Antologa de Matemticas IV, Colegio de Bachilleres del Estado de Puebla.
Sitios de internet visitados:
www.//ftp.metprev.uma.es
http://ftp.medprev.uma.es/libro/html.htm
http://www.hrc.es/bioest/Anova_1.html
http://www.itson.mx/un/posgrado/Estadistica/Descriptiva%20,%20teoria,%20ejercicios.doc
http://highered.mcgraw-
hill.com/sites/9701033612/information_center_view0/tabla_de_contenido.html
http://www.seh-lelha.org/ancova.htm
http://www.sportsci.org/resource/stats/ancova.html
http://trochim.human.cornell.edu/kb/expcov.htm
http://www.angelfire.com/emo/tomaustin/Met/guiaseismuestra.htm
http://www.uv.es/~meliajl/Research/LibroBMDP/BMBPinde.html
http://www3.uji.es/~mateu/ejer-tema5-d37.doc
http://www.hrc.es/bioest/Ejemplos_histo.html
http://www.gesell.com.ar/geselinos/egb/problema.htm
VI GLOSARIO
177
178
VII ANEXOS
Ejercicios y ejemplos
Concepto de variable aleatoria.
Se llama variable aleatoria a toda aplicacin que asocia a cada elemento del espacio muestral de un experimento, un nmero
real.
Ejemplo:
Sea el experimento que consiste en lanzar tres monedas al aire. El espacio muestral ser:
{ } xxx xxc xcx cxx xcc cxc ccx ccc E , , , , , , ,
Si a cada elemento de E le hacemos corresponder, por ejemplo, el nmero de caras, hemos definido una variable aleatoria.
2 ccx 1; xxc 2; xcc ; 3 ccc
1 xcx 2; cxc 0; xxx 1; cxx
Se utilizan letras maysculas para designar las v.a. y sus respectivas letras minsculas para los valores concretos de las
mismas.
Variable aleatoria discreta.
Es la que solo puede tomar determinados valores.
La variable aleatoria nmero de caras en el lanzamiento de tres monedas slo puede tomar los valores 0, 1, 2 y 3. (Es
discreta).
La variable aleatoria suma de las caras superiores en el lanzamiento de dos dados puede tomar solamente los valores 2, 3, 4,
5, 6, 7, 8, 9, 10, 11 y 12. (Es tambin discreta)
Funcin de probabilidad de una v.a. discreta.
Es la aplicacin que asocia a cada valor x de la v.a. X su probabilidad p.
Los valores que toma una v.a. discreta X y sus correspondientes probabilidades suelen disponerse en una tabla con dos filas
o dos columnas llamada tabla de distribucin de probabilidad:
X
n 3 2 1
x x x x
) (
i
x X P
n
p p p p
3 2 1
En toda funcin de probabilidad se verifica que 1
3 2 1
+ + + +
n
p p p p
Ejemplo: La v.a. nmero de caras en el lanzamiento de tres monedas tiene la siguiente funcin de probabilidad:
N de caras 0 1 2 3
f(x)= ) (
i
x X P
8
1

8
3

8
3

8
1
Funcin de distribucin de una v.a. discreta.
Sea X una v.a. cuyos valores suponemos ordenados de menor a mayor.
Se llama funcin de distribucin de la variable X a la funcin que asocia a cada valor de la v.a. la probabilidad acumulada
hasta ese valor, es decir, ) ( ) ( x X p x F
Media, varianza y desviacin tpica de una variable aleatoria discreta.
Se llama de una v.a. discreta X, que toma los valores
n
x x x x ........ , ,
3 2 1
con probabilidades
n
p p p p .. .......... , ,
3 2 1
al valor de la siguiente expresin:

i i
p x .
La varianza viene dada por la siguiente frmula:


2 2 2
.
i i
p x , bien


i i
p x . ) (
2 2

La desviacin tpica es la raiz cuadrada de la varianza.
179
Ejercicio.
La distribucin de probabilidad de una v.a. X viene dada por la siguiente tabla:
xi 5 4 3 2 1
pi 0,1 0,3 0,2 0,3
Cunto vale p(X=3)
Calcula la media y la varianza.
Solucin:
La suma de todas las probabilidades es 1, por tanto,
1 3 , 0 2 , 0 ) 3 ( 3 , 0 1 , 0 + + + + X p luego p(X=3)=0,1
Formamos la siguiente tabla:
i
x
i
p
i i
p x .
i i
p x .
2
1
2
3
4
5
0,1
0,3
0,1
0,2
0,3
0,1
0,6
0,3
0,8
1,5
0,1
1,2
0,9
3,2
7,5

01 , 2 ) 3 , 3 ( 9 , 12 .
2 2 2 2

i i
p x
Experimento de Bernoulli
Es un experimento que tiene las siguientes caractersticas:
1. En cada prueba del experimento slo son posibles dos resultados: el suceso ha llamado A llamado xito y el suceso A
llamado fracaso.
2. El resultado obtenido en cada prueba es independiente de los resultados anteriores.
3. La probabilidad del suceso A es constante y no vara de unas pruebas a otras.
La distribucin de probabilidad de este experimento recibe el nombre de distribucin binomial de parmetros n y p
n es el nmero de pruebas del experimento y p es la probabilidad del xito.
Si representamos por X la variable aleatoria binomial que representa el nmero de xitos obtenidos en las n del
experimento, podemos escribir:
p(obtener r xitos )=p(X=r)=
r n r
p p
r
n

,
_

) 1 . (

Esta expresin recibe el nombre de funcin de probabilidad de una distribucin binomial o de Bernoulli.
Dado que en este tipo de experiencias los clculos pueden ser laboriosos, se han construido unas tablas que nos
proporcionan la probabilidad de que la variable X tome distintos valores, segn los distintos valores de n y r.
180
Media y varianza de una distribucin binomial.

Media:
p n.
Varianza: 1 ; . .
2
p q q p n
Desviacin tpica: q p n . .
Ejercicios resueltos.
1.- Calcula la probabilidad de que una familia que tiene 4 hijos, 3 de ellos sean varones.
Solucin: Se trata de un experimento de Bernoulli donde n=4 y p=1/2
p(obtener 3 varones)=P(X=3)=
4
1
5 , 0 . 5 . 0 .
3
4
1 3

,
_

Recuerda:

,
_

3
4
es un nmero combinatorio cuyo valor se obtiene as:
1 . 2 . 3
2 . 3 . 4
3
4

,
_

En general
) ! ! . (
!
. 1 2 ) . . . . . 3 . 2 - 1 ) . ( n - n . ( n
n u m e r a d o r e l e n f a c t o r e s ) . . . . . . 2 ) . ( 1 . (
n m n
m n t e n e r h a s t a m m m
n
m

,
_

181
2.- Se tiene una moneda trucada de modo que la probabilidad de sacar cara es cuatro veces la de sacar cruz. Se lanza 6
veces la moneda. Calcula las siguientes probabilidades:
Obtener dos veces cruz.
Obtener a lo sumo dos veces cruz.
Solucin:
Calculamos en primer lugar la probabilidad de cara y de cruz:
p(cara)+p(cruz)=1. Si llamamos x a la probabilidad de sacar cruz, podemos escribir:
4x+x=1; 5x=1; x=0,2
As resulta: p(cruz)=0,2 y p(cara)=0,8
Es una distribucin binomial de parmetros n=6 y p=0,2
Probabilidad de obtener dos veces cruz:
2 4 , 0 ) 4 0 9 6 , 0 ) . ( 0 4 , 0 . ( 1 5 ) 8 , 0 . ( ) 2 , 0 . (
2
6
) 2 (
4 2

,
_

X p
Probabilidad de obtener a lo sumo dos veces cruz:
+ + ) 2 ( ) 1 ( ) 0 ( ) 2 ( X p X p X p X p
=
9 0 , 0 ) 8 . 0 . ( ) 2 . 0 . (
2
6
) 8 , 0 . ( ) 2 , 0 . (
1
6
) 8 , 0 . ( ) 2 , 0 . (
0
6
4 2 5 1 6 0

,
_

,
_

,
_

182
3.- La probabilidad de que un alumno de 1 de Bachillerato repita curso es de 0,3. Elegimos 20 alumnos al azar. Cul es la
probabilidad de que haya exactamente 4 alumnos repetidores?
Solucin:
Se trata de una binomial de parmetros 20 y 0,3, es decir, B(20; 0,3)
Si X es el nmero de alumnos que repiten,
1 3 , 0 7 , 0 . 3 , 0 .
! 1 6 ! . 4
! 2 0
7 , 0 . 3 , 0 .
4
2 0
) 4 (
1 6 4 1 6 4

,
_

X p
4.- Calcula la esperanza matemtica, la varianza y la desviacin tpica de la variable aleatoria X, cuya funcin de
probabilidad viene dada por la siguiente tabla:
xi -4 -1 2 5
) (
i
x X p
0,1 0,5 0,3 0,1
Solucin:
La esperanza matemtica es la media: 2 , 0 1 , 0 . 5 3 , 0 . 2 5 , 0 ). 1 ( 1 , 0 ). 4 ( + + +

+ + + 76 , 5 2 , 0 1 , 0 . 5 3 , 0 . 2 5 , 0 . ) 1 ( 1 , 0 . ) 4 ( .
2 2 2 2 2 2 2 2

i i
p x
4 , 2 76 , 5
5.- Sea la siguiente funcin de probabilidad:
xi
1 3 5 7 9
pi 0,2 0,2 0,4 0,1 0,1
Escribe la funcin de distribucin y calcula: ) 5 ( X p y ) 7 3 ( X p
Solucin:
xi
1 3 5 7 9
F(x)=P(X xi) 0,2 0,4 0,8 0,9 1
8 , 0 ) 5 ( X p ; + + ) 7 ( ) 5 ( ) 3 ( ) 7 ( X p X p X p X p
7 , 0 1 , 0 4 , 0 2 , 0 + +
183
Ejercicios propuestos.
1.- La probabilidad de que un reloj salga de fbrica defectuoso es del 4 %. Halla:
a) El nmero de relojes defectuosos esperados en un lote de 1000
b) La varianza y la desviacin tpica.
( Solucin: 40 y 6,19)
2.- Una determinada raza de perros tiene 4 cachorros en cada camada. Si la probabilidad de que un cachorro sea macho es
de 0,55, se pide:
a) La probabilidad de que en una camada dos exactamente sean hembras
b) Probabilidad de que en una camada al menos dos sean hembras.
(Solucin: 0,3675; 0,609 )
3.- Considera una variable aleatoria discreta X cuya distribucin de probabilidad es la siguiente:
xi 1 2 3
P(X = xi) k 0,45 k

a) Calcula el valor de k
b) Halla la funcin de probabilidad
c) Halla la funcin de distribucin F.
Solucin
k = 0,275.
Funcin de probabilidad:
xi 1 2 3
f(x)=P(X = xi) 0,275 0,45 0,275

Funcin de distribucin:
xi 1 2 3
F(x)=P(X xi) 0,275 0,725 1

4.- Considera una variable aleatoria X cuya funcin de probabilidad viene dada por la siguiente tabla:
x -25 -10 0 5
f(x) a 2a 3a 4a
a) Deduce el valor de a.
b) Halla la funcin de distribucin F
c) Calcula la esperanza, la varianza y la desviacin tpica.
Solucin: a) 0,1; c) 2,5; 86,25; 9,29
5.- La probabilidad de que un estudiante obtenga el ttulo de arquitecto es 0,3. Calcula la probabilidad de que un grupo de 7
estudiantes matriculados en primer curso:
a) Ninguno de los 7 finalice la carrera.
b) Finalicen los 7.
c) Al menos 2 acaben la carrera.
d) Slo finalice uno la carrera.
Solucin: 0,082; 0,00021; 0,671; 0,2471
6.- El 20 % de los tornillos de un gran lote so defectuosos. Se cogen tres tornillos al azar y se pide calcular razonadamente:
a) La probabilidad de que los tres sean defectuosos.
b) La probabilidad de que ninguno sea defectuoso.
184
c) La probabilidad de que solamente uno sea defectuoso.
(Propuesto en Selectividad, Alicante, septiembre de 2001)
Variable aleatoria continua.
Distribucin normal.
Conocimientos previos
CONCEPTO DE INTEGRAL DEFINIDA.
Para hallar el rea del recinto limitado por la curva f(x), el eje de abscisas y las rectas x=a y x=b, se utiliza la siguiente
frmula:

b
a
dx x f Area ) (
que recibe el nombre de integral definida de f entre los lmites a y b
y se lee integral entre a y b de f(x).
La integracin es la operacin inversa de la derivacin.
Por ejemplo, si
n
x x f ) ( , la frmula anterior se resuelve de la siguiente forma:
b
a
n
b
a
n
n
x
dx x
1
]
1

1
1
Primero se sustituye la x por b y al resultado obtenido le llamaremos F(b).
Despus se sustituye la x por a y al resultado obtenido le llamaremos F(a)
Finalmente restamos los resultados, es decir,
) ( ) ( a F b F dx x
b
a
n

Ejercicio:
Resuelve la siguiente integral definida:

+
3
1
2
) 3 2 ( dx x x
Solucin:
) 1 ( ) 3 ( 3
3
) 3 2 (
3
1
2
3
3
1
2
F F x x
x
dx x x
1
]
1

+ +

9 9 9 9 ) 3 ( + F
3
5
3 1
3
1
) 1 ( + F
luego
3
32
3
5
9 )
3
5
( 9 ) 3 2 (
3
1
2
+ +

dx x x
185
Cuando se calculan reas los resultados se toman en valor absoluto.
Variable aleatoria continua.
Es aquella que puede tomar infinitos valores dentro de un intervalo de la recta real. Por ejemplo, la duracin de las
bombillas de una determinada marca y modelo.
En el caso de variables aleatorias continuas no tiene sentido plantearse probabilidades de resultados aislados, por ejemplo,
probabilidad de que una bombilla dure 100 horas, 22 minutos y 16 segundos. La probabilidad sera 0.
El inters de estas probabilidades est en conocer la probabilidad correspondiente a un intervalo. Dicha probabilidad se
conoce mediante una curva llamada funcin de densidad y suponiendo que bajo dicha curva hay un rea de una unidad.
Conociendo esta curva, basta calcular el rea correspondiente para conocer la probabilidad de un intervalo cualquiera.
La funcin de densidad de una v.a. continua cumple las siguientes condiciones:
Slo puede tomar valores comprendidos entre 0 y 1:
1 ) ( 0 x f
El rea encerrada bajo la curva es igual a la unidad:
1 ). (

+

dx x f
.
Ejercicio:
Sea [ ] 6 , 0 con
18
) ( x
x
x f . Comprueba que es una funcin de densidad y calcula ) 5 2 ( x p
Solucin:
Para que sea funcin de densidad

6
0
18
dx
x
tiene que valer 1. Veamos:
1 0
2
36
18
1
2 18
1
18
6
0
2
6
0

,
_


1
]
1

x
dx
x
12
7
36
21
2
4
2
25
18
1
2 18
1
18
) 5 2 (
5
2
2
5
2

,
_


1
]
1

x
dx
x
x p
Funcin de distribucin.
Como en el caso de la v.a. discreta, la funcin de distribucin proporciona la probabilidad acumulada hasta un determinado
valor de la variable, es decir, ) ( ) ( x X p x F .
Cumple las siguientes condiciones:
Su valor es cero para todos los puntos situados a la izquierda del menor valor de la variable.
Su valor es 1 para todos los puntos situados a la derecha del mayor valor de la variable.
Media y varianza de una v.a. continua.
Existe cierta correspondencia entre la variable aleatoria discreta y la continua:
Variable aleatoria discreta Variable aleatoria continua

i i
p x .

b
a
dx x f x ). ( .


2 2 2

i i
p x


b
a
dx x f x
2 2 2
) (
Lo que es

pasa a ser

y lo que es
i
p pasa a ser ) (x f
186
Ejercicio 1.
La funcin de densidad de una v.a. continua viene definida por :

'

r e s t o e l e n 0
1 x 0 s i 2
) (
x
x f
a) Halla la funcin de distribucin.
b) Calcula la media y la varianza.
Solucin:
a) La funcin de distribucin se obtiene integrando la funcin de densidad, es decir,
A la izquierda de 0, su valor 0.
A la derecha de 1, su valor es 1
Entre 0 y 1: ]
2
0
2
0
2 ) ( ) ( x x xdx x X p x F
x
x

es decir,

'

>

<

1 x p a r a 1
1 x 0 s i x
0 x s i 0
) (
2
x F
b) Clculo de la media:
3
2
. 2 . ). ( .
1
0


dx x x dx x f x
b
a

Clculo de la varianza:
18
1
9
4
. 2 . ) (
1
0
2 2 2 2


dx x x dx x f x
b
a

Ejercicio 2.
Calcula la media, la varianza y la desviacin tpica de una v.a. que tiene como funcin de densidad:
[ ] 5 , 1 con
24
3
) (
+
x
x
x f
Solucin:
Media:


1
]
1

+ +
+

9
29
2
3
3 24
1
) 3 (
24
1
24
3
. ). ( .
5
1
2 3
5
1
2
x x
dx x x dx
x
x dx x f x
b
a

Varianza:


,
_

+
,
_

+

5
1
2
2 3
5
1
2
2 2 2 2
9
29
) 3 (
24
1
9
29
24
3
) ( dx x x dx
x
x dx x f x
b
a

28 , 1
81
104
9
29
4 24
1
2
5
1
3
4

,
_

1
]
1

+ x
x
.
Desviacin tpica: 13 , 1 28 , 1
Ejercicio 3.
Sea [ ] 5 , 2 con
36
1
) (
2

x
x
x f , una funcin de densidad.
a) Calcula su funcin de distribucin.
187
b) Calcula ) 4 3 ( x p .
Solucin:
a)
108
2 3
)
3
(
36
1
) 1 (
36
1
36
1
) ( ) (
3
2
3
2
2
2
2

1
]
1



x x
x
x
dx x dx
x
x X p x F
x
x x
Su valor es cero para todos los puntos situados a la izquierda de 2
Su valor es 1 para todos los puntos situados a la derecha de 5
b)
54
17
3
3
36
1
3 36
1
) 1 (
36
1
36
1
) 4 3 (
4
3
3
4
3
3
4
3
2
4
3
2

1
]
1

1
]
1

,
_



x x
x
x
dx x dx
x
x p
Distribucin normal.
Hay muchas v.a. continuas cuya funcin de densidad tiene forma de campana.
Ejemplos:
- La variable peso en una poblacin de personas de la misma edad y sexo.
- La variable altura de la poblacin citada.
- etc.
Se dice que estas variables tienen una distribucin normal y la funcin de densidad recibe el nombre de curva normal o
campana de Gauss.
Para expresar que una v.a. continua X, tiene una distribucin normal de media

y desviacin tpica , escribimos


) , ( N .
Distribucin normal estndar.
De las infinitas distribuciones ) , ( N , tiene especial inters la de media 0 y desviacin tpica 1, es decir, ) 1 , 0 ( N .
Esta distribucin recibe el nombre de estandar o reducida
Existen unas tablas que permiten calcular probabilidades en distribuciones normales reducidas. Por ello es aconsejable
transformar cualquier v.a. X que sigue que sigue una distribucin ) , ( N en otra variable Z que siga una distribucin
N(0,1).
El cambio de variable que es necesario hacer es el siguiente:

X
Z
Clculo de probabilidades en distribuciones normales reducidas.
Sea Z una variable que sigue una distribucin normal N(0,1).
Vamos algunos ejemplos que nos permiten calcular determinadas probabilidades en las tablas:
a) ) 23 , 1 ( Z p
La probabilidad pedida se encuentra directamente en las tablas. Basta buscar 1,2 en la columna y 0,03 en la fila. Su
interseccin nos da la probabilidad.
188
Representacin grfica de la funcin de densidad
de una distribucin normal.

b) ) 24 , 1 ( Z p
En este caso la probabilidad pedida no est en las tablas. Sin embargo, si tenemos en cuenta que el rea total bajo la grfica
ha de ser 1, deducimos de la figura que:
1075 , 0 8925 , 0 1 ) 24 , 1 ( 1 ) 24 , 1 ( Z p Z p .
c) ) 72 , 0 ( Z p
Como la grfica es simtrica respecto al eje de ordenadas, ) 72 , 0 ( ) 72 , 0 ( Z p Z p y ya estamos en el caso
anterior. Comprueba que el resultado final es 0,2358.
d) ) 76 , 1 5 , 0 ( Z p
Observando la figura se deduce que
2693 , 0 6915 , 0 9608 , 0 ) 5 , 0 ( ) 76 , 1 ( ) 76 , 1 5 , 0 ( Z p Z p Z p
Ejercicio 4
El peso de los individuos de una poblacin se distribuye normalmente con media de 70 Kg. y desviacin tpica 6 Kg. De
una poblacin de 2000 personas, calcula cuntas tendrn un peso comprendido entre 64 y 76 Kg.
Solucin:
Se trata de una distribucin N(70,6)
) 1 ( ) 1 ( ) 1 1 (
6
70 76
6
70 64
) 76 64 (
,
_

Z p Z p Z p Z p X p
189
8413 , 0 ) 1 ( Z p (directamente en las tablas)
8413 , 0 1 ) 1 ( 1 ) 1 ( ) 1 ( Z p Z p Z p .
Por tanto, 6825 , 0 8413 , 0 1 8413 , 0 ) 8413 , 0 1 ( 8413 , 0 ) 76 64 ( + X p
Esto significa que el 68,25 % de las personas pesan entre 64 y 76 Kg..
Como hay 2000 personas, calculamos el 68,25% de 2000 y obtenemos 1365 personas.
Ejercicio 5.
La duracin media de un lavavajillas es de 15 aos y su desviacin tpica 0,5. Sabiendo que su vida til se distribuye
normalmente, halla la probabilidad de que al adquirir un lavavajillas dure ms de 15 aos.
Solucin:
Es una distribucin normal de media 15 y desviacin tpica 0,5, es decir, N(15; 0,5).
5 , 0 ) 0 ( ) 0 ( )
5 , 0
15 15
( ) 15 (

Z p Z p Z p X p
Ejercicio 6.
La nota media de las pruebas de acceso correspondientes a los estudiantes que queran ingresar en una facultad era 5,8 y la
desviacin tpica 1,75. Fueron admitidos los de nota superior a 6.
a) Cul fue el porcentaje de admitidos si la distribucin es normal?
b) Con qu probabilidad exactamente cuatro de diez estudiantes son admitidos?
Solucin:
Apartado a):
% 62 , 45 4562 , 0 5438 1 ) 11 , 0 ( 1 ) 11 , 0 ( )
75 , 1
8 , 5 6
( ) 6 ( >

> > Z p Z p Z p X p
Apartado b):
Es una distribucin binomial de parmetros n=10 y p=0,4562
p(obtener r xitos )=p(X = r)=
=
r n r
p p
r
n

,
_

) 1 . (
=

,
_


6 4
) 4 5 6 2 , 0 1 ( ) 4 5 6 2 , 0 (
4
1 0
) 4 ( X p
235 , 0 ) 5438 , 0 ( ) 4562 , 0 (
1 . 2 . 3 . 4
7 . 8 . 9 . 10
6 4

Aproximacin de la distribucin binomial mediante la normal. (Correccin de Yates)
Cuando n es grande y p est prximo a 0,5 el comportamiento de una distribucin binomial B(n, p) es aproximadamente
igual a una distribucin normal, ) , ( npq np N
Esto permite sustituir el estudio de una ) , ( p n B por el de una ) , ( npq np N .
Suele considerarse que la aproximacin es buena cuando np>5 y nq>5
190
Dado que por mucho que se parezca nunca es igual una binomial que una normal, es necesario aplicar en el clculo de
probabilidades un ajuste que recibe el nombre de correccin de Yates.
Si X es la binomial y X

la normal, la correccin consiste en lo siguiente:

,
_

+
2
1
2
1
) ( r X r p r X p
(Se asocia un intervalo unidad centrado en el punto)

,
_

+
2
1
2
1
) ( b X a p b X a p
(se alarga el intervalo por la izquierda y por la derecha.)
Para valores de n mayores de 1.000 se puede suprimir la correccin.
Ejercicio 7.
Se lanza una moneda correcta al aire 400 veces. Calcula la probabilidad de obtener un nmero de caras comprendido entre
180 y 210, ambos inclusive.
Solucin:
Calculamos la media y la desviacin tpica de la distribucin binomial:
200
2
1
. 400 np ; 10
2
1
.
2
1
. 400 npq . Por tanto,

,
_


10
200 5 , 210
10
200 5 , 179
) 5 , 210 5 , 179 ( ) 210 180 ( Z p X p X p
) 05 , 2 ( ) 05 , 1 ( ) 05 , 1 05 , 2 ( Z p Z p Z p
pero 8531 , 0 ) 05 , 1 ( Z p
y 0202 , 0 9798 , 0 1 ) 05 , 2 ( 1 ) 05 , 2 ( ) 05 , 2 ( Z p Z p Z p
luego 8329 , 0 0202 , 0 8531 , 0 ) 210 180 ( X p
Ejercicio 8.
Un tirador acierta en el blanco en el 70% de los tiros. Si el tirador participa en una competicin y tira 25 veces, cul es la
probabilidad de que acierte ms de 10 tiros?
Solucin:
Es una distribucin B(25; 0,7) que podemos aproximar a travs de la normal:
5 5 , 7 3 , 0 . 25 .
5 5 , 17 7 , 0 . 25 .
>
>
q n
p n
La aproximacin ser buena.
29 , 2 3 , 0 . 7 , 0 . 25 npq

,
_


> ) 06 , 3 (
29 , 2
5 , 17 5 , 10
) 5 , 10 ( ) 11 ( ) 10 ( Z p Z p X p X p X p
9998 , 0 ) 06 , 3 ( Z p
191
Ejercicios propuestos.
1.- Un profesor de matemticas ha observado que las notas obtenidas por sus alumnos en los exmenes de Estadstica siguen
una distribucin N(6; 2,5).
Se han presentado al ltimo examen 32 alumnos, cuntos sacaron al menos un 7?.
( Sol. 11 )
2.- Una empresa lleva a cabo una prueba para seleccionar nuevos empleados. Por la experiencia de pruebas anteriores, se
sabe que las puntuaciones siguen una distribucin normal de media 80 y desviacin tpica 25.
Qu porcentaje de candidatos obtendr entre 75 y 100 puntos?
(Sol. 36,74% )
3- Calcula el valor de k para que la funcin kx x f
5
1
) ( si [ ] 10 , 0 x sea funcin de densidad.
Obtenido el valor de k, calcula la media y la desviacin tpica de la distribucin.
( Sol. k = 1/50 ; media = 3,33; desviacin tpica = 2,36 )
4.- El peso de los toros de una determinada ganadera se distribuye normalmente con una media de 500 Kg. y 45 Kg. de
desviacin tpica. Si la ganadera tiene 2000 toros,
a) Cuntos pesarn ms de 540 Kg.?
b) Cuntos pesarn menos de 480 Kg.?
c) Cuntos pesarn entre 490 y 510 Kg.?
( Sol. 373; 660; 348 )
5.- Una de las pruebas de acceso a la Universidad para mayores de 25 aos consiste en un test con 100 preguntas, cada una
de las cuales tiene 4 posibles respuestas y slo una correcta. Para superar esta prueba deben obtenerse, al menos, 30
respuestas correctas.
Si una persona contesta al azar, cul es el nmero esperado de respuestas correctas?.
Qu probabilidad tendr de superar la prueba?
(Sol. 25; Utilizando la aproximacin a travs de la normal: p= 0,1492)
6.- Despus de realizar varios sondeos sobre una poblacin con escasa cultura, se ha conseguido averiguar que nicamente
el 15 % de la misma es favorable a los tratamientos de psicoterapia. Elegida al azar una muestra de 50 personas de dicha
poblacin, se desea saber:
a) La probabilidad de que haya ms de 5 personas favorables a dichos tratamientos.
b) La probabilidad de que a lo sumo haya 6 personas favorables.
(Sol. 0,7852; 0,3446 )
192

You might also like