You are on page 1of 62

Manual del curso de

ESTADSTICA

Prof. Luis Valdivieso

1
2
Presentacin
Esta gua de clases ha sido elaborada con el objetivo exponer al teora del
curso de Estadstica para los alumnos de las distintas especialidades de Estudios
Generales Letras que lleven el curso. La gua busca ayudar al estudiante a acom-
paar su proceso de aprendizaje, por lo que se recomienda que los alumnos la
impriman, lleven a clases y completen durante el desarrollo de las clases . Este
proceso debe obviamente complementarse con la resolucin de los problemas
que se presentan al final de cada captulo.
Deseo agradecer profundamente a la profesora Ana Valdivia y los profeso-
res Sergio Pavletich y Walter Luna quienes me brindaron desinteresadamente la
gua base de estas notas. Un buen nmero de los problemas aqu considerados
son de su autora.

Pando, Agosto del 2015

3
Contenido

Captulo 1. Estadstica Descriptiva ..................................................................................... 5


1.1. Conceptos bsicos .................................................................................................. 5
1.2. Organizacin y tratamiento de datos ...................................................................111
1.3. Grficos y tablas estadsticas................................................................................. 12
1.4. Tablas de contingencia .........................................................................................211
1.5. Medidas de tendencia central ............................................................................... 28
1.6. Estadsticos de posicin .......................................................................................283
1.7. Medidas de dispersin .......................................................................................... 34
1.8. Diagramas de cajas ..............................................................................................487
1.9. Tratamiento con datos agrupados ......................................................................... 40
1.10. Otros indicadores estadsticos ............................................................................. 48
1.11. Ejercicios ............................................................................................................ 50

Captulo 2. Regresin Lineal Simple .......... Error! Bookmark not defined.Error! Bookmark not
defined.
2.1. Medidas de asociacin entre dos variables cuantitativasError! Bookmark not defined.
2.2. La recta de mnimos cuadrados ..................................... Error! Bookmark not defined.
2.3. Ejercicios ..................................................................... Error! Bookmark not defined.

Captulo 3. Nociones de probabilidad ...................................... Error! Bookmark not defined.


3.1. Conceptos bsicos ........................................................ Error! Bookmark not defined.
3.2. Principios de conteo, permutaciones y combinatorias . Error! Bookmark not defined.1
3.3. Formas de definir una probabilidad............................. Error! Bookmark not defined.4
3.4. Definicin axiomtica de probabilidad .......................... Error! Bookmark not defined.
3.5. Probabilidad condicional e independencia ............................................................ 88
3.6. Ejercicios .............................................................................................................. 94

Captulo 4. Variables aleatorias y modelos o distribuciones de probabilidadError! Bookmark


not defined.
4.1. Variables aleatorias ...................................................... Error! Bookmark not defined.
4.2. Variable aleatoria discreta ............................................ Error! Bookmark not defined.
4.3. Algunos modelos discretos importantes ........................ Error! Bookmark not defined.
4.4. Variables aleatorias continuas ...................................... Error! Bookmark not defined.
4.5. Algunos modelos continuos importantes ...................... Error! Bookmark not defined.
4.6. El teorema del lmite central ......................................... Error! Bookmark not defined.
4.7. Ejercicios ...................................................................... Error! Bookmark not defined.

Captulo 5. Introduccin a la Estadstica Inferencial ................. Error! Bookmark not defined.


4.1. Muestra aleatoria ......................................................... Error! Bookmark not defined.
4.2. Estimacin de parmetros ............................................ Error! Bookmark not defined.
4.3. Estimacin por intervalos de confianza ......................... Error! Bookmark not defined.
4.4. Ejercicios ...................................................................... Error! Bookmark not defined.

4
Captulo 1. Estadstica Descriptiva
1.1. Conceptos bsicos
Definicin de Estadstica
La Estadstica es la Ciencia y el Arte de dar sentido a los datos. Ella se ocupa de la recoleccin, organi-
zacin, presentacin y anlisis de estos para transformarlos en informacin til que pueda ser utili-
zada para la toma de decisiones.
Estadstica Descriptiva
Son mtodos y tcnicas de recoleccin, caracterizacin y presentacin que permiten describir, apro-
piadamente, las caractersticas de un conjunto de datos. Comprende el uso de grficos, tablas y me-
didas resumen as como la aplicacin de otras tcnicas.
Estadstica Inferencial
Son mtodos y tcnicas que hacen posible estudiar una o ms caractersticas de una poblacin o
tomar decisiones sobre la poblacin basados en el resultado de muestras.
Poblacin
Es el conjunto de todos los elementos de inters en determinado estudio.
Los elementos que forman la poblacin pueden ser personas, cosas, eventos, animales, institu-
ciones, etc.
A cada elemento de la poblacin se le llama unidad estadstica.
Muestra
Es un subconjunto de elementos de la poblacin.
Cuando el objetivo es hacer inferencia estadstica es necesario que la muestra sea seleccionada
de acuerdo a un diseo aleatorio; es decir, que sus elementos sean escogidos al azar.
Ejemplo 1
El Programa para la Evaluacin Internacional de Alumnos de la OCDE (PISA, por sus siglas en ingls)
es el estudio internacional en educacin de mayor escala del mundo. Evala estudiantes de 15 aos
de edad que estn cursando algn grado de secundaria en comprensin lectora, matemtica y cien-
cias. El Per se reintegr a este programa para la evaluacin del 2009. Defina la poblacin del estudio
para el caso peruano.
Resultados del estudio PISA 2013 por pases
Puesto Pas Comprensin lectora Matemtica Ciencias
1 Shanghai-China 613 570 580
2 Singapur 573 542 551
3 Hong Kong-China 561 545 555
4 Taipei 560 523 523
--- --- --- --- ---
65 Indonesia 375 396 382
66 Per 368 384 373
Fuente: OECD PISA 2013 database

5
Ejemplo 2
Se desea determinar el porcentaje de mujeres en edad frtil que usa algn mtodo anticonceptivo.
Defina la poblacin para el caso peruano.

Variable estadstica
Una variable es una caracterstica que interesa observar o medir en las unidades estadsticas y que
puede asumir al menos dos valores diferentes.
Una variable estadstica es una funcin que a cada elemento de la poblacin le asigna un nmero.
Los nmeros se asignan de acuerdo con una escala y representan la medicin de una determina-
da caracterstica en cada unidad estadstica.
En una poblacin se pueden definir muchas variables estadsticas.
Rango de la variable estadstica
Es el conjunto formado por todos los valores que puede asumir la variable estadstica.
Dato
Es el valor de la medicin de una variable, realizada en una unidad estadstica.
Ejemplo 3
En una investigacin, se quiere estimar el porcentaje de personas, por grupos de edades, que vota-
ran por cierto candidato a la alcalda de Lima. Indique la poblacin y las variables a medir.

Ejemplo 4
En una investigacin, se quiere estimar el gasto total semanal en fotocopias de los alumnos de la
PUCP. Indique la poblacin y la variable a medir.

Ejemplo 5
El jefe de produccin de una fbrica de electrodomsticos define la poblacin de estudio como el
conjunto E formado por todas las licuadoras fabricadas en la planta del Callao durante el ao 2013.
Cul es la unidad estadstica de la poblacin E?

6
Parmetro
Es un valor que describe una caracterstica de la poblacin. Para calcular un parmetro se requiere
medir la caracterstica de inters en TODOS los elementos que conforman la poblacin.
Estadstico
Es un valor que describe alguna caracterstica de la muestra. Para calcular el estadstico se usan las
mediciones de la caracterstica de inters en los elementos que conforman la muestra de estudio.

Ejemplo 6

Poblacin: Alumno matriculados en el curso de Estadstica de EEGGLL en el presente semestre.


Parmetro: Proporcin de alumnos que tienen como especialidad la carrera de Gestin.
Parmetro: ______________________________________________________________________

Muestra: Alumnos de la poblacin que estn matriculados en el horario del profesor Valdivieso.
Estadstico: Proporcin de alumnos que conforman la muestra.
Estadstico: _________________________________________________________________________

Ejemplo 7
Segn los Censos Nacionales X de Poblacin y V de Vivienda 2007 ejecutados por el INEI, el 50,06%
de los peruanos es mujer. Indique si este valor es un parmetro o un estadstico.

Ejemplo 8
En octubre del 2011, Ipsos Apoyo present los resultados de una encuesta sobre sexualidad, repro-
duccin y desigualdades de gnero, en la cual se indica que el 55% de los entrevistados afirma que la
violencia fsica es el principal problema de la mujer peruana. Indique si este valor es un parmetro o
un estadstico.

Ejemplo 9
En una muestra de viviendas del rea urbana de Ica se observ que en el 35% de los casos, el mate-
rial predominante de las paredes exteriores era adobe. Indique si este valor es un parmetro o un
estadstico.

7
Tipos de variables
Las variables se pueden clasificar en cualitativas o cuantitativas.

Variables cualitativas
Son las variables que miden una cualidad. Son de carcter no numrico y por lo general clasifican a
las unidades estadsticas en categoras.
Son ejemplos de variables cualitativas las siguientes: gnero de una persona, sector industrial al que
pertenece una empresa, tipo de material de construccin de una vivienda.

Variables cuantitativas
Son variables que miden una cantidad. Son de carcter numrico.
A su vez, las variables cuantitativas se pueden clasificar en discretas y continuas.

Variable cuantitativa discreta


Es una variable cuyo rango es un conjunto finito o infinito numerable, es decir, que en un intervalo
determinado, slo puede tomar ciertos valores.
Son ejemplos de variables discretas las siguientes: nmero de llamadas que ingresan a una central
telefnica por minuto, nmero de veces que un alumno lleva el curso de Estadstica, nmero de tra-
bajadores de una agencia de banco, nmero de accidentes laborales mensuales en una empresa.

Variable cuantitativa continua


Es una variable cuyo rango es un conjunto continuo y puede asumir un nmero infinito no numerable
de valores diferentes; es decir, que en un intervalo determinado, pueden tomar cualquier valor.
Son ejemplos de variables continuas las siguientes: tiempo, en minutos, que demora un estudiante
en resolver un examen; peso, en kilogramos, de un estudiante; rea de terreno construida de una
vivienda en Lima, en m2; temperatura mxima en grados centgrados para una ciudad.

Ejemplo 10
Indique el tipo de las siguientes variables.
Variable Tipo de variable
Nombre de una persona
Nivel socioeconmico de una persona (bajo, medio, alto)
rea, en metros cuadrados, del jardn de una casa
Nmero de bytes que puede almacenar una memoria USB
Cantidad de dinero gastado en un fin de semana, en soles
Estatura, en centmetros, de una persona
Color de un lapicero
Escala de pagos de un alumno de la PUCP
Nmero de pacientes atendidos por da en la sala de
emergencia de cierta clnica.
Tipo de empresa (privada, pblica, otro)
Nmero de RUC de un contribuyente

8
Escalas de medicin de las variables

Medicin
Es el proceso de observacin de una caracterstica de inters (variable), sobre una unidad estadstica.
Escala de medicin
Es una regla (funcin) que asigna nmeros a las mediciones realizadas en las unidades estadsticas.
Los nmeros asignados por las escalas deben informar lo ms precisamente posible acerca de las
caractersticas de cada unidad observada.
Tipos de escalas de medicin
Stanley Smith Stevens (1906 1973), en la revista Science de junio de 1946, present su artculo So-
bre la Teora de las Escalas de Medicin. La clasificacin de Stevens considera cuatro tipos de escala:
nominal, ordinal, de intervalo y de razn.

Nominal
Una variable est medida en escala nominal cuando los valores de la variable clasifican a las unidades
estadsticas en iguales o diferentes. Aqu los valores de la variable funcionan simplemente como eti-
quetas que identifican a los distintos valores de las variables, por lo que incluso estos no necesitan
ser nmeros.
Por ejemplo: Sexo: 1 = femenino; 2 = masculino.
Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro.
Especialidad de un alumno de Psicologa: social = 0; educacional = 1; clnica = 2

Ordinal
Una escala ordinal es una escala nominal cuyos valores reflejan el orden existente entre los valores
de la variable, segn el mayor o menor grado en el que se encuentre presente la caracterstica.
Por ejemplo: Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5.
Grado de instruccin: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa.
Grado de satisfaccin de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy
satisfecho.

Intervalo
Una escala de intervalo es una escala ordinal en la que, adems, las diferencias entre los valores
asignados proporcionan informacin acerca de la diferencia en el grado en que se presenta la carac-
terstica observada. Esta escala no tiene un cero real sino un cero relativo, definido arbitrariamente y
que no indica ausencia de la caracterstica medida.
Por ejemplo: Temperatura, en grados centgrados.

Razn
Es una escala de intervalos en la que adems los nmeros asignados representan las cantidades de la
caracterstica que se mide.
La proporcin entre dos nmeros corresponde a la misma proporcin entre las cantidades de la ca-
racterstica medida.
El cero aqu es real e indica ausencia total de la caracterstica que mide la variable.
Por ejemplo: Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.
Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.
9
Ejemplo 11
Indique el tipo y la escala de medicin adecuada para las siguientes variables.
Variable Tipo de variable Escala de medicin
Cdigo de una alumna o alumno de la PUCP

Costo, en dlares, de licencia del software SPSS


Material de una tubera (cobre, bronce, pvc, etc.)
Ao de nacimiento de una persona

Facultad (Letras y CCHH; Ciencias Sociales, Dere-


cho, Gestin y Alta Direccin, otras)
Nota en la primera prctica de Estadstica
Nmero de telfono

Acceso a internet en casa (si, no)


Altura en metros sobre el nivel del mar
Observacin:
Alternativamente, y de manera ms formal, una escala de medicin se puede tambin definir me-
diante sus transformaciones admisibles. Estas transformaciones son segn la escala las siguientes:
Nominal: Toda funcin que sea 1-1.
Ordinal: Toda funcin montona creciente.
De intervalo: Toda funcin afin-lineal del tipo: y = a + bx
Razn: Toda funcin lineal del tipo: y = bx.
La idea es que si transformamos una variable dentro de una escala por cualquiera de sus transforma-
ciones admisibles, la nueva variable ser equivalente a la anterior en el sentido que nos brindar
exactamente la misma informacin que la escala original.
Ejemplo 12
Identifique en la tabla siguiente la escala y una transformacin admisible para las siguientes varia-
bles:
Variable Escala de medicin Transformacin admisible
Sexo de una persona (codificada como 0 =
Hombre y 1= Mujer)
Costo, en dlares, de licencia del software
SPSS
Fecha de un evento histrico

Facultad (Letras y CCHH; Ciencias Sociales,


Gestin y Alta Direccin, etc.)
Puntajes de ansiedad en un test Psicolgico

Peso en kilogramos

Temperatura en grados centgrados

Estrato Socio-Econmico

10
1.2. Organizacin y tratamiento de datos
Distribucin de frecuencias
Es la representacin estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es til para resumir grandes volmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la informacin relevante.
Frecuencias simples
La frecuencia absoluta ni de una clase es la cantidad de datos que pertenecen a esa clase.
La frecuencia relativa fi de una clase es la proporcin de datos que pertenecen a esa clase.

frecuencia relativa f i
frecuencia absoluta de la clase i n
i
nmero total de datos n
La frecuencia porcentual fi (%) de una clase es el porcentaje de datos que pertenecen a esa clase. Se
obtiene multiplicando la frecuencia relativa por 100 y se expresa en %.
Frecuencias acumuladas
Dado un conjunto de n datos cuantitativos, organizados en k clases, se define:
La frecuencia acumulada absoluta Ni de una clase es la cantidad de datos que pertenecen hasta esa
clase.
i
Se tiene que N i n
j 1
j , i 1, 2,..., k

Luego N1 n1 y Ni Ni 1 ni , i 2, 3,..., k (regla del serrucho)

La frecuencia relativa acumulada Fi de una clase es la proporcin de datos que pertenecen hasta esa
clase.
Frecuencia absoluta acumulada i N
Frecuencia relativa acumulada Fi i
Nmero total de datos n
La frecuencia relativa acumulada porcentual Fi (%) de una clase es el porcentaje de datos que perte-
necen hasta esa clase y se obtiene multiplicndose la frecuencia relativa acumulada por 100.
Ejemplo 13 Se tom una muestra de personas y se les pregunt por su bebida gaseosa preferida. Los
resultados se muestran en la siguiente tabla. Construya la distribucin de frecuencias de la variable
en estudio. Comente.
Inca Kola Otras Coca Cola Coca Cola Inca Kola Kola Real Sprite Coca Cola Kola Real
Kola Real Kola Real Inca Kola Inca Kola Sprite Inca Kola Inca Kola Otras Coca Cola
Kola Real Kola Real Sprite Inca Kola Inca Kola Inca Kola Otras Kola Real Coca Cola
Inca Kola Coca Cola Otras Kola Real Coca Cola Coca Cola Coca Cola Inca Kola Kola Real
Inca Kola Coca Cola Inca Kola Inca Kola Coca Cola Inca Kola Inca Kola Sprite Coca Cola
Marca de gaseosa ni : Nmero de fi: Proporcin de fi(%): Porcentaje
preferida personas personas de personas

Total

11
Ejemplo 14
Los siguientes datos muestran el nmero de veces que fueron al cine el ltimo mes un grupo de
alumnos de Estudios Generales Letras.
2 3 4 0 0 8 1 0 5 3 2 1 2 2 3 2 1 2 1 4 3 4 0 1 0 0 2 2 3 4
1 0 0 2 1 1 2 0 4 3 5 3 5 1 4 1 4 0 2 1 5 1 2 2 0 0 0 2 2 0
Construya la tabla de distribucin de frecuencias de la variable en estudio. Comente.

Nmero de veces ni: Nmero de fi(%): Porcentaje Ni: Nmero acu- Fi(%): Porcentaje
que fue al cine el alumnos de alumnos mulado de alum- acumulado de
ltimo mes nos alumnos

Total

1.3. Grficos y tablas estadsticas


Todo grfico debe tener, por lo menos, lo siguiente:
un ttulo que lo describa lo mejor posible
unidades y rtulos en todos los ejes
fuente de los datos.

12
Grficos para datos de variables cualitativas

Grfico de barras
Se usa para representar grficamente la distribucin de un conjunto de datos cualitativos.
En uno de los ejes, se representan las
categoras o clases de la variable; para el
otro eje, se puede usar una escala de fre-
cuencias absolutas, relativas o porcentua-
les. Se traza una barra sobre cada indica-
dor de clase de una altura proporcional a
la frecuencia correspondiente.
Las barras deben ser del mismo ancho y
deben estar separadas para enfatizar el
hecho de que cada clase es diferente de
otra.

Grfico circular o de torta


Cuando se utiliza el grfico circular, cada
sector circular representa la frecuencia
observada de una clase o categora.
El sector circular que representa a una
determinada clase o categora de la varia-
ble tiene un ngulo en el centro propor-
cional a la frecuencia relativa de dicha
clase. El ngulo que le corresponde a cada
clase se obtiene multiplicando 360 por la respectiva frecuencia relativa.
Vale comentar que todos estos grficos pueden tambin representarse de maneras alternativas. De
all que dijimos que la Estadstica no es solo una Ciencia, sino tambin un Arte de dar sentido a los
datos. Como ejemplo mostremos la siguiente infografa tomado de la Repblica con relacin a la
distribucin del canon minero

13
Grficos para datos de variables cuantitativas discretas

Grfico de bastn
Es un grfico que muestra la frecuencia de ocurrencia de cada valor observado de la variable discreta
mediante un segmento (bastn) cuya altura es proporcional a la frecuencia correspondiente.

Ejemplo 15
Los siguientes datos muestran el nmero de veces que fueron al cine el ltimo mes un grupo de
alumnos de Estudios Generales Letras.
2 3 4 0 0 8 1 0 5 3 2 1 2 2 3 2 1 2 1 4 3 4 0 1 0 0 2 2 3 4
1 0 0 2 1 1 2 0 4 3 5 3 5 1 4 1 4 0 2 1 5 1 2 2 0 0 0 2 2 0
Construya el grfico de bastones correspondiente, (recuerde que ya construy la distribucin de fre-
cuencias para estos datos en el ejemplo 13).

14
Distribucin de frecuencias por intervalos para variables cuantitativas continuas
Cuando se realiza mediciones de una variable continua, por lo general, los datos observados tienen
muchos valores diferentes, por ello, para presentarlos en una tabla de forma tal que se facilite su
anlisis, estos datos deben agruparse primero en clases o intervalos.
Tres pasos previos para la construccin de una distribucin de frecuencias por intervalos son los
siguientes:
Determinar la cantidad de intervalos o clases.
Determinar el ancho o amplitud de cada intervalo o clase.
Determinar los lmites de cada intervalo o clase.
Aqu usaremos la convencin de que nuestros intervalos sern abiertos por la izquierda y cerra-
dos por la derecha, con excepcin del primer intervalo que es cerrado por la derecha.

Cantidad de clases: k
Se recomienda usar entre 5 y 20 intervalos o clases.
La idea es emplear suficientes clases para mostrar la variacin de los datos, pero no tantas que
varias contendran muy pocos o ningn elemento.
Hay algunas reglas que sugieren el nmero de clases o intervalos que se deben usar que depen-
den del nmero de datos disponibles, sin embargo en la prctica la decisin generalmente se
toma atendiendo a una necesidad especfica o por experiencia. Una de las reglas comentadas es
la de Sturges y viene dada por el nmero entero ms prximo por exceso a:
k 1 3.3 log 10 (n)
Amplitud de cada clase: c
Por lo general, se usa la misma amplitud o ancho para todas las clases.
Se calcula de la siguiente manera:
Dato mximo Dato mnimo x xmn Rango
c mx
k k k
La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los da-
tos o segn la precisin con que se desea trabajar.
Se usa la aproximacin por exceso para asegurar que el mayor de los datos pertenezca a alguna
de las clases.

Lmites de cada clase o intervalo


Los intervalos deben ser disjuntos y deben cubrir todo el rango de variacin de los datos.
Los lmites de cada clase se escogen de tal manera que cada dato pertenezca a una clase y slo a
una.
Por lo general, el lmite inferior de la primera clase es el mnimo valor observado.

Marca de clase
La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semi suma de los
lmites de cada intervalo o clase.
La marca de clase se considera un valor que representa a cada uno de los datos que pertenecen
al intervalo o clase correspondiente. Por eso es importante que los intervalos no sean demasiado
grandes porque la marca de clase no sera un buen representante, ni demasiado pequeos como
para complicar la construccin de la tabla o para que hayan varias clases sin datos.
La marca de clase de la clase i se denota mi
15
Ejemplo 16
Construya una distribucin de frecuencias de siete intervalos o clases para los siguientes datos que
representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.

8.8 8.7 10.2 10.3 8.2 11.7 7.8 9.8 11.1 8.9 9.3 8.3 8.2 9.0 9.2 8.5
8.9 12.4 9.6 10.1 9.6 9.7 9.6 11.3 10.9 9.8 9.5 12.0 10.9 12.4 9.3 9.4
12.7 8.4 10.5 10.9 11.9 9.9 9.5 10.7 12.6 10.8 8.6 9.2 8.5 9.6 10.0 9.8

Solucin
El rango R se calcula con:
R = dato mximo dato mnimo = xmax xmin = 12.7 - 7.8 = 4.9
De acuerdo a lo indicado, el nmero de clases o intervalos a usar es k = 7.
La amplitud de cada intervalo es:
R 4.9
c 0.7
k 7
En el curso recordemos estamos usando la convencin que nuestros intervalos sern cerrados por la
derecha y abiertos por la izquierda con la excepcin del primer intervalo. Los intervalos o clases para
los datos de este ejemplo son:
I1: [xmin , xmin +c] = [7.8 , 7.8 + 0.7] = [7.8 , 8.5]
I2: ]xmin +c , xmin + 2c] = ]8.5 , 9.2]
...
I7: ]xmin + 6c , xmin + 7c] = [12.0 , 12.7]

Distribucin de frecuencias

Marca de clase ni: nmero de fi: proporcin Ni: No. acum. Fi: prop. acum.
Tiempo (min.)
(mi) alumnos de alumnos de alumnos de alumnos

[7.8 , 8.5] 8.15 7 0.1458 7 0.1458

]8.5 , 9.2] 8.85 8 0.1667 15 0.3125

]9.2 , 9.9] 9.55 14 0.2917 29 0.6042

]9.9 , 10.6] 10.25 5 0.1042 34 0.7083

]10.6 , 11.3] 10.95 7 0.1458 41 0.8542

]11.3 , 12.0] 11.65 3 0.0625 44 0.9167

]12.0 , 12.7] 12.35 4 0.0833 48 1.0000

Distribucin de frecuencias por intervalos para datos de una variable cuantitativa discretas
Si los datos que se quiere organizar en una distribucin de frecuencias corresponden a mediciones de
una variable discreta pero se han observado muchos valores diferentes, entonces tambin podemos
utilizar una distribucin de frecuencias por intervalos para facilitar el anlisis de estos datos.
Ejemplo 17
La manzana delicia (manzana Red Delicious), tiene piel o cscara color rojo brillante, pulpa blanque-
cina, es algo arenosa y con un sabor algo cido, de esta variedad procede la variedad Royal Red Deli-
cious. Se ha tomado una muestra de estas manzanas obtenindose los siguientes pesos, en gramos.

16
130 158 163 166 168 170 171 174 178 180 183 185 186 187 189
190 190 192 192 193 193 193 193 194 195 196 198 198 199 203
205 211 214 215 217 218 222 224 226 227 233 235 238 239 305

Construya una distribucin de frecuencias usando seis intervalos para los pesos de las manzanas de
la muestra.

Ttulo: _____________________________________________________________________________
mi ni fi(%) Ni Fi (%)

[ ]
] ]
] ]
] ]
] ]
] ]
Total

Interprete el valor de n4

Interprete el valor de f2(%)

Interprete el valor de F3(%)

Interprete el valor de m3

Escriba tres comentarios acerca de la distribucin de los datos.

17
Grficos de variables cuantitativas continuas
Para presentar estos grficos usaremos los datos correspondientes a la experiencia laboral de los
obreros de una fbrica que han sido organizado previamente en la siguiente distribucin de frecuen-
cias por intervalos.
Experiencia mi: marca ni: nmero de fi: proporcin de Ni: Nmero acu- Fi: proporcin
laboral de clase obreros obreros mulado de obre- acumulada de
(en aos) ros obreros

[0,4] 2 57 0.2780 57 0.2780


]4,8] 6 78 0.3805 135 0.6585
] 8 ,12 ] 10 43 0.2098 178 0.8683
]12 , 16 ] 14 25 0.1220 203 0.9903
]16 ,20 ] 18 2 0.0098 205 1
Total - 205 1 -

Histograma
Este grfico se construye a partir de
una distribucin de frecuencias por
intervalos.
Cada frecuencia de clase se repre-
senta trazando un rectngulo, cuya
base es el intervalo de clase sobre
el eje horizontal y cuya altura es
proporcional a la frecuencia co-
rrespondiente (absoluta, relativa o
porcentual).
Los rectngulos adyacentes se
tocan entre s.

Polgono de frecuencias
Es la representacin por medio de una
figura poligonal cerrada de una distri-
bucin de frecuencias absolutas, rela-
tivas o porcentuales.
Se obtiene uniendo con segmentos
de recta los puntos con la marca
de clase como abscisa y la corres-
pondiente frecuencia absoluta o
relativa como ordenada.
Los polgonos de frecuencias se
cierran en los puntos del eje hori-
zontal correspondientes al lmite
inferior del primer intervalo y al
lmite superior del ltimo interva-
lo.

18
Ojiva
Es la grfica de una distribucin de
frecuencias acumuladas (absolutas, Experiencia laboral de los obreros de la
relativas o porcentuales). empresa A 100.00%
La ojiva parte del punto que tiene 100%
al lmite inferior del primer inter- 90% 99.02%
valo como abscisa y a cero como
80%
ordenada. 86.63%

Porcentaje acumulado
70%
Se obtiene uniendo con segmen-
tos de recta los puntos con el l- 60% 65.85%
mite superior de cada intervalo 50%
como abscisa y la frecuencia 40%
27.80%
acumulada respectiva como or- 30%
denada.
20%
Con la ojiva se puede estimar el
10%
nmero o porcentaje aproximado
de observaciones que correspon- 0%
den a un intervalo determinado. 0 4 8 12 16 20
Experiencia laboral (en aos)
Fuente: Empresa A. Encuesta RRHH 2013

Ejemplo 18
La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abundancia
ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamferos e inverte-
brados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de un ao de edad
ha dado una longitud mnima de 6 cm. Los datos se muestran organizados en la tabla siguiente.

Ttulo: _______________________________________________________________________

Tamao mi: ni: fi: Ni: Fi:


(centmetros) Marca de clase
0.10
65
180
30
0.96
17 0.04
Total

a) Complete la distribucin de frecuencias por intervalos de las longitudes de las anchovetas.


b) Grafique el histograma y la ojiva de frecuencias relativas acumuladas. (Presente dos grficas sepa-
radas y coloque un ttulo adecuado en cada una de ellas, ponga nombres a los ejes, use regla para
hacer las grficas).
c) Calcule el porcentaje aproximado de anchovetas de la muestra que midieron 13 cm. o menos.
d) Determine aproximadamente la longitud mnima que debera tener una de estas anchovetas para
estar considerada dentro de las 10% ms grandes.

19
20
1.4. Tablas de contingencia
Tambin llamadas tablas cruzadas o tablas de doble entrada.
Se usan para resumir de manera simultnea los datos para dos variables.
Ejemplo 19
Como parte del estudio que se est realizando a fin de resolver un antiguo problema limtrofe entre dos
distritos vecinos A y B, se requiere evaluar si el nmero de pisos que tienen los edificios depende del dis-
trito en cual se realiza la construccin. En la siguiente tabla se muestra la distribucin de una muestra
aleatoria de 300 edificios de acuerdo al distrito en que estn ubicados y al nmero de pisos.

De 3 a 5 pisos De 6 a 10 pisos Ms de 10 pisos Total

Distrito A 50 40 30 120

Distrito B 70 20 90 180

Total 120 60 120 300

Evale la verdad o falsedad de las siguientes afirmaciones respecto a los edificios de la muestra:

i. El 50% de los edificios ubicados en el distrito B tienen ms de 10 pisos ( )

ii. La proporcin de edificios que tienen menos de cinco pisos es 0.4 ( )

iii. El 33.3% de los edificios estn ubicados en el distrito A y tienen entre 6 y 10 pisos ( )

iv. En la muestra hay 230 edificios que estn en el distrito B o tienen menos de 6 pisos ( )

v. El 25% de los edificios de ms de 10 pisos estn en distrito A ( )

21
Ejemplo 20
Existe relacion entre el estado nutricional y el rendimiento academico de los estudiantes de en-
sen anza basica? En un estudio se midio el estado nutricional de 1,000 nin os de ensen anza basica de
cierta poblacin, el cual fue clasificado como "malo", "regular y "bueno"; mientras que el rendi-
miento academico fue clasificado como bajo, medio y alto, resultando la siguiente tabla de
contingencia:

Rendimiento Rendimiento Rendimiento Total


Bajo (1) Medio (2) Alto (3)

Mala nutricin (1) 130 95 30 255

Regular nutricin (2) 90 450 35 575

Buena nutricin (3) 63 30 77 170

Total 283 575 142 1,000

Identifique las variables usadas en la realizacin de esta tabla de contingencia.

Rellene los espacios en blanco de acuerdo a la informacin contenida en la tabla.

El nmero de nin os con mala nutricin en esta poblacin es

El nmero de nin os con rendimiento medio en esta poblacin es

En la poblacin, el ..% de los nin os han tenido mala nutricin y bajo rendimiento.

En la poblacin, el ..% de los nin os con mala nutricin mostraron un bajo rendimiento.

En la poblacin, el ..% de los nin os de alto rendimiento tuvieron una mala nutricin.

Grfico de barras componentes

Un grfico de barras componentes muestra todas las categoras de una de las variables apiladas en
una sola barra para cada categora de una segunda variable. El alto de cada barra es proporcional a la
frecuencia de cada categora de la segunda variable.

22
Grfico de barras componentes al 100%

Un grfico de barras componentes al 100% muestra todas las categoras de una de las variables api-
ladas en una sola barra para cada categora de una segunda variable. El alto de cada barra es el mis-
mo para cada categora.

23
Grfico de barras agrupadas
Un grfico de barras agrupadas muestra las distintas categoras de una de las variables mediante
barras contiguas para cada una de las categoras de la otra variable. Esta representacin es suma-
mente til para analizar si las variables pudieran estar o no relacionadas.

OBSERVACION:
Diremos que no existe una relacin entre las variables en estudio, o tambin que estas variables son
independientes, si la distribucin de frecuencias relativas de una de las variables es ms o menos la
misma para cada categora de la otra variable. Por ejemplo, en el grfico anterior aparentemente no
hay independencia, pues por citar las distribuciones de frecuencias relativas porcentuales por tipo de
juego son muy distintas para los grupos etarios de menos de 18 y entre 18 y 49 aos. En el primer
grupo predominan los juegos tradicionales; mientras que en el segundo los juegos de movilidad so-
cial.
La idea detrs del concepto de independencia recae en el hecho de que si las variables son indepen-
dientes no interesara saber la categora que toma una de las variables para conocer la distribucin
relativa de los valores que toma la otra variable. Las barras de cada categora en el eje horizontal
tendran casi la misma forma. En este caso podramos reportar sin ningn problema cual es la cate-
gora ms frecuente o menos frecuente de una de las variables, sin tener que preguntar para nada el
valor que toma la otra variable.

24
Ejemplo 21
En el II Censo Nacional Universitario del ao 2010 realizado por el INEI se pregunt a los alumnos de
pregrado de todo el Per por su tipo de universidad y su gnero. Los datos se muestran en los si-
guientes cuadros.
Per. Alumnos censados en pregrado por gnero y tipo de universidad. 2010
Gnero Pblica Privada Total
Femenino 135,082 247,743 382,825
Masculino 174,093 226, 052 400,145
Total 309,175 473,795 782,970
Fuente: INEI. Censo Universitario. 2010
a) Elabore un grfico de barras componentes que permita comparar la composicin porcentual
segn gnero por tipo de universidad.
Ttulo ....
Gnero Pblica Privada Total
Femenino
Masculino
Total 100%
Fuente:
Ttulo ....

b) Elabore un grfico de barras componentes que permita comparar la composicin porcentual


segn tipo de universidad por gnero.
Ttulo ....
Gnero Pblica Privada Total
Femenino 100%
Masculino 100%
Fuente: INEI. Censo Universitario. 2010
25
Ttulo ....

c) Elabore un grfico apilado al 100% que permita ver la composicin porcentual segn gnero por
tipo de universidad.
Ttulo ....
Gnero Pblica Privada
Femenino
Masculino
Total 100% 100%
Fuente: INEI. Censo Universitario. 2010
Ttulo ....

d) Elabore un grfico de barras agrupadas que le permita comparar la distribucin porcentual segn
gnero por tipo de universidad.

Ttulo ....
Gnero Pblica Privada Total
Femenino 100%
Masculino 100%
Fuente: INEI. Censo Universitario. 2010

26
Ttulo ....

Parece haber relacin entre el gnero del estudiante y el tipo de universidad en que estudia?

Ejemplo 22
Se seleccion una muestra de 3,300 clientes de un banco que tienen prstamos con el banco hace al
menos dos aos. En esta muestra se encontr que:
- 600 de los clientes tienen sueldos de S/.3,000 o menos y de ellos 400 son buenos pagadores.
- 2,700 de los clientes tienen sueldos mayores a S/.3,000
- 1,100 clientes son malos pagadores.
Use la informacin anterior para completar la tabla siguiente:

Sueldo de S/.3,000 o Sueldo mayor a


Total
menos S/.3,000
Buen pagador
Mal pagador
Total
Tomando como referencia la informacin de la tabla, un ejecutivo del banco afirma que los que
ganan ms son mejores pagadores, esta usted de acuerdo con esta afirmacin? Justifique su res-
puesta.

27
Ejemplo 23
Responda a la pregunta planteada en el ejemplo 19.

Describa a manera de resumen algunas ventajas y desventajas de utilizar un grfico de barras com-
ponentes o agrupadas

1.5. Medidas de tendencia central


Las medidas de tendencia central son medidas resumen que se usan como valores que representan
al conjunto de datos de una variable.
Para poder utilizar estas medidas los datos deben de presentar una tendencia a agruparse alrededor
de un nico valor. Por estas razn llamaremos tambin a cualquiera de estas medidas un promedio
(por el medio) . Vale aclarar que si no existiese esta tendencia, tendra poco sentido el calcularse
algn promedio.
La moda
La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor
frecuencia.

Caractersticas de la moda
La moda se puede calcular para datos medidos en cualquier escala de medicin. En particular, es
la nica medida de tendencia central para variables medidas en escala nominal.
El valor de la moda no se ve afectado por valores extremos.
La moda no siempre es un valor nico. Una serie de datos puede tener dos modas (bimodal) o
ms modas (multimodal).

28
Moda de un conjunto de n datos
Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.
Ejemplo 24
Calcule e interprete la moda de los siguientes datos, que representan el nmero de artculos com-
prados por 14 clientes de cierto supermercado.

2 2 2 4 2 5 5 4 5 2 5 5 5 4

Ejemplo 25
En la empresa A, se midi el nmero de errores por da que cometieron 158 obreros al ensamblar un
determinado producto. Calcule e interprete la moda del nmero de errores por obrero.
Empresa A. Distribucin de obreros por el nmero de errores al ensamblar el producto
xi : Nmero de errores ni : Nmero de obreros
0 25
3 45
5 60
8 28
Fuente: Gerencia de Produccin. Empresa A
29
La mediana
Es el valor de los datos que ocupa la posicin central cuando los datos se ordenan de menor a mayor.

Caractersticas de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razn.
La mediana es un estadstico que no se ve afectado por valores extremos. Por eso se le utiliza
cuando hay datos inusuales o el polgono de frecuencias no es muy simtrico.

En los grficos anteriores el nmero de datos fue siempre impar, por lo que fue inmediato encontrar
el dato que ocupaba la posicin del medio. Si el nmero de datos es par, habrn dos valores en el
medio, por lo que convendremos que la mediana ser la media de estos datos; vale decir, el valor
que se ubica a igual distancia entre estos dos datos.
Ejemplo 26
El tiempo, en horas, que se tarda un grupo de obreros, capacitados y no capacitados, en realizar una
tarea se muestra en la siguiente tabla.
Capacitados 4.5 4.3 2.7 8.2 8.3 6.4 5.4 3.4 2.7 5.6
No capacitados 8.3 7.4 8.5 8.5 9.0 8.4 18
Calcule e interprete la mediana del tiempo para cada grupo. Compare los valores hallados y comente.

La media aritmtica
La media aritmtica es el valor que se obtiene al dividir la suma total de los datos entre el nmero de
datos.

Caractersticas de la media
Se puede calcular para datos medidos en escala de intervalo o razn.
El clculo de la media es sencillo y es la medida de tendencia central ms conocida.
El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes
o muy pequeos con respecto a los dems pueden cambiar drsticamente su valor. Estos valores
tienden a jalar la media hacia su lado.

30
n

x
i 1
i nx

x x 0
i 1
i

Si cada uno de los n valores xi es transformado en: yi = a + b xi , siendo a y b constantes, enton-


ces, la media de los n valores yi es: y a bx
Ejemplo 27
Un comerciante ha comprado 30 computadores a un distribuidor y ha pagado un precio medio de
450 dlares por cada computadora. El comerciante planea revender estas computadoras para obte-
ner ganancias.
a. Si decide fijar el precio de venta de tal manera que gane 80 dlares sobre el costo de cada
computadora, cul sera el precio medio de venta de las computadoras?

b. Si decide fijar el precio de venta de tal manera que gane 20% sobre el costo de cada computado-
ra, cul sera el precio medio de venta de las computadoras?

c. Si decide fijar el precio de venta aumentando un 10% sobre el costo de cada computadora ms
un monto fijo de 50 dlares, cul sera el precio medio de venta de las computadoras?

31
Sean x1, x2, xn un conjunto de n datos de una variable cuantitativa X. La media aritmtica de
n

x i
estos n datos es: x i 1

n
Ejemplo 28
Calcule la media de los siguientes datos que representan el nmero de papeletas pendientes de pago
de cada uno de 11 choferes de vehculos de transporte pblico seleccionados al azar.

12 13 25 20 17 19 15 14 28 5 4

Ejemplo 29
En la empresa A, se midi el nmero de errores que cometieron 158 obreros al ensamblar un deter-
minado producto. Calcule la media y la mediana del nmero de errores por obrero. Compare estas
medidas e indique cul le parecera ms representativa como promedio.
Empresa A. Nmero de errores al ensamblar un producto
xi: Nmero de errores ni: Nmero de obreros fi: Proporcin de obreros
0 25
3 45
5 60
8 8
Fuente: Gerencia de Recursos Humanos. Empresa A

Media aritmtica ponderada


Dados n datos x1, x2,, xn con pesos w1, w2,, wn la media aritmtica ponderada de los datos es:
n

w
i i
i xi
xp n

w
i 1
i

Si todos los pesos son iguales, entonces x p x

32
Ejemplo 29
Calcule la nota final de un alumno del curso de Estadstica de Estudios Generales Letras que tiene las
siguientes notas: prctica calificada 1 = 18, prctica calificada 2 = 10, prctica calificada 3 = 12, prcti-
ca calificada 4 = 15, examen parcial = 14 y examen final = 9. Los pesos del promedio de prcticas,
examen parcial y examen final son 3, 3 y 4, respectivamente. La prctica con menor nota se anula.

1.6. Estadsticos de posicin


Percentil
El K-simo percentil o simplemente percentil K (0 < K <100) , denotado por PK, es el menor valor tal
que el K% de todos los datos tengan un valor menor o igual que PK.
Cuartil
Se denomina as a cada uno de los tres percentiles: P25, P50 y P75 y se les denota como Q1, Q2 y Q3
respectivamente. En particular la mediana es el percentil 50.
Ejemplo 30
Evaluacin de postulantes a puestos de trabajo en una empresa de telecomunicaciones.

Edad Conocimientos generales Neuroticismo


Percentiles 25 (Primer cuartil) 29.0 26.0 48.0
50 (Segundo cuartil) 31.0 30.0 63.0
75 (Tercer cuartil) 36.0 34.0 77.5

El primer cuartil de la variable Edad es 29, esto quiere decir que el 25% de los postulantes tiene
29 aos o menos.
El segundo cuartil de la variable Conocimientos generales es 30, esto quiere decir que el 50% de
los postulantes obtuvieron 30 o menos puntos en la prueba de conocimientos generales.
El tercer cuartil de la variable Neuroticismo es 77.5, esto quiere decir que el 75% de los postulan-
tes obtuvieron 77.5 o menos puntos en la evaluacin de Neuroticismo.
Ejemplo 31
En los ltimos 150 aos, los holandeses han pasado a ser los habitantes ms altos del mundo, y se-
gn los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los siglos
ofrece un panorama sobre la salud y riqueza de la nacin. No siempre fue as, en 1848, uno de cada
cuatro varones era rechazado del servicio militar porque no alcanzaba la estatura de 1.57 metros.
Actualmente, el percentil 1 de la estatura de los varones holandeses es 1.57 metros y el percentil 70
es 1.88 metros. Indique el significado de estos percentiles.
Fuente http://www.ap.org/ Associated Press.

33
Percentil k para un conjunto de n datos
Para su clculo utilizaremos la siguiente convencin en el curso (que por cierto no es nica):
Ordene los n datos de manera ascendente: x1 x2 x3 xn
K
Calcule la posicin j del percentil K: j n
100
Si el valor calculado de j es un nmero entero, entonces el percentil K ser la media de los datos
xj y xj+1 ; es decir, la media de los datos que ocupan esa posicin y la siguiente.
Si el valor calculado de j no es un nmero entero, entonces el percentil K ser el dato xj+1 ; es
decir, el dato que ocupa la posicin entera inmediata superior a j.
Ejemplo 32
Dadas las siguientes edades de una muestra de personas asistentes al tnel de la Ciencia, calcule e
interprete el percentil 30 y el percentil 50.
10 12 15 14 8 25 19 10 7 14 12 6 18 13 11 15 13 15 16 14 13 15

Ejemplo 33
En la tabla siguiente se muestra la distribucin de los trabajadores de una empresa segn el nmero de
tardanzas en el mes pasado. Calcule e interprete el percentil 30 y el percentil 75.

xi : Nmero ni: Nmero de fi: Proporcin de Ni : Fi :


de tardanzas trabajadores trabajadores

0 48
1 80
2 57
3 15
Total

1.7. Medidas de dispersin


Con las medidas de tendencia central uno determina un valor promedio que representa a los
datos de un conjunto, pero no indica qu tan cercanos o lejanos estn estos datos entre si
Las medidas de dispersin o variabilidad nos permiten precisamente medir este grado de cerca-
na o alejamiento entre los datos.
34
Ejemplo 34
Calcule la media, mediana y moda de los siguientes grupos de datos:
Grupo 1
1 3 5 5 5 7 9
Grupo 2
-20 5 5 5 5 5 30
Grupo 3
5 5 5 5 5 5 5
Qu conclusin deduce de los clculos?

Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados se define como:
R = dato mximo dato mnimo

Caractersticas del rango


Se puede calcular en variables medidas en escala de intervalo y de razn.
Solo depende del valor mximo y mnimo de los datos e ignora cmo estn distribuidos los de-
ms.
Se ve afectado por valores extremos.
El rango es la longitud del intervalo de variacin de los datos.

Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.
Rango intercuartil = RIC = Q3 Q1= P75 P25

Caractersticas del rango intercuartil


Se puede calcular en variables medidas en escala de intervalo y de razn.
No se ve afectado por valores extremos.

35
Varianza

Dados n datos cuantitativos x1, x2,, xn la varianza de los datos se define como:
n

x x
2
i n
1
S2 i 1
( xi2 n( x) 2 )
n 1 n 1 i 1

Desviacin estndar
Dados n datos cuantitativos x1, x2,, xn la desviacin estndar de los datos se define como la raz cua-
drada de la varianza:

S S2
Ejemplo 35
Las notas de cuatro alumnos son x1 = 6, x2 = 11, x3 = 15, x4 = 16.
6 11 15 16
Luego la media aritmtica de las notas es x 12 puntos
4
Las diferencias o desvos de cada dato con respecto a la media son d1 = 6 12 = -6, d2 = 11 - 12 = -1,
d3 = 15 - 12 = 3, d4 = 16 - 12 = 4.
( 6) 2 ( 1) 2 32 42
Luego, la desviacin estndar de las notas es: S 4.546 puntos
3
Ejemplo 36
Calcule e interprete la media y la desviacin estndar de los siguientes datos que representan el n-
mero de personas atendidas por da en la caseta de informacin de un proyecto inmobiliario, en una
muestra de 15 das.

18 5 2 4 2 6 2 10 5 8 11 4 5 6 7

Propiedades de la varianza y la desviacin estndar


La varianza y la desviacin estndar son nmeros no negativos.
Se calculan para datos medidos en escala de intervalo o de razn.
Son sensibles a la existencia de valores atpicos.
La varianza se expresa en las unidades de los datos elevadas al cuadrado. La desviacin estndar
en las mismas unidades que los datos. Por ejemplo, si los datos estn expresado en kilos, la va-
rianza estar expresada en kilos2 y la desviacin estndar en kilos.
Si cada uno de los n valores xi es transformado en yi = a+b xi siendo a y b constantes, entonces, la
varianza de los n valores yi es
S y2 b 2 S x2 ,
de donde S y b S x .

36
Ejemplo 37
En una muestra de ferreteras se ha registrado el precio de las varillas de acero de 12 mm, encon-
trndose un precio medio de 19.80 nuevos soles y una desviacin estndar de 0.85 nuevos soles.
Si los precios se redujeran en un 5% en todas las tiendas, calcule el nuevo precio medio y la nueva
desviacin estndar de los precios.

1.8. Diagrama de cajas o boxplot


Es una grfica que describe la distribucin de un conjunto de datos tomando como referencia los
valores de los cuartiles como medidas de posicin, la mediana como medida de tendencia central y el
valor del rango intercuartil como medida de dispersin. Adems, permite apreciar la forma de la
distribucin de los datos (simtrica o asimtrica).

Dato atpico
Es un dato inusualmente grande o pequeo con respecto a los otros datos. Se considera un dato
atpico a cualquier dato que est:
a ms de 1.5(RIC) por arriba (o a la derecha) del tercer cuartil
a ms de 1.5(RIC) por debajo (o a la izquierda) del primer cuartil.

Pasos para trazar un diagrama de cajas


Determinar los cuartiles Q1, Q2, y Q3
Calcular el rango intercuartil RIC = Q3 - Q1
Calcular los lmites mximo y mnimo para la longitud de los bigotes:
o Lmite inferior = Linf = Q1 1.5*RIC
o Lmite inferior = Lsup = Q3 + 1.5*RIC
Detectar los datos atpicos que son aquellos que no pertenecen al intervalo [Linf Lsup]. A los datos
que s pertenecen al intervalo anterior se les llama datos tpicos.
Sobre un eje horizontal o vertical, se traza un rectngulo con los extremos en el primer cuartil
(Q1) y tercer cuartil (Q3).
En la caja rectangular se traza un segmento en el lugar de la mediana.
Se traza el bigote inferior desde el primer cuartil hasta el mnimo de los datos tpicos y el bigote
superior desde el tercer cuartil hasta el mximo de los datos tpicos.
Se marcan con un asterisco (*) o un crculo las localizaciones de los datos atpicos.

La siguiente figura presenta un diagrama de cajas con datos hipotticos.

37
Diagramas de caja comparativos
Una ventaja de los diagramas de cajas es que se pueden presentar varios juntos, ello permite la fcil
comparacin visual de las caractersticas de varios conjuntos de datos.
Los diagramas de caja permiten comparar las distribuciones de los valores de una variable cuantitati-
va en los diferentes niveles de otra variable cualitativa.

Ejemplo 38
Se seleccion una muestra de 45 viviendas y se registr el monto cobrado por la empresa proveedora
por consumo de luz en el ltimo mes. Obtenga un diagrama de cajas para mostrar la distribucin de
los montos cobrados.
10.7 45.0 59.8 65.7 87.4 97.1 98.1 98.8 99.2 99.5 99.6 99.7 102.4 106.3 107.3
108.2 108.7 109.2 109.3 109.9 111.4 112.1 112.6 112.9 115.0 115.4 116.4 116.5 119.1 119.2
119.6 120.4 120.6 121.5 122.1 122.7 124.0 124.5 124.9 125.1 125.2 127.1 128.1 129.0 200.8

38
Ejemplo 39
Se desea comparar los resultados de la primera prctica en tres horarios de Estadstica de EEGGLL,
para lo cual se ha registrado las notas de una muestra de alumnos de cada horario.
H1 0 2 3 4 11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 20 20

H2 11 12 12 12 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18

H3 0 1 8 8 8 9 10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17

Construya un diagrama de cajas que permita comparar las distribuciones de notas en los tres hora-
rios.

Ttulo: .

El horario que tiene la mayor mediana de notas es ..


El horario con mayor rango intercuartil es
El horario 1 tiene asimetra ..
Existen valores atpicos en

39
Ejemplo 40
Los datos siguientes muestran el salario mensual en soles de los 13 trabajadores de cierta divisin en
una empresa:
3,210 450 780 380 990 1,250 6,288 800 850 820 1,500 1,900 700
a. Halle la media y mediana de estos salarios y comente cul promedio representa mejor a estos
datos.

b. Con el propsito de incrementar los salarios y hacer de que estos sean ms equitativos, la ge-
rencia de la divisin tiene 2 propuestas. La primera consiste en incrementarles los salarios en un
10% y darles un bono de 100 soles. La segunda consiste en dividir a los salarios en cuartiles para
luego incrementar los sueldos en x%, a los que ganan igual o menos que el percentil 25, en 2% a
los que ganan ms que el percentil 75 y en 15 % al resto. Cul sera el valor de x para que en
promedio los nuevos salarios sean los mismos bajo las dos polticas?

c. En base a lo obtenido en b. cul sera la poltica ms conveniente segn los objetivos de la


gerencia ?

1.9. Tratamiento con datos agrupados


En muchos estudios es comn reportar tan solo la distribucin de frecuencias de un conjunto de da-
tos o en su defecto grficas de esta. Ello se hace ya sea por razones de confidencialidad, simplicidad
o simplemente de espacio para el reporte. Esto si bien no es un problemas en variables cualitativas o
cuantitativas discretas, si lo es en las continuas, pues all uno dispone tan solo de un resumen de los
datos y no los datos en s. La pregunta natural es entonces, cmo uno podra obtener todas las me-
didas anteriormente estudiadas en tal contexto?

40
Una respuesta parcial a esta interrogante se basa en la marcas de clase anteriormente definidas para
una distribucin de frecuencias. Ellas actan como representantes de cada clase o intervalo y nos
permiten reconstruir los datos originales tan solo reemplazndolos por sus marcas de clase respec-
tivas. Una vez reconstruidos los datos, uno tan slo debe de aplicar las frmulas estndar para el
clculo de la medida de inters.
Ejemplo 41
La siguiente es la distribucin de frecuencias hipottica del nmero de botellas de yogurt vendidas
diariamente durante un mes en un supermercado

Intervalo mi: marca de clase ni: Nmero de botellas vendidas


[10 , 30] 20 8
]30 , 50] 40 12
]50 , 70] 30 7
]70 , 90] 80 4
]90 , 110] 100 2

a. Qu cantidad de botellas estara usted seguro que se vendieron en un da del mes?


b. Reconstruya los datos en base a las marcas de clase
c. Halle, en base a los datos reconstruidos, el nmero medio y la desviacin estndar del
nmero de botellas que se vendieron diariamente en este supermercado durante el mes.

Media aritmtica y desviacin estndar para datos en una distribucin de frecuen-


cias por intervalos
Como se vio en el ejemplo anterior un valor aproximado de la media aritmtica de n datos organiza-
dos en una distribucin de frecuencias con k intervalos o clases de marcas de clase m1, m2, mk y
frecuencias absolutas n1, n2, nk ,respectivamente, viene sistemticamente dada por:
k

m n i i k
x i 1
n
m f
i 1
i i

De manera similar, la desviacin estndar de estos datos vendr dada por:

41
k

n m x
2
i i k
1
S i 1
( mi2 ni n( x) 2 )
n 1 n 1 i 1
Ejemplo 42
Calcule la desviacin estndar de los siguientes datos que representan el nmero artculos defectuo-
sos encontrados en cada uno de 122 lotes recibidos. Cada lote tiene 1,000 artculos. SUGERENCIA:
Note que en este caso cada categora de la variable puede considerarse como su marca de clase.
xi: nmero de defectuosos ni: nmero de lotes
2 8
4 58
8 26
10 30

Ejemplo 43
Calcule la media y la desviacin estndar de los siguientes datos que corresponden a los pesos de los
equipajes de los pasajeros de un vuelo Lima - Arequipa

Peso (kg.) Marca de clase ni: nmero de pasajeros


[10 , 15] 9
, 75
, 56
, 8
, 4

Medidas de posicin con datos agrupados


Si bien cuando los datos de una variable cuantitativa continua estn organizados en una distribucin
de frecuencias, tanto la media como la desviacin estndar pueden calcularse aproximadamente
reemplazando los datos reales por sus marcas de clase, ello no es de gran ayuda para las medidas de
posicin, pues aqu lo que interesa en el orden relativo existente entre los datos, el cual se pierde al
distribuir estos en sus intervalos.
La idea de aproximar el clculo de los percentiles se basa en utilizar la ojiva y realizar en ella una in-
terpolacin lineal como sigue:

42
Identificaremos el intervalo Ii = ]Li , Ui] en el que se encuentra el percentil PK mirando en la co-
K
lumna de frecuencias relativas acumuladas. Se debe cumplir que: Fi 1 Fi .
100
El valor del percentil PK se determina por la siguiente expresin:
K c
PK Li Fi 1
100 fi
donde:
Li = lmite inferior del intervalo que contiene al percentil K
fi = frecuencia relativa del intervalo que contiene al percentil K
Fi-1 =Frecuencia relativa acumulada del intervalo anterior al que contiene al percentil K
c = Amplitud del intervalo.
Note que el hecho de dividir K entre 100 puede omitirse si las frecuencias se dan en trminos
porcentuales.
Para deducir la frmula para percentiles de datos agrupados en intervalos, podemos establecer
la siguiente semejanza de tringulos usando la ojiva de frecuencias relativas acumuladas
U i Li Fi Fi 1

PK Li K
Fi 1
100

De donde se tiene que:


c fi

PK Li K
Fi 1
100
Despejando uno obtiene la frmula del percentil K.

Cuartiles
Primer cuartil: Q1 = P25
Segundo cuartil: Q2 = P50
Tercer cuartil: Q3 = P75

43
Ejemplo 44
A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes esta-
ciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un da de la
semana pasada. Calcule e interprete el primer y tercer cuartil de la distribucin.

Tiempo
[0 , 6] ]6 , 12] ]12 , 18] ]18 , 24] ]24 , 30] ]30 , 36] ]36 , 42] ]42 , 48] ]48 , 54] ]54 , 60]
(minutos)
Nmero de
1 3 17 2 1 10 0 0 2 14
emisoras

Ejemplo 45
Segn la definicin oficial de la Organizacin Meteorolgica Mundial, la lluvia es la precipitacin de
agua en forma de gotas, cuando stas alcanzan un dimetro superior a los 0.5 mm. La cantidad de
lluvia que cae en un lugar se mide con un pluvimetro. La intensidad de la precipitacin es medida en
milmetros por hora (mm/h), es decir, la altura medida en milmetros, del agua cada en una hora en
una superficie plana de 1 m2.
Las lluvias se categorizan en:
dbiles: cuando su intensidad es menor o igual a 2 mm/h,
moderadas: intensidad mayor a 2 mm/h y menor o igual a 15 mm/h,
fuertes: intensidad mayor a 15 mm/h y menor o igual a 30 mm/h,
muy fuertes: intensidad mayor a 30 mm/h y menor o igual a 60 mm/h
torrenciales: intensidad mayor a 60 mm/h
En la ciudad A se realizaron 120 mediciones de una hora de la cantidad de lluvia, en una muestra de
120 das del ao pasado, obtenindose los siguientes resultados.

Ciudad A: Distribucin de precipitaciones segn su intensidad (en mm/h)

Intensidad (mm/h) mi: marca de ni: Nmero de fi: Ni: Fi:


clase precipitaciones

[0 , 16[ 8 30 0.2500 30 0.2500

[16 , 32[ 24 55 0.4583 85 0.7083

[32 , 48[ 40 21 0.1750 106 0.8833

[48 , 64[ 56 9 0.0750 115 0.9583

[64 , 80] 72 5 0.0417 120 1.0000

Fuente: Direccin de Saneamiento Ambiental. Ciudad A.

44
a. Calcule e interprete el P80 de las mediciones.

b. Calcule la cantidad de precipitacin mxima para estar en el 15% de las precipitaciones ms bajas
de las 120 medidas.

c. Calcule la desviacin estndar de la intensidad de estas precipitaciones.

d. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia dbil o moderada.

e. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia fuerte o muy fuerte.

f. Calcule la media y mediana porcentaje de estas mediciones, cul promedio sera en su opinin
ms apropiado para representar estos datos? Justifique.

45
1.10. Otros indicadores estadsticos
El coeficiente de variacin
El coeficiente de variacin (CV) de un conjunto de datos es una medida de dispersin relativa que
indica qu proporcin de la media es la desviacin estndar.
El coeficiente de variacin se determina calculando el cociente de la desviacin estndar de los
datos entre la media de los datos
Sx
CV
x
Es til al comparar la variabilidad de dos o ms series de datos que se miden en distintas o igua-
les unidades, pero difieren a tal punto que una comparacin directa de las respectivas desviacio-
nes estndar no es muy til, por ejemplo, cuando las medias estn muy distantes. Note que el
coeficiente de variacin es adimensional; es decir, no dependen de las unidades de medicin.
Un valor mayor del coeficiente de variacin indica mayor dispersin del conjunto de datos.

Ejemplo 46
En una tienda, el precio medio y la desviacin estndar del precio de los jeans es de 74 y 15.4 nuevos
soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule e interprete el nuevo
coeficiente de variacin de los precios. Despus del descuento, los precios de los jeans son ms
homogneos que antes?

Ejemplo 47
El coeficiente de variacin de los salarios un grupo de trabajadores es 0.12. Si se aprueba un aumen-
to del 20% ms una bonificacin especial de S/.115, el nuevo coeficiente de variacin ser igual a
0.06. Determine el valor de la media y la varianza de los salarios de los obreros, antes y despus del
aumento.

46
Ejemplo 48
El siguiente cuadro muestra la distribucin de sueldos mensuales de los empleados de tres empresas
A,B y C en el mes de julio del 2013. Note que los sueldos en A y B estn expresados en soles; mien-
tras que en C en dlares, pues esta empresa se ubica en el extranjero.
Empresas A,B y C. Sueldos mensuales en julio del 2013
Sueldos (en Empleados de la em- Empleados de la em- Sueldos (en Empleados de la em-
nuevos soles) presa A presa B dlares US) presa C
[2,500 , 3,500] 8 14 [800 , 1,200] 3
]3,500 , 4,500] 25 25 ]1,200 , 1,600] 10
]4,500 , 5,500] 35 83 ]1,600 , 2,000] 22
]5,500 , 6,500] 8 15 ]2,000 , 2,400] 15
Fuente: Gerencias de Recursos Humanos Empresa A,B y C.
Cul de los grupos presenta mayor variabilidad de sueldos?

Puntuacin estandarizada Z
Si los datos son x1 x2, . , xn entonces los datos estandarizados son:
xi x
zi , i = 1, 2,, n
Sx
Se cumple que z 0 y que s z 1 .
EL valor estandarizado del dato xi indica a cuntas desviaciones estndar, por arriba o por debajo
de la media, se encuentra este dato.
Ejemplo 49
Un conjunto de alumnos rindi dos exmenes. En el primer examen, la nota media fue 13.4 y la des-
viacin estndar de 2.3, mientras que en el segundo examen la nota media fue 15.4 y la desviacin
estndar 4.3. Una persona obtuvo 14 en el primer examen y 16 en el segundo examen. En trminos
relativos a los resultados de los exmenes, en cul de ellos el alumno tuvo un mejor rendimiento?

47
Indicadores de asimetra
Mide si los datos estn ubicados simtricamente o no respecto a una medida de tendencia central.
Distribucin de frecuencias simtrica
Una distribucin de frecuencias de k clases es simtrica, si se cumple que f1 f k ,
f2 fk 1 , f3 fk 2 , ...

Coeficiente de asimetra de Pearson para datos agrupados o no agrupados


El coeficiente de asimetra para datos simples o agrupados se calcula con la siguiente frmula:
x Q2
As 3
x
S
Si el coeficiente de asimetra (As) es
igual a cero, la distribucin es simtrica alrededor de la media.
positivo, indica sesgo a la derecha (cola derecha).
negativo, indica sesgo a la izquierda (cola izquierda).

Ejemplo 50
El salario, en cientos de nuevos soles, de los trabajadores una empresa se presenta a continuacin:

25 14 19 14 15 16 15 15 18 15 52 24 36 15 15 23 24

Calcule e interprete el coeficiente de asimetra de Pearson.

48
Ejemplo 51
El siguiente cuadro muestra la distribucin del sueldo mensual de los empleados de dos empresas A y
B en julio del 2013.
Empresas A y B. Sueldos mensuales en julio del 2011
Sueldos (en nuevos soles) Empleados de la empresa A Empleados de la empresa B
[1,500 , 2,500] 2 1
]2,500 , 3,500] 40 6
]3,500 , 4,500] 12 25
]4,500 , 5,500] 3 6
]5,500 , 6,500] 1 1
Fuente: Gerencias de Recursos Humanos Empresa A y B.
a) Calcule la media, desviacin estndar y coeficiente de variacin de los sueldos para los trabajado-
res de las empresas A y B. En cul de las dos empresas los sueldos son ms homogneos?
b) En un solo grfico muestre los dos polgonos de frecuencias para los sueldos de los trabajadores
de las empresas A y B. Comente comparativamente las distribuciones de los sueldos mensuales.
c) Compare la simetra de las distribuciones de los sueldos en las empresa A y B grficamente (use el
grfico de la parte b) y usando el coeficiente de asimetra de Pearson. Comente.
d) Responda ahora a la pregunta c) utilizando un grfico de cajas.

49
1.11. Ejercicios
1. Clasifique las siguientes variables segn tipo y escala de medicin: Prestigio social de la profe-
sin, consumo de energa elctrica en Kwh, actitud hacia las matemticas, precio de un produc-
to, estrato socioeconmico, ansiedad de rasgo y rea en metros cuadrados.

2. En cierto pas al cual va de viaje con una maleta de 18 kilos, se utiliza una escala de peso medida
en dracs. Al llegar y ser revisado usted observa que en la balanza del aeropuerto de este pas su
maleta pesa 45.72 dracs. Cunto pesar en ese pas su laptop si este tiene una especificacin
de 2.5 kilos ?

3. Un inventario de desordenes alimentarios para mujeres, consta de 40 preguntas en donde se


le pide a la participante entrevistada que indique la frecuencia (en una escala que va desde 1 =
Nunca , 2 = Raras veces, hasta 6 = Siempre) con que experimenta determinadas sensaciones
o conductas (como 'Fumo para evitar comer', 'Sueo con comida', 'Tengo discusiones con mis
familiares debido a mi alimentacin', etc.). La puntuacin en la escala se obtiene sumando
los nmeros que indican las frecuencias. Al aplicar el inventario a una muestra de 40 escolares
se obtuvo la siguiente relacin de puntuaciones:
56, 65, 71, 73, 73, 74, 75, 78, 78, 81, 81, 82, 83, 84, 84, 84, 86, 87, 92, 100, 100, 101, 102, 105,
109, 112, 115, 118, 124, 125, 144, 145, 146, 149, 153, 154, 157, 162, 177, 206.
a. Construya una distribucin de frecuencias absolutas y relativas simples y acumuladas, usando 5
intervalos y grafique el histograma, polgono y ojiva.
b. Se considera que toda alumna que est arriba del 67 % de puntajes en la muestra debe ser
entrevistada por precaucin. Si la alumna BB tuvo 100 puntos , ser entrevistada?
c. Halle la media y mediana de esta distribucin. Analice las diferencias y asimetra de la distribu-
cin en base a estos nmeros y al polgono obtenido.
d. Construya una nueva variable que tome slo dos valores: 1 si la persona tiene un nivel de desor-
den alimentario alto (definido si su puntuacin es mayor a la media) y 2 en caso contrario. Ob-
tenga el grfico circular de esta variable, indicando los porcentajes respectivos.
e. Datos anteriores consideran "en riesgo" a toda persona con ms de 108 puntos , qu porcenta-
je de esta muestra est en riesgo?

4. En la siguiente tabla se muestra la distribucin de los asistentes a una charla informativa de un


nuevo programa de especializacin ofrecido por una escuela de posgrado, segn su profesin.
Profesin Nmero de asistentes
Ingeniera 24
Administracin 8
Contabilidad 10
Economa 15
Derecho 3
Total 60

a. Construya un grfico que permita observar la composicin porcentual de los asistentes, se-
gn sus profesiones, a la charla informativa. El grfico debe tener un ttulo adecuado.
b. Calcule una medida de tendencia central para la variable cualitativa.

50
5. Un auditor, luego de revisar las declaraciones juradas de impuesto a la renta de 50 personas
naturales, hace un informe de los montos omitidos. El informe lo presenta con una distribucin
de frecuencias de 6 intervalos de la misma longitud. Los montos omitidos varan de 0 soles a
3,000 soles, y las frecuencias acumuladas del primero al sexto intervalo son respectivamente: 5,
15, 35, 43, 48, 50.
a. Encuentre e interprete la mediana y el coeficiente de variacin.
b. Halle el porcentaje de declaraciones en las que el monto omitido supera la media.
c. Grafique la ojiva.
6. En una encuesta realizada a 200 familias se ha obtenido la siguiente distribucin de frecuencias
relativas acumuladas del nmero de miembros que componen la unidad familiar.

Nmero de 1 2 3 4 5 6 7
miembros
Hi 0.15 0.32 0.57 0.74 0.87 0.96 1

a. Halle el nmero de familias con exactamente 4 miembros.


b. Halle el nmero de familias con menos de 4 miembros.
c. El tamao mnimo que debe tener una familia para estar entre las 10 familias con ms
miembros
d. Grafique el polgono de esta distribucin.
e. Qu porcentaje de familias tienen entre 3 y 5 miembros?

7. En la empresa A se tom una muestra aleatoria de 560 trabajadores y se les pregunt por su
ingreso mensual, en dlares, obtenindose los siguientes resultados.
Distribucin de trabajadores por sus ingresos mensuales (en dlares)

mi: Marca de
Ingresos (en dlares) ni fi Ni Fi
clase
] 30

] ] 0.1339
771,70000
] ]
190
275 275
] ]
275 325
] ]
130
325 325
]
25
22,500
Fuente: Gerencia de Recursos Humanos. Empresa A
a. Complete la tabla de distribucin de frecuencias
b. Calcule aproximadamente la mediana de los ingresos de los trabajadores de la muestra.
Interprete.
c. Qu porcentaje de trabajadores en la muestra tiene ingresos superiores a los 1,750 d-
lares?

51
8. En el distrito A se tom una muestra aleatoria de jvenes y se les pregunt por su estatura, en
centmetros, obtenindose los siguientes resultados.
Distrito A. Estaturas de una muestra de 800 jvenes

mi: ni: fi: Ni: Fi:


Estatura (en centmetros)

150 ] 0.48

] 166 ] 0.32

] ] 0.95

] 800
Fuente: Gerencia de Desarrollo Humano. Municipalidad del distrito A
a. Complete la tabla de distribucin de frecuencias
b. Calcule la estatura media para la muestra de jvenes.
c. Obtenga e interprete los cuartiles de esta distribucin.

9. Una encuestadora, a pedido de un canal de televisin, ha realizado un estudio de medicin de la


teleaudiencia en el horario de las 8 pm. En este estudio se seleccionaron al azar 225 personas
de ambos sexos, a quienes se les pregunto por el canal que ms frecuentemente sintoni-
zaban de Lunes a Viernes en el horario de las 8 pm. Los resultados de este estudio se muestran
seguidamente:

a. Se puede decir que el canal A con su principal competencia, el canal C, cubren en el hora-
rio de las 8 pm. ms del 50 % de toda la teleaudiencia ?
b. Comente los resultados de este estudio y en base a l reconstruya la distribucin
de frecuencias del nmero de personas que ve cada canal, segn cada sexo.
c. Represente esta grca como un grco de barras agrupadas.
d. Podra decirse que la preferencia por un canal en el horario de las 8pm, no tiene nada
que ver con el sexo de la teleaudiencia ?.

52
10. La siguiente lista contiene los tiempos de horas de permanencia en Intranet de un grupo de 50
alumnos a lo largo de un da
0.43, 0.33, 1.25, 0.02, 3.10, 0.04, 0.35, 1.33, 0.72, 0.09,
0.10, 0.50, 0.70, 0.44, 0.30, 0.06, 1.31, 0.26, 3.30, 0.08,
0.03, 0.04, 1.53, 1.09, 0.12, 0.22, 0.69, 0.18, 2.04, 2.24,
0.09, 0.52, 5.25, 0.08, 0.45, 0.03, 1.69, 2.78, 0.43, 1.10,
0.61, 2.52, 2.16, 0.17, 1.72, 0.35, 1.59, 0.18, 1.49, 0.25.
en el cual los primeros 20 alumnos (empezando de arriba hacia abajo y de izquierda a derecha)
son hombres y el resto mujeres.
a. Realice un grfico circular con la variable sexo.
b. Obtenga manualmente la distribucin de frecuencias de estos datos y graque su
histograma y polgono. Qu puede decir acerca de la asimetra de la distribucin
c. Arme o refute la siguiente aseveracin: aproximadamente ms de la cuarta parte de es-
tos alumnos permanecen ms de una hora y media al dia en Intranet.
d. Halle aproximadamente el porcentaje de alumnos que permanecen en Intranet ms que el
tiempo promedio (referido a la media aritmtica).
e. Graque las distribuciones de tiempos de permanencia tanto para los hombres como para
las mujeres y comente las diferencias entre estos grupos.

11. Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. El peso medio de las mujeres es de 60
kilos con una desviacin estndar de 8 kilos y el peso medio de los hombres es de 80 kilos con
una varianza de 25 kilos2.
a. Cul es el peso medio de las 10 personas en el ascensor?
b. Si el peso de cada una de las mujeres aumentara al doble cules seran el nuevo peso me-
dio y la nueva varianza de los pesos de las mujeres?
c. Suponga que cada uno de los hombres se pesa en una balanza que no est bien calibrada y
que aumenta 2,5 kilos en cada medicin. Cul sera el coeficiente de variacin que se ob-
tendra con esas mediciones de los pesos de los hombres?

12. En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 100
das, se lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa
en dicho perodo.
Nmero de facturas Proporcin de das

[30 , 60[ 0.25

[60 , 90[ 0.40

[90 , 120[ 0.20

[120 , 150[ 0.10

[150 , 180] 0.05

a. Calcule el valor aproximado de la media y la mediana del nmero de facturas diarias emiti-
das por la empresa en dicho perodo, compare los valores y comente cul le parece ms
adecuado para representar este conjunto de datos.
b. Calcule aproximadamente el porcentaje de das en los que fueron emitidas ms facturas
que la media.
53
13. En una compaa se tiene inters en analizar si la eleccin del proveedor est o no aso-
ciada a la calidad de los circuitos elctricos que la compaa compra y utiliza en la ela-
boracin de sus artefactos. Para ello el departamento de control de calidad ha reportado la si-
guiente tabla de contingencia de todos los circuitos adquiridos hasta el momento por la compa-
a segn el proveedor de estos y la calidad determinada por este departamento.

Proveedor Circuitos Circuitos con Circuitos con


buenos defectos menores defectos graves

A 60 4 8

B 158 20 13

C 105 5 8

a. Qu porcentaje de circuitos resultaron buenos y qu porcentaje de estos ltimos fue-


ron comprados al proveedor B?
a. Haga un grco de barras agrupadas, que le permita comparar la distribucin de la cali-
dad de los circuitos adquiridos, segn los proveedores.
b. Qu podra responder segn lo anterior, sobre la interrogante planteada por la com-
paa?
c. Si recomendara alguno de los 3 proveedores a cual escogera y porque.
14. El histograma y polgono siguientes muestra los gastos de consumo semanales en soles de un
grupo de empleados en la cafetera de una compaa

a. De cuntos empleados se est hablando?


b. Cul es la media y mediana de los gastos semanales de consumo para estos empleados?
c. Se desea ofrecer un plan de crdito de consumo para el 30% de los empleados con mayo-
res consumos arriba Cunto debera de consumir como mnimo un empleado para
que sea considerado en este plan?

54
15. A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes
estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un
da de la semana pasada.

Tiempo (minutos) [0 , 6] ]6 , 12] ]12 , 18] ]18 , 24] ]24 , 30] ]30 , 36] ]36 , 42] ]42 , 48] ]48 , 54] ]54 , 60]

Nmero de radios 1 3 17 2 1 10 0 0 2 14

a. Calcule e interprete el CV del tiempo dedicado a los avisos comerciales.


b. Halle e interprete los cuartiles de la distribucin.
c. Halle e interprete el percentil 80.
d. Grafique el histograma, el polgono de frecuencias y la ojiva de la distribucin. Comente la
simetra de la distribucin de tiempos.
16. El porcentaje de grasa corporal es el mtodo ms fiable para establecer el peso ideal de una
persona pero es el ms difcil y complicado de medir. En un grupo de hombres adultos se midi
el porcentaje de grasa corporal obteniendo la tabla siguiente.

Porcentaje [3,7] ]7 , 11] ]11 , 15] ]15 , 19] ]19 , 23] ]23 , 27]
de grasa
Frecuencia 16 66 44 60 10 4
absoluta
a. Grafique el polgono de frecuencias y la ojiva de la distribucin.
b. Calcule e interprete el coeficiente de variacin.
c. Halle e interprete los cuartiles de la distribucin.
d. Se considera que un hombre tiene sobrepeso si tiene un porcentaje de grasa corporal ma-
yor a 18%. Qu porcentaje de entrevistados tuvo sobrepeso?
17. La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abun-
dancia ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamfe-
ros e invertebrados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de
un ao de edad ha dado una longitud media de 11.24 cm. Los datos se muestran en la tabla.

Tamao (cent- Marca de Frecuencia Frecuencia Frecuencia absolu- Frecuencia relativa


metros) clase absoluta relativa ta acumulada acumulada
0.10
65
180
30
0.96
17 0.04

a. Determine de manera aproximada el porcentaje de anchovetas que miden entre 11 y 13


centmetros.
b. Calcule e interprete la mediana y el rango intercuartil de los tamaos de las anchovetas.
c. Realice el diagrama de cajas del tamao de las anchovetas.

55
18. En una asociacin se tienen registrados los siguientes da tos de sus asociados:
S u j et o

Variable 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Estado 0 0 1 1 1 0 1 0 0 1 1 0 0 0
m a r i ta l

Nivel 3 2 3 2 4 1 3 1 4 2 1 3 2 1
e d u c a ti v o

Ingreso 130 190 200 230 260 260 280 280 280 290 310 370 390 400
mensual

S u j et o

Variable 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Estado 1 1 0 0 1 0 0 0 0 0 1 1 0 1
m a r i ta l

Nivel 2 3 2 1 2 4 3 4 4 3 2 1 3 1
e d u c a ti v o

Ingreso 420 430 480 480 530 550 580 600 600 700 700 720 720 750
mensual

S u j et o

Variable 29 30 31 32 33 34 35 36 37 38 39 40

Estado 0 0 1 0 0 0 0 1 1 1 0 0
m a r i ta l

Nivel 3 2 1 3 2 3 3 2 2 4 1 3
e d u c a ti v o

Ingreso 7 6 0 7 8 0 8 3 0 8 9 0 9 2 0 1 , 0 20 1 , 0 90 1 , 1 70 1 , 4 40 1 , 4 80 1 , 5 30 2 , 8 30
mensual

donde la variable Estado marital se ha codificado como: 0 =Soltero 1 = Casado.


El Nivel Educativo se codific como: 1 = No completo la primaria , 2 = Completo la
primaria pero no la secundaria , 3 = Completo la secundaria y 4 = Tiene estudios tc-
nicos o superiores y los ingresos se miden en soles.

Resuelva los siguientes problemas:


a. Indique la escala de todas las variables involucradas en este estudio
b. Obtenga un grfico circular para la variable estado marital.
c. Construya, utilizando 6 intervalos, la distribucin de frecuencias (absolutas
y relativas) de los ingresos mensuales para los miembros de la asociacin y
grafique su histograma.
d. Halle exactamente (con los datos sueltos) y aproximadamente (de la distri-
bucin de frecuencias), el porcentaje de miembros de la asociacin que tie-
nen ingresos mensuales entre los 300 y 700 soles.
e. Cunto debe de ganar como mnimo un miembro de la asociacin para
considerarlo en el tercio superior de los que tienen ms ingresos?
f. Realice un grfico que le permita apreciar la distribucin de los niveles
educativos y comparar esta para los solteros de la asocia cin.
g. Halle la proporcin de miembros de la asociacin que son casados y no llegaron a comple-
tar la secundaria y la proporcin de miembros casados de la asociacin que no llegaron a
completar la secundaria.
h. Segn un grfico de barras agrupadas podra afirmarse que el estado marital es indepen-
diente del nivel educativo?

56
19. Los salarios que ofrece una empresa a los practicantes varan entre $180 y $300. Si los salarios
se agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los
practicantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o igua-
les que $255 y el 15% tiene salarios mayores que $262,50.
a. Hallar el porcentaje de practicantes en cada intervalo.
b. Si el ingreso mnimo se fija en $265 y la empresa aumenta una misma cantidad a todos los
practicantes de modo que el 25% supere el ingreso mnimo, cunto sera el aumento?
c. Si se aumentase como en b), seran ahora los salarios ms equitativos?

20. El porcentaje de germinacin es uno de los principales factores para decidir la calidad de las
semillas. Un fabricante afirma que el porcentaje de germinacin de sus semillas de maz es del
85%. Para verificar tal afirmacin, una cooperativa de agricultores seleccion 120 muestras de
100 semillas cada una y anot el porcentaje de germinacin en cada muestra. Los valores ob-
servados se organizaron en la siguiente tabla.

Germinacin Frecuencia absolu- Frecuencia relati- Frecuencia absoluta Frecuencia relativa


(%) ta va acumulada acumulada

[ 70 , ] 10
0.20
0.70
22
] , 95 ]

a. Complete la tabla y construya el histograma, el polgono y la ojiva correspondiente.


b. Calcule la media, la mediana, y el coeficiente de variacin de los porcentajes observados.
c. Comente la afirmacin del fabricante.

21. En dos ros de determinada regin se han soltado cras de truchas marcadas y se han recogido
muestras de las mismas despus de cierto periodo de tiempo. Se ha medido el peso (en gramos)
de esos ejemplares resultando la tabla siguiente:

Peso (en gramos) Nmero de peces del ro 1 Nmero de peces del ro 2


[0 , 50[ 14 11
[50 , 100[ 31 23
[100, 150[ 25 29
[150, 200[ 18 22
[200, 250] 12 15

a. En qu ro la distribucin del peso resulta ms homognea?


b. Calcule la mediana de los pesos de las truchas del ro 1. Interprete el resultado.
c. Grafique el polgono de frecuencias relativas de los pesos de las truchas del ro 2.

57
22. Se realiz una prueba de destreza manual entre los obreros de una fbrica. Se midi el nmero
de errores cometidos en la prueba, obtenindose los siguientes resultados:

Nmero de errores Nmero de obreros


0 8
2 16
3 24
5 12
7 20

a. Calcule el rango intercuartil y el CV del nmero de errores en la prueba.


b. Grafique el diagrama de cajas correspondiente.

23. En agosto del 2005, la empresa LibroOnLine dict un curso sobre redes en computadoras me-
diante dos sistemas: presencial y a distancia. Con el objetivo de comparar las notas promedio, la
variabilidad de los valores centrales y el rango de las notas, se tom un examen final y se regis-
tr los resultados en la siguiente distribucin de frecuencias.

Notas del examen final , 3.5] , , , 9.5 , [ ,


Frecuencia relativa (Sistema presencial) 0.14 0.10 0.12 0.23 0.27
Frecuencia relativa (Sistema a distancia) 0.19 0.26 0.24 0.15 0.13

a. Realizar un grfico que permita llegar al objetivo deseado y realizar dos conclusiones sobre
el grfico.
b. Encontrar, en cada uno de los dos sistemas, el porcentaje de notas que son mayores que su
respectiva media.

24. Se ha encuestado a un grupo de alumnos de una facultad de ingeniera sobre la cantidad de


minutos que usan al da la Internet obtenindose los siguientes resultados.

i Intervalo fi
1 [0 , 18] 0.0548
2 0.1905
3 0.2500
4 0.2857
5 0.1071
6 0.0762
7 0.0357

a. Calcule el tiempo mnimo para estar en el quinto superior de los que ms usan la Internet.
b. Calcule el porcentaje de alumnos que usan una hora o menos la Internet.
c. Encuentre la media y la varianza del nmero de minutos diarios que usan la Internet.
d. Calcule el coeficiente de asimetra de esta distribucin en interprete.

58
25. Se aplic un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos pre-
sentados en la siguiente tabla:
Cdigo del Ao de naci- Nivel educativo Categora Salario anual Salario anual
Gnero
trabajador miento (aos) laboral actual en S/. inicial en S/.
9534 F 1966 10 Empleado 27,900 12,750
2041 F 1960 12 Empleado 26,250 11,550
1187 F 1952 16 Ejecutivo 41,500 18,750
1842 F 1980 12 Empleado 24,000 12,750
1813 F 1960 12 Empleado 27,450 10,200
2519 F 1979 12 Empleado 23,100 11,250
3338 F 1985 16 Ejecutivo 37,050 18,000
3012 F 1973 12 Empleado 24,450 12,450
1056 M 1980 8 Empleado 28,350 12,000
2087 M 1960 19 Directivo 95,000 56,980
1004 M 1967 12 Empleado 30,900 15,000
6589 M 1975 12 Empleado 26,700 14,500
1723 M 1962 20 Directivo 69,250 42,800
2013 M 1968 16 Directivo 48,200 21,000
1096 M 1981 12 Empleado 27,900 16,500
2873 M 1979 16 Ejecutivo 40,350 19,500
(Gnero: F = Femenino, M = Masculino)

a. Clasifique cada una de las variables e indique la escala de medicin adecuada para cada ca-
so.
b. Calcule la moda, la media y la mediana de la variable nivel educativo y comente su sime-
tra.
c. Haga un grfico que permita comparar el rango y los cuartiles de los salarios iniciales de los
hombres y mujeres. Comente el grfico.
26. En la siguiente tabla se muestra la distribucin de frecuencias del nmero de hojas impresas por
un grupo de impresoras durante un da:

Intervalo Marca de clase Frecuencia relativa Frecuencia relativa acumulada


[20 , ] 0.20
0.45
0.60
125
0.10

a. Complete la tabla de distribucin de frecuencias y presente grficamente la distribucin de


frecuencia relativa y de frecuencia relativa acumulada.
b. Encontrar la media, mediana, la moda y la desviacin estndar de la distribucin.
c. Hallar el porcentaje de impresoras que imprimen entre 70 y 115 hojas.

59
27. Los siguientes datos representan la cantidad de bebida gaseosa en una muestra de 25 botellas
de 2 litros. 1.928 1.946 1.984 2.013 2.045
1.928 1.957 1.996 2.014 2.066
1.938 1.969 1.997 2.014 2.075
1.941 1.971 1.999 2.015 2.086
1.941 1.973 2.003 2.034 2.088
a. Las especi- ficaciones
del proceso de llenado de las botellas establecen que el contenido medio debe estar entre
1.950 y 2.050 litros y que la desviacin estndar del contenido debe ser menor a 0.050 li-
tros. A partir de los datos de la muestra, dira usted que el proceso cumple las especifica-
ciones?
b. Construya un diagrama de cajas y comente la simetra de la distribucin de los contenidos
de gaseosa observados.
28. En un estudio sobre consumo de petrleo en una gran ciudad se eligi dos grifos y se tom una
muestra de 100 camiones en cada uno de ellos y se observ el nmero de galones que consu-
man en un da, obtenindose la siguiente distribucin de frecuencias.

Grifo A Grifo B
Nmero de galones Nmero de camiones Nmero de galones Nmero de camiones
1 , 5] 4 10 20
]5 , 9] 8 15 37
]9 , 13] 35 20 25
]13 , 17] 30 25 10
]17 , 21] 20 30 8
]21 , 25 3
a. En cul de los dos grifos el consumo de petrleo presenta mayor variabilidad?
b. Realice un diagrama de cajas que permita comparar el consumo de petrleo de los dos gri-
fos.
29. La ojiva de los ingresos mensuales, en miles de nuevos soles, de una empresa se muestran en el
siguiente grfico.
Ojiva de ingresos mensuales

1
0.9
0.8
0.7
0.6
Fi

0.5
0.4
0.3
0.2
0.1
0
0 1000 2000 3000 4000 5000 6000 7000 8000
Ingresos

a. Grafique el polgono de frecuencias relativas de los ingresos mensuales.


b. Hallar la mediana y coeficiente de variacin de los ingresos mensuales.
c. Calcule e interprete el tercer cuartil de los ingresos mensuales.

60
30. Se tom una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una
muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del
nmero de pasajeros por viaje de esas muestras.

Nmero de pasajeros por viaje Empresa A


[10 , 14] 20
]14 , 18] 30
]18 , 22] 15
]22 , 26] 10
]26 , 30] 5

Nmero de pasajeros por viaje en la empresa B


12 13 14 17 17 18 19 23 23 25
26 26 27 27 30 31 32 32 34 34

a. Grafique el polgono y la ojiva de las frecuencias relativas de la distribucin del nmero de


pasajeros por viaje de la empresa A.
b. Cul empresa presenta mayor variabilidad en el nmero de pasajeros por viaje?
31. Un especialista en gestin desea evaluar la gestin de dos secretarias A y B de la compaa. Para
ello l les asigno en 10 oportunidades distintas una misma tarea rutinaria y simple y midi sin
que ellas lo supieran los tiempos en segundos que les tom en completar la tarea. Los datos re-
colectados se presentan a continuacin:

Secretaria A 12.1 11.6 12.5 8.2 11.9 10 7.5 7.4 9.1 10.6
Secretaria B 17.5 16 19 15.9 15.8 13.6 12.9 14.2 15.4 14.2

Se calcularon las siguientes medidas

Secretaria Secretaria
A B
Media 15.45
Mediana 10.3
Moda
Desviacin estndar
Varianza de la muestra 3.39
Coeficiente de Variabilidad
(en %) 11.92
Rango 5.1 6.1
Mnimo 7.4 12.9
Mximo 12.5 19

61
y diagramas de cajas

18
16
14
12
10
8

1 2

a. Complete el cuadro de medidas estadsticas.


b. Identifique que diagrama de caja corresponde a que conjunto de datos y de, cmo el espe-
cialista en gestin, un resumen comparativo de la evaluacin de estas secretarias.

32. Las siguientes son las calificaciones obtenidas por los 16 estudiantes egresados de una promo-
cin de un instituto tecnolgico
11.14, 11.92, 12.05, 12.26, 12.58, 12.71, 12.81, 12.90, 12.92, 13.05, 13.86, 14.76, 14.89,
14.98, 15.00, 19.48
a. Qu medida de tendencia central considerara ms adecuada para este conjunto de da-
tos?. Indique la razn de su eleccin y calcule el valor de esta medida.
b. Una empresa ha ofrecido contratar al tercio superior de esta promocin. Cunto debera
haber obtenido un estudiante como mnimo en esta promocin para ser contratado por la
empresa?
c. Se desea transformar estas calificaciones en puntuaciones que tengan una media aritmtica
de 50 y una desviacin estndar de 10. Para ello se le multiplicar a cada calificacin por una
constante b y luego se le sumara una constante a. Halle el valor de las constantes a y b.
33. Una compaa requiere los servicios de un tcnico especializado. De los expedientes presenta-
dos, se han seleccionado 2 candidatos: A y B, los cuales renen los requisitos mnimos requeri-
dos. Para decidir cul de los 2 se va a contratar, los miembros del jurado deciden tomarles 7
pruebas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el mximo
puntaje posible. Los resultados se dan a continuacin:
Prueba
1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59
Puntaje obtenido por B 80 40 62 72 46 80 40

a. Calcule e interprete la media y mediana de los puntajes de los dos candidatos.


b. Calcule e interprete las desviaciones estndar y los coeficientes de variacin.
c. Si usted fuese el gerente de Recursos Humanos, a cul de los candidatos contratara?
Fundamente su respuesta.

62

You might also like