You are on page 1of 108

Apuntes de clase Estadística General

INTRODUCCION

Hace más de 100 años H. G. Wells, escritor e historiador inglés, dijo que “el conocimiento
estadístico será algún día tan necesario para ser un buen y eficiente ciudadano, como
la aptitud de poder leer y escribir”.

En la actualidad, probablemente diría: “las nociones estadísticas son necesarias no


únicamente para ser un buen y eficiente ciudadano, sino también para una toma
acertada de decisiones en diversos aspectos de nuestra vida”

Una de las herramientas utilizadas para tomar decisiones es la estadística. La estadística no


solo se sirve a la gente dedicada a los negocios; en nuestra vida cotidiana también aplicamos
conceptos estadísticos. Por ejemplo, para comenzar el día, usted al bañarse abre la
regadera y deja correr el agua unos segundos. Enseguida moja su mano para percatarse si
la temperatura es adecuada o decidir si abre más la llave de agua caliente o la del agua
fría. Ahora suponga que está en un supermercado y quiere comprar embutidos. Dos marcas
tienen un puesto de promoción y cada uno le ofrece una pequeña proporción. Después de
probar, decide su compra.

HISTORIA DE LA ESTADÍSTICA

La recopilación sistemática de datos económicos y de población se inició en Venecia y


Florencia, las ciudades-Estado italianas, durante el Renacimiento. El término
ESTADISTICA, derivado de la palabra Estado, se utilizó entonces para referirse a la
obtención de datos de interés estatal. Esta idea de recopilación de datos se extendió desde
Italia a otros países de Europa occidental. De hecho, durante la primera mitad del siglo XVI,
era habitual que los gobiernos europeos obligaran a las parroquias a que registraran los
nacimientos, los matrimonios y las defunciones. Debido a las muy escasas condiciones de
salud pública, las estadísticas referidas a estos hechos tenían un especial interés.

El término Estadística que se utilizó hasta el siglo XVII como una abreviatura de la ciencia
descriptiva de los Estados, se identificó cada vez más, en el siglo XIX, con las cifras
cuantitativas. Hacia 1830, en Francia e Inglaterra, el término ya fue usado de forma general
como sinónimo de la ciencia numérica de la sociedad. Este cambio de significado se debió
a que, desde 1800, los gobiernos de Europa Occidental y de Estados Unidos comenzaron a
recopilar y publicar sistemáticamente una gran cantidad de registros de censos y de otros
tipos de tablas.

Aunque a lo largo del siglo XIX la teoría de la probabilidad había sido desarrollada por
matemáticos tales como Jacob Bernoulli, Karl Friedich Gauss y Pierre Simon Laplace, su
aplicación al estudio de hechos estadísticos fue casi inexistente, ya que la mayor parte de
los estadísticos sociales de la época se contentaban con dejar que los datos hablaran por sí
mismos. En particular, en esa época los estadísticos no estaban interesados en sacar
inferencias a partir de individuos, más bien se centraban en la sociedad en su totalidad. Por
consiguiente, no estaban preocupados por el muestreo sino que intentaban obtener censos
de la población al completo. Como resultado, la inferencia probabilística sobre la población
a partir de muestras era prácticamente desconocida en las estadísticas sociales del siglo
XIX

1
Apuntes de clase Estadística General

No fue hasta finales de este siglo cuando los estadísticos empezaron a preocuparse por
inferir conclusiones a partir de los datos numéricos. El movimiento comenzó con los trabajos
de Francis Galton sobre el análisis de la influencia de la herencia a través de la utilización
de técnicas que actualmente se conocen como análisis de regresión y correlación, que
alcanzaron su mayor auge con los trabajos de Karl Pearson. Éste, que desarrolló los
contrastes de bondad de ajuste, fue el primer director del laboratorio Galton, fundado por
Galton en 1904. Allí, Pearson lideró un programa de investigación con el objetivo de
desarrollar nuevos métodos en los que la Estadística se utiliza con fines inferenciales. Su
laboratorio potenció que investigadores provenientes de distintas áreas de la ciencia y la
industria aprendieran los métodos estadísticos que podían tener aplicación en sus campos.
Uno de los primeros estudiantes que acudió a su laboratorio fue W. S. Gosset químico de
formación, que demostró su devoción por Pearson y publicó sus propios trabajos bajo el
seudónimo de Student. Existe una famosa leyenda que mantiene que Gosset temía publicar
sus trabajos, bajo su propio nombre por miedo a que, en la fábrica de cerveza Guinnes,
donde laboraba, sus jefes descubrieran que uno de sus químicos realizaba investigaciones
estadísticas. Gosset es famoso por el desarrollo de los contrastes de t.

Dos de las áreas más importantes de aplicación de la Estadística a principios del siglo XX
fueron la biología y la agricultura; todo ello gracias al interés de Pearson y de otros
investigadores de su laboratorio, y también a los logros del científico inglés Ronald A. Fisher.
La teoría de la inferencia desarrollada por estos investigadores pioneros – y otros entre los
que se encuentran Egon Pearson, hijo de Karl Pearson, y el estadístico matemático polaco
Jersy Neyman- fue lo suficiente general como para tratar una amplia gama de problemas
cuantitativos prácticos. Como resultado, tras los primeros años del siglo XX, aumentó muy
rápidamente el número de personas, procedente de la ciencia, los negocios y la
administración, que empezaron a considerar la Estadística como una herramienta capaz de
suministrar soluciones cuantitativas a una gran variedad de problemas científicos y prácticos.

En la actualidad, podemos encontrar las ideas estadísticas en muchos ámbitos. La


Estadística Descriptiva puede verse en periódicos y revistas. La Inferencia Estadística se
ha hecho indispensable en las investigaciones médicas y de salud pública, en la
investigación de mercados y en el control de calidad, en la educación, la contabilidad, la
economía, en la predicción meteorológica o de las votaciones, y en muestreos, deportes,
seguros, en juego de apuestas y en cualquier tipo de investigación que pretenda ser
científica. Hoy en día, la Estadística se ha convertido realmente en una pieza integrante de
nuestra herencia.

LA CAMBIANTE DEFINICION DE LA ESTADÍSTICA

La Estadística tiene el objeto de realizar una representación fiable de un Estado en una


época determinada (Quetelet, 1849)

La Estadística es la única herramienta mediante la cual se puede conseguir una apertura en


la formidable espesura de dificultades que entorpece el camino de aquellos que estudian la
Ciencia del hombre (Galton, 1889)

La Estadística puede considerarse (i) como el estudio de las poblaciones, (ii) como el estudio
de las variaciones y (iii) como el estudio de los métodos de reducción de datos (Fisher, 1925).

2
Apuntes de clase Estadística General

La Estadística es la disciplina científica relativa a la recopilación, el análisis y la interpretación


de datos obtenidos mediante la observación o la experimentación. Tiene una estructura
coherente basada en la Teoría de la Probabilidad e incluye muchos procedimientos
diferentes que contribuyen a la investigación y el desarrollo en todas las ramas de la Ciencia
y la Tecnología. (E. Pearson, 1936)

La Estadística es el nombre de la ciencia que trata de llevar a cabo inferencias bajo


situaciones de incertidumbre; para ello, usa los números para averiguar cuestiones relativas
a la naturaleza y la experiencia. (Weaver, 1952).

La Estadística se caracteriza en el siglo XX como una herramienta matemática para analizar


datos experimentales u observados. (Ross, 2005).

Estadística es la ciencia que nos ayuda a recolectar, organizar, presentar, analizar e


interpretar datos para una toma de decisión más efectiva. (Alvaro Pintado-Agurto Mejía,
2009).

¿CUAL ES LA DEFINICION DE ESTADISTICA?

Nos topamos con ella en el lenguaje cotidiano. En realidad posee dos significados: En su
acepción más común, la estadística se refiere a información numérica. Algunos ejemplos
son: el sueldo inicial de los graduados de Universidad, el número de muertos provocados
por el alcoholismo el año pasado, el número de goles en un partido de futbol etc. En estos
ejemplos las estadísticas se refieren a un valor o porcentaje.

Todos estos ejemplos se refiere constituyen ejemplos de estadísticas. Una colección de


información numérica recibe el nombre de estadísticas. A un dato numérico o valor aislado
se la denomina dato estadístico

ESTADISTICA.-

Ciencia que se ocupa de la creación, el desarrollo y aplicación de técnicas que permitan


hacer un análisis confiable de una población. En términos generales, se ocupa de la
colección, el resumen y la presentación de la información, y del análisis e interpretación de
datos y resultados, de modo tal que se puedan derivar a partir de la información captada.

Usualmente, se toman decisiones bajo condiciones de incertidumbre. La ciencia de la


estadística proporciona un conjunto de procedimientos que permiten tomar dichas
decisiones de manera más confiable

Estadísticas (en plural).- Se refiere a un ordenamiento sistemático de datos, presentados


en forma de tablas o cuadros y gráficas. En otras palabras, las estadísticas son datos
agrupados en forma metódica y presentada en publicaciones, elaboradas por diversas
empresas o entidades privadas o del estado, buscando ser consultadas por los interesados

CLASIFICACION DE LA ESTADISTICA

3
Apuntes de clase Estadística General

El estudio de la estadística se clasifica en dos categorías: la estadística descriptiva y la


estadística inferencial

ESTADÍSTICA DESCRIPTIVA

Es la rama de la estadística que se ocupa del resumen y la descripción de los datos


recolectados; es decir, se ocupa de la clasificación de la información, de su resumen en
tabulaciones y de su presentación mediante cuadros y gráficos que describan en forma
apropiada el comportamiento de la información captada. Luego, se realizan los cálculos de
las medidas estadísticas (paramentos o estadísticos), se interpretan los valores
correspondientes y se realiza un análisis estadístico inicial. El análisis estadístico final se
efectúa en la siguiente etapa.

Por ejemplo, cuando se hace una encuesta para estudiar la opinión del público sobre la
calidad y el precio posible de un nuevo producto, con la aplicación de la estadística
descriptiva sería posible, entre otras cosas, clasificar las respuestas de modo tal que sea
posible tener una idea general de la opinión del público; con las respuestas sobre el precio
evaluar su promedio y la variabilidad de las respuestas; construir cuadros, tablas y gráficos
que permitan evaluar visualmente el comportamiento de la información..

OBJETIVO DE LA ESTADISTICA DESCRIPTIVA

RECOPILAR

IDENTIFICAR, CONOCER
DESCUBRIR,RESUMIR

Proporcionando Datos recopilados

INDICES, MEDIDAS Y GRÁFICOS


Obtenidos a partir de los datos recopilados

ESTADISTICA INFERENCIAL

Es la rama de la estadística que se ocupa de los procesos de estimación de parámetros y


pruebas de hipótesis. Su propósito es llegar a conclusiones que brinden un adecuado
sustento científico para la toma de decisiones sobre la base de la información muestral
captada

INFERIR

ANALIZAR
POBLACION MUESTRA
DATOS

ETAPAS DE UN TRABAJO ESTADISTICO

4
Apuntes de clase Estadística General

La estadística como ciencia tiene como objetivo desarrollar procedimientos que permitan
obtener conclusiones acerca de los parámetros de una población a partir de los datos
muéstrales captados.

Para la aplicación objetiva y pragmática de los procedimientos y técnicas estadísticas es


recomendable tener presente las siguientes etapas:

a.- Definición del problema.- En esta etapa se determina con claridad el estudio por realizar
los objetivos de la investigación. Además, se debe establecer cuál es la población en
estudio, se debe identificar las variables de interés, se deben formular hipótesis y se debe
establecer el plan de tabulación de datos. Esto último constituye un conjunto de modelos
de cuadros que se pretenden formar con la información captada.

b.- Formulación del plan de recopilación de datos.- En esta etapa se precisa si se trabaja
con la población o si se trabaja con una muestra, es decir, si se realizará el censo o
muestreo, para lo cual será necesario formular un plan de recopilación de datos que
permitan alcanzar los objetivos de la investigación. Si se realiza un censo, el plan de
recopilación de datos se denominará plan censal. Si se lleva a cabo un muestreo, el plan
de recopilación de datos se llamará plan de muestreo.

c.- Recopilación de datos.- En esta etapa se recogen los datos de acuerdo con los planes
establecidos en la etapa anterior, teniendo cuidado en controlar la calidad de la
información que se recopila. El éxito de una investigación de pende de gran parte de la
calidad de los datos captados.

d.- Clasificación, cálculo de medidas estadísticas, análisis e interpretación.- En esta etapa


se clasifica la información según sus características y se resume mediante la aplicación
de medidas estadísticas (parámetros o estimadores) para su posterior análisis e
interpretación.

e.- Generalización e inferencia.-mediante la aplicación de los métodos de inferencia


estadística, las conclusiones de la investigación son generalizadas a la población de
donde se obtuvo la información

CONCEPTOS BASICOS

En la aplicación de los diversos procesos estadísticos es necesario tener presente cierta


terminología asociada a esta ciencia para una mejor comprensión de los resultados que se
obtengan con su aplicación. Así por ejemplo, cuando los estadísticos mencionan términos
como población, individuo, observación, etc se refieren a conceptos con un significado que
tiene una particular importancia, la cual es conveniente precisar.

POBLACION

Una población es el conjunto de todas las unidades elementales que poseen características
o factores que son de interés para un estudio.

Por ejemplo, si se desea estudiar la realidad socioeconómica de las familias de un lugar, las
características de interés pueden ser el ingreso mensual, la cantidad de hijos la tenencia de
agua y desagüe, etc. Es decir se tiene una realidad que es desconocida y sobre la cual se
desea conocer cómo se comportan los elementos que la conforman

5
Apuntes de clase Estadística General

Según sea el número de elementos, la población puede considerarse como finita o infinita.
Es una población finita cuando el número de elementos que la compone es limitado; es
infinita cuando consta de ilimitado número de elementos

Por ejemplo

- Conjunto de familias de una ciudad


- Conjunto de empresas de una región
- Conjunto de bombillas eléctricas producidas en un periodo de producción

MUESTRA

Es un sub conjunto de unidades elementales, elegidas de una población.

Ejemplo

- 200 familias elegidas en una ciudad de un total de cien mil


- 30 empresas elegidas en una región de un total de mil
- 80 bombillas eléctricas elegidas de las producidas en un determinado momento del
periodo de producción.

Marco.- Se denomina marco, marco muestral o marco de referencia, a la lista, mapa o


cualquier otro material aceptable, que contenga todas las unidades o elementos
perfectamente identificados y actualizados, donde se selecciona la muestra

CLASES DE MUESTRAS

Dependiendo de la forma como se eligen las unidades, las muestras pueden ser aleatorias
o no aleatorias

MUESTRAS ALEATORIAS

Son aquellas cuyos elementos son elegidos usando algún criterio probabilístico. En este
caso, todos los elementos tienen alguna posibilidad de salir elegidos. En algunos casos,
todos los elementos tienen la misma posibilidad de ser elegidos en otros casos no.

MUESTRAS NO ALEATORIAS

Son aquellas cuyos elementos son elegidos mediante criterios no probabilísticos. En este
caso, existen elementos de la población que no tienen posibilidad alguna de ser elegidos.

La ventaja de las muestras aleatorias respecto de las muestras no aleatorias, es que brindan
una mayor confianza en que los datos recopilados no estén afectados por sesgos o factores
extraños a la investigación.

Por otro lado, para que un análisis estadístico basado en muestras sea objetivo y eficiente,
es necesario que la muestra sea representativa de la población de donde se eligieron sus
elementos; es decir, es necesario que todas las características importantes existente en la
población se vean reflejadas de alguna manera en la muestra que será utilizada para realizar
el análisis

UNIDAD ELEMENTAL

6
Apuntes de clase Estadística General

Es todo elemento que está asociado a una característica o factor que se desea estudiar en
la población o muestra. Por ejemplo:

- Al realizar un estudio socio económico en una ciudad, una característica en estudio


será el ingreso familiar, y cada familia de la ciudad será una unidad elemental
- Al estudiar el grado de preparación técnica de los trabajadores de una empresa, una
característica en estudio podría ser el grado de instrucción, y cada trabajador de la
empresa será una unidad elemental.

OBSERVACION

Es el dato o registro que resulta de la apreciación de una característica en un individuo o


unidad elemental. Una observación puede ser cualitativa o cuantitativa. Por ejemplo:
- Rojo, es la observación del color preferido por una determinada persona
- 240 toneladas, es la observación del volumen de producción de harina de pescado
de una fabrica
- Bueno, es la observación de la calidad de un producto después de ser revisado por
u técnico en control de calidad

VARIABLE

Se refieren a las características o propiedades que pueden tomar diferentes valores. Las
variables son características observables, susceptibles de adoptar distintos valores o ser
expresados en varias categorías.

Todas las variables tienen una escala de registro.

Puede ser una característica medible (talla, edad, ingresos, etc) o una cualidad no medible
(sexo, grado de instrucción, estado civil, etc.), las variables surgen de los objetivos de la
investigación.

Las variables se denotan con letras mayúscula(X, Y, Z)

Ejemplo:

La escuela de Agronomía de la UNPRG lleva a cabo un estudio para determinar la situación


ocupacional de sus estudiantes egresados, las variables a estudiar fueron: sexo, número de
años de experiencia, ingresos mensuales, nivel jerárquico ocupacional, todas estas
características constituyen las variables en estudio.

CLASIFICACION DE VARIABLE

A.- Según la naturaleza hay dos tipos de variable

VARIABLE CUALITATIVA O ATRIBUTO

Es cuando la característica que se estudia es de naturaleza no numérica (cualidad,


característica o atributo) y sus datos se expresan usando palabras.

Ejemplo:

- Estado civil de las personas

7
Apuntes de clase Estadística General

- Actividad comercial de una empresa


- Lugar o procedencia de una persona, etc.
VARIABLE CUANTITATIVA

Es cuando la variable que se estudia aparece en forma numérica, expresan una cantidad.
Puede ser discreta y continúa.

- Variable cuantitativa discreta, es aquella que adopta solo ciertos valores y existe
vacío entre ellos, ejemplo:

Número de camas en una casa


Número de estudiante en cada aula
Cantidad de accidentes en una empresa.

Las variables discretas expresan valores enteros y son el resultado de un proceso de


conteo.

- Variable cuantitativa continúa, es aquella que se pueden medir con un instrumento


y toma cualquier valor dentro de un intervalo específico. Ejemplo:

Presión de aire de una llanta


Duración de un vuelo entre Lima y Chiclayo.

Las variables continuas son el resultado de mediciones.

B.- POR EL NUMERO DE VARIABLES

UNIDIMENSIONALES

Es el caso donde se considera solo un aspecto del fenómeno estudiado.

Ejemplo.- Clasificar a los trabajadores de una empresa por lugar de procedencia, edad,
estatura, etc.

BIDIMENSIONALES

Cuando se considera simultáneamente dos variables o aspectos en cada elemento del


conjunto o fenómeno que se estudia. La bidemensionalidad requiere que las variables
tengan cierta relación, de modo que una variable pudiera de alguna manera explicar el
comportamiento de la otra. Por ejemplo:

- Número de hijos según el nivel educativo de un obrero


- Ingreso mensual según tiempo de servicio, etc

PLURIDIMENSIONALES

Recogen información sobre tres o más características. Por ejemplo

Edad, altura y peso de los alumnos de una clase

C.- Según su relación entre variables

Variables independientes (VI)

8
Apuntes de clase Estadística General

Son aquellas que no dependen de otra u otras variables dentro de un contexto determinado.

Son las variables explicativas o predictivas, cuya asociación, relación o influencia en la


variable dependiente se pretende descubrir en una investigación.

Las variables independientes son las que traducen o explican las causas o razones de las
variaciones de la variable dependiente

Se simboliza por la letra mayúscula X

Variables dependientes (VD)

Son aquellas que dependen de otra u otras variables dentro de contexto determinado

Son aquellas que se explican por otra variable, son los efectos o resultados respecto a los
cuales hay que buscar un motivo, causa o razón de ser.

Es la variable que traduce la consecuencia del efecto de una o varias razones o causas, de
otras variables

Se simboliza por la letra mayúscula Y

Variables intervinientes o interferentes

Son aquellas que van a especificar las condiciones o requisitos para que las variables X e
Y tomen su correspondientes valores

Son aquellas que coparticipan con la variable independiente condicionando el


comportamiento dela variable dependiente

Se simboliza con la letra mayúscula Z

Ejemplo:

La escasa difusión de la importancia la educación alimentaria en la población, es una de


las causa del incremento de la desnutrición infantil, en las familias con bajos nivel de
instrucción.

Variable X: Educación alimentaria (VI)


Variable Y: Desnutrición infantil (VD)
Variable Z: Nivel de instrucción (V interviniente)

El bajo nivel de instrucción, es uno de los factores que posibilita el poco interés de los
padres, en el control de crecimiento y desarrollo de los niños de familias de estrato socio
económico bajo

Variable X: Nivel de instrucción (VI)


Variable Y: Crecimiento y desarrollo (VD)
Variable Z: Estrato socio económico (V interviniente)

Tipos de variables

9
Apuntes de clase Estadística General

Cualitativas Cuantitativas

Discreta Continua
-Marca de PC
- Estado civil
-Color del cabello -Hijos por familia - Peso de un alumno
- Alumnos por - Estatura de un
aula alumno

c.- Por su escala de medición

ESCALA DE MEDICIÓN DE LOS DATOS

Los datos se clasifican por niveles dentro de una escala de medición. La escala de medición
de los datos rige los cálculos que se llevan a cabo con el fin de resumir y presentar los datos.
También determina las pruebas estadísticas que se deben realizar.

Por ejemplo, si se compra una caja de lentejas de dulce, encontramos que hay seis colores.
Suponga que se le asigna 1 al café, 2 al amarillo, 3 al azul, 4 al naranja, 5 al verde y 6 al
rojo. Sume la cantidad de lentejas que hay en la caja, la divide entre el número de lenteja e
informa que el color promedio es 3.56. ¿Significa que el color promedio es azul o
anaranjado? Desde luego que no.

Otro ejemplo, en la pista atlética hay ocho competidores para una carrera de 400 metros.
Para indicar el orden en que llegan a la meta se dice que la media es de 4.5 ¿Qué revela
este promedio? Nada. En ambos casos, no se empleó adecuadamente en nivel de medición.

Existen cuatro niveles dentro de la escala de medición: nominal, ordinal, de intervalo y de


razón

La escala de medición más baja o primaria corresponde al nivel ordinal. La más alta o el
nivel que proporciona la mayor información relacionada con la observación es la medición
de razón.

VARIABLES NOMINALES

Es el nivel más simple de medición, las variables en escala nominal son de naturaleza
cualitativa, solamente permite categorizarla variable sin establecer orden.

Ejemplo:

Sexo, estado civil, lugar de nacimiento, profesión etc.

Las variables solo toman dos categorías se llaman variables dicotómicas

VARIABLES ORDINALES

10
Apuntes de clase Estadística General

Son aquellas variables que implican orden entre sus categorías pero no grados de distancia
iguales entre ellas, en esta escala las variables son de naturaleza cualitativa.

Ejemplo:

Nivel socio económica, grado de instrucción, grado de simpatía, orden de mérito, etc.

VARIABLES DE ESCALA DE INTERVALO

Es el tercer nivel de medición, las variables en escala de intervalo son de naturaleza


cuantitativa, los diversos valores que toma la variable exigen a la vez, clasificación, orden y
grado de distancia iguales entre las diferentes categorías, pero no tienen un origen natural
sino convencional (la unidad de medida no necesariamente tiene que partir del valor cero
solo sirve como punto o valor de comparación) Ejemplo:

- Temperatura: si la temperatura del sábado fue de 30 grados y la del miércoles de


15 grados no significa que fue el doble sino 15 grados menos.

- Rendimiento académico: Un alumno puede obtener calificación de 15 en


Estadística, pero ello nonos lleva a pensar que necesariamente para llegar a esa
calificación haya tenido que obtener primero nata cero

VARIABLES DE ESCALA DE RAZÓN

Es el nivel más alto de medición, las variables en escala de medición de razón son de
naturaleza cuantitativa y comprenden todos los casos anteriores. Clasificación, orden,
distancia y origen único natural (la unidad de medida necesariamente tiene que partir del
valor cero) Ejemplo:

- Edad: Un obrero puede tener 25 años de edad, pero para llegar a esa edad,
necesariamente ha tenido que partir de cero años.
- Estatura
- Tiempo de servicio, etc.

Escala Descripción Ejemplo


Sus valores se clasifican en categorías o clases, entre las cuales
Sexo
Nominal no se puede establecer ningún ordenamiento sugerido por la Estado civil
magnitud de sus valores. Relación de igualdad Religión
Sus valores se pueden clasificar en categorías y se pueden Clase social
ordenar. Relación de orden (mayor o menor). Relación de igualdad Orden de
Ordinal
mérito

Diferencia de los objetos en cantidad. Relación de distancia. Temperatura


Intervalo Relación de orden. Relación de igualdad. El cero es arbitrario y no
Test de
denota ausencia de propiedad. Adición y sustracción inteligencia
Existencia de un cero real (ausencia de propiedad). Relación de Peso
distancia. Relación de orden. Relación de igualdad. Sus valores Sueldo
Razón pueden obtenerse por conteo (discretos) o por registro continuo Longitud
(peso, volumen, etc.)

Razón 0 absoluto

11
Apuntes de clase Estadística General

Intervalo Distancia. Cero convencional


Ordinal Relación de orden, igualdad y no igualdad
Nominal Relación de identidad

PARAMETRO:

Es una función de todas las observaciones de una población. Un parámetro es un indicador


que resume la información contenida en las observaciones proporcionadas por todas las
unidades elementadlas comprendidas en una población, por lo cual su valor es único y
constituye usualmente un valor desconocido que todo investigador desea conocer. Los
parámetros se definen también como valores constantes que caracterizan a una población.
Algunos parámetros son:

- Media poblacional, cuya notación es µ


- Variancia o varianza poblacional, cuya notación es 𝝈𝟐
- Moda poblacional, cuya notación es Mo

ESTADISTICO O ESTIMADOR

Es una función de las observaciones muéstrales y que no depende de parámetro algún. Un


estadístico o estimador permite resumir la información contenida en las observaciones que
corresponde a una muestra. Se caracteriza porque pueden tomar valores diferentes de
muestra a muestra, debido a que las observaciones captadas en muestras diferentes no son
necesariamente iguales. Los estadísticos o estimadores son útiles porque permiten obtener
estimaciones (aproximaciones) del valor de los parámetros respectivos .Algunos de los
estimadores son.

- Media muestral, cuya notación es 𝑿


- Variancia o varianza muestral, cuya notación es 𝑺𝟐
- Moda muestral, cuya notación es mo

Los valores que se obtienen al aplicar los estimadores o estadísticos a una muestra particular
son llamados estimados de los parámetros. Es decir, si para una muestra se obtiene:

𝑋 = 128,45. 𝑆 2 =9,16, mo = 125,42

Estos valores son los estimados, de los parámetros definidos como media poblacional (µ),
variancia poblacional (𝜎 2 ), y moda poblacional (Mo) respectivamente.

La diferencia entre el estimador y el parámetro, se le denomina error de muestreo, y lo


fija el investigador para determinar el tamaño de muestra, con base en la experiencia y el
conocimiento que tenga sobre el comportamiento y la variación que tenga la característica o
características principales relacionadas con el objetivo mismo de la investigación.

DESCRIPCIÓN DE DATOS

PARTES DE UNA TABLA O CUADRO ESTADÍSTICO.

12
Apuntes de clase Estadística General

Las partes de un cuadro estadístico son: 1 Número del cuadro; 2 Título; 3 Cuadro
propiamente dicho; 4 Las notas explicativas o calce; 5 Fuente

1.-NÚMERO DEL CUADRO.- Es el código de identificación del cuadro. Este número se


escribe a continuación de la palabra “cuadro”, por ejemplo cuadro No 2.5, indica el quinto
cuadro del capítulo dos.

2.- TÍTULO.- Es la identificación que preside la tabla y es colocada en la parte superior de


la misma. El título debe reunir las condiciones siguientes: a.- ser completo; b.- ser
conciso.

a.- SER COMPLETO: Un título completo debe indicar claramente cuál es el contenido
del cuadro estadístico. Debe responder a las preguntas: Qué, Cómo, Dónde y
Cuándo

QUE: A qué se refiere la tabla que se estudia. Cuál es el universo que se investiga.
Ejemplo: Alumnos matriculados

COMO: Cómo se estudia, de acuerdo a cuáles características se clasifican los


individuos u objetos estudiados. Las variables ubicadas en las filas se identifican con
la proposición “según” y las de las columnas con la proposición “por”

Ejemplo: Por sexo y según especialidad

CUANDO: Momento o periodo de tiempo a que se refiere el estudio.

Ejemplo: Ciclo 2017- I

DONDE: Lugar a que se refiere la información.

Ejemplo Universidad Nacional Pedro Ruiz Gallo.

b.- SER CONCISO.- El título debe ser breve, lo más conciso posible, aunque no debe
sacrificarse la claridad a la concisión.

3.- CUADRO PROPIAMENTE DICHO.- Es la parte del cuadro que contiene la información y
consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. Sus
elementos esenciales son: encabezamiento de las columnas, columna principal o matriz
y cuerpo.

ENCABEZAMIENTO.- Es la primera fila del cuadro, en él se explica las categorías, y el


objeto de cada una de las columnas, es decir indica la naturaleza de los datos inscritos
en cada una de las celdas que se hallan debajo. Deben ser breves y explícitos.

COLUMNA PRINCIPAL O MATRIZ.- Es aquella en que se anotan las categorías o las


diferentes clases de la escala de clasificación utilizada.

CUERPO.- Es el conjunto de celdas o casillas, que son las intersecciones de filas y


columnas, donde están anotados los datos numéricos.

13
Apuntes de clase Estadística General

4.- NOTAS EXPLICATIVAS O CALCE O NOTA DE PIE O LLAMADAS: Se usa para aclarar
algunos términos o siglas también para indicar que elementos están o no incluidos en
algunos de los conceptos del cuadro.

5.- FUENTE.- Sirve para nombrar la publicación, entidad, estudio o fuente de donde se
obtuvieron los datos utilizados para construir el cuadro.

Hay dos tipos de fuentes:

a.- Primaria.- Cuando se obtiene directamente de la unidad de análisis o cuando se


recurre a los propios formularios de una encuesta.

b.- Secundaria.- Cuando se recurre a documentos, boletines o cuadro

CONSTRUCCIÓN DE UNA TABLA DE FRECUENCIA

TABLA DE FRECUENCIAS

Llamada también distribución de frecuencias es la agrupación de datos en clases


mutuamente excluyentes que muestra el número de observaciones en cada clase

TABLA DE FRECUENCIA DE DATOS CUALITATIVOS

Antes de iniciar el trabajo de organización de datos cualitativos, es necesario determinar si


los datos por procesar corresponden a variables cualitativas jerárquicas o nominales. Si los
datos cualitativos nominales, se pueden formar categorías que pueden ser presentadas
indistintamente en cualquier orden; por ejemplo los colores de preferencia de las personas.
Si los datos cualitativos son de una variable cualitativa jerárquica, entonces dichos datos
deben estar asociados a algún orden en su presentación, por ejemplo, las opiniones sobre
la calidad de un artículo.

En el caso de datos cualitativos, la tabla de distribución de frecuencias adoptará la siguiente


forma

Frecuencia
Frecuencia Frecuencia
relativa
Absoluta Relativa
Variable porcentual
𝒇𝒊 𝒉𝒊
𝒉𝒊 𝟏𝟎𝟎%
Característica A 𝑓𝐴 ℎ𝐴 100ℎ𝐴 %
Característica B 𝑓𝐵 ℎ𝐵 100ℎ𝐵 %

Característica Z 𝑓𝑍 ℎ𝑍 100ℎ𝑍 %
Totales N 1 100%

Tabla de frecuencia de los vehículos vendidos por VEHICULOS SAC, el mes pasado.

Tipo de Número de
automóvil automóviles

14
Apuntes de clase Estadística General

Doméstico 50
De importación 30

El número de observaciones en cada clase se denomina frecuencia de clase. Se simboliza


𝒇𝒊

Frecuencia relativa de clase.- Es posible convertir las frecuencias de clase en frecuencias


relativas de clases para mostrar la fracción del número total de observaciones en cada clase.
Así, una frecuencia relativa capta la relación entre la totalidad de elementos de una clase y
el número total de las observaciones. Se simboliza 𝒉𝒊

Tabla de frecuencia relativa de vehículos vendidos por VEHICULOS SAC el mes pasado

Tipo de Cantidad Frecuencia


vehículo Vendida relativa
Doméstico 50 0.625 50⁄
80
De 30 0.375 30⁄
80
importación
Total 80 1.000

REPRESENTACIÓN GRÁFICA DE DATOS CUALITATIVOS


GRÁFICA DE BARRAS
Aquí las clases se representan en el eje horizontal y la frecuencia de clase en el eje vertical.
Las frecuencias de clase son proporcionales a las alturas de las barras

Una característica distintiva de la gráfica de barras es que existe una distancia o espacio
entre las barras. Es decir que, como la variable de interés es de naturaleza cualitativa, las
barras no son adyacentes. Por consiguiente, una gráfica de barras es una representación
gráfica de una tabla de frecuencias mediante una serie de rectángulos de anchura uniforme,
cuya altura corresponde a la frecuencia de clase

Gráfica No 1 Vehículos vendidos por tipo el mes pasado por VEHICULO SAC.

70.00%
60.00%
50.00%
40.00%
30.00%
20.00%
10.00%
0.00%
Doméstico De importación

GRAFICA DE PASTEL

15
Apuntes de clase Estadística General

Gráfica que muestra la parte o porcentaje que representa cada clase del total de
números de frecuencia

37.50% Doméstico
62.50%
De importación

Ejemplo:

La empresa STAT.S.A llevó a cabo un estudio sobre el empleo de los habitantes de una
región. Entre las inquietudes que motivaron el estudio se tenía interés por conocer los
sectores que generan mayor empleo. Para realizar el estudio se eligieron al azar 200
personas a las cuales se les preguntó, entre otras cosas, sobre el sector económico en el
cual se desenvuelve la institución por la cual trabajan. Luego de clasificar las respuestas
observadas, se ha obtenido por un proceso de conteo los siguientes resultados.

Sectores Frecuencia Frecuencia Frecuencia


Absoluta Relativa Porcentual
𝒇𝒊 𝒉𝒊 𝒉𝒊 %
Agricultura 73 0,365 36,5
Comercio 35 0,175 17,5
Educación 54 0,270 27,0
Industria 26 0,130 13,0
Turismo 12 0,060 6,00
TOTAL 200 1,000 100

DIAGRAMA DE BARRAS

Grafico Característica
. Los datos de cada categoría se representan por una barra rectangular
(vertical u horizontal)
Barras . La altura del rectángulo es proporcional a la frecuencia de la categoría
. Si la escala es ordinal deben aparecer en su “orden natural”
. Las barras aparecen separadas
. Son apropiadas para variables cualitativas que no tengan muchas categorías
. Los datos de cada categoría se representan por un sector circular
Circular . El ángulo central de cada sector es proporcional a la frecuencia relativa
expresada porcentualmente
. Si el gráfico toma forma tridimensional se denomina de “pastel” o “torta”

16
Apuntes de clase Estadística General

GRAFICOS CIRCULARES O SECTORES

También se puede usar efectos tridimensionales

17
Apuntes de clase Estadística General

Ejemplo:

En relación a la ejercicio anterior, suponga que la empresa STAT S. A. También consideró


estudiar la generación de empleo según el sexo de los trabajadores. Luego de clasificar las
respuestas observadas, se obtiene los resultados siguientes

Frecuencia Frecuencia
Porcentaje
Sectores Sexo Absoluta relativa
%
𝒇𝒊 𝒉𝒊
Agricultura Femenino 36 0,35294 35,294
Masculino 37 0,37755 37,755
Comercio Femenino 15 0,14706 14,706
Masculino 20 0,20408 20,408
Educación Femenino 35 0,34314 34,314
Masculino 19 0,19388 19,388
Industria Femenino 6 0,05882 5,882
Masculino 20 0,20408 20,408
Turismo Femenino 10 0,09804 9,804
Masculino 2 0,02041 2,041
Total Femenino 102 1,00000 100,00
Masculino 98 1,00000 100,00

Las frecuencias de este cuadro se obtienen de manera similar a lo explicado anteriormente,


con la diferencia de que las frecuencias relativas y porcentuales referidas a la categoría
“femenino” y “masculino se obtienen considerando a 102 personas para el primer caso y a
98 personas para el segundo.

18
Apuntes de clase Estadística General

En este caso, como puede apreciarse, es conveniente adicionar una leyenda para indicar el
color que representa a cierta información. Por otro lado, también puede observarse que
existe una separación entre cada grupo de barras verticales equivalente a la mitad del ancho
de cada grupo. Se debe tener en cuenta que si los nombres o etiquetas de las categorías
son grandes, es preferible utilizar el grafico de barras horizontales, cuya construcción es
similar a lo indicado anteriormente.

Del mismo modo, para mejorar la presentación, se suele utilizar gráficos en tres
dimensiones. Los gráficos anteriores pueden ser presentados de la siguiente manera.

ABORACION DE TABLA DE FRECUENCIA DATOS CUANTITATIVOS

Ante todo es conveniente familiarizarnos con ciertos símbolos que se usan tanto en la
variable discreta como en la variable continua.

19
Apuntes de clase Estadística General

N N Tamaño de la muestra
N N Tamaño de la población o universo
Identificación para cada valor observado (minúscula en la
𝑿𝒊 𝒙𝒊
muestra)
𝒇𝒊 𝒏𝒊 Frecuencias absolutas
𝒇𝒊⁄ 𝒉𝒊 Frecuencias relativas
𝒏
𝑭𝒊 𝑵𝒊 Frecuencias absolutas acumulativas
𝑯𝒊 𝑯𝒊 Frecuencias relativas acumulativas
𝒙𝒊 𝒚𝒊 Identifica la variable discreta o las marca de clase en la
continua
𝑿′𝒊 −𝟏 − 𝑿′𝒊 𝒚′𝒊 −𝟏 − 𝒚′𝒊 Identifica a ala variable continua con sus intervalos
I C Amplitud del intervalo
M M Numero de valores de la variable o de intervalo

TABLAS DE DATOS DISCRETOS

Ejemplo.- Un experimento consistió en contar el número de flores por planta de una


muestra de 32 plantas. Los valores resultantes del conteo fueron los siguientes:

𝑋1 ═ 10 𝑋2 ═ 8 𝑋3 ═ 4 𝑋4 ═ 6 𝑋5 ═ 5 𝑋6 ═ 8 𝑋7 ═ 10 𝑋8 ═ 3
𝑋9 ═ 7 𝑋10 ═ 3 𝑋11 ═ 6 𝑋12 ═ 7 𝑋13 ═ 2 𝑋14 ═ 8 𝑋15 ═ 2 𝑋16 ═ 3
𝑋17 ═ 9 𝑋18 ═ 7 𝑋19 ═ 8 𝑋20 ═ 1 𝑋21 ═ 9 𝑋22 = 10 𝑋23 ═ 5 𝑋24 ═ 6
𝑋25 ═ 4 𝑋26 ═ 6 𝑋27 ═ 7 𝑋28 ═ 5 𝑋29 ═ 7 𝑋30 ═ 3 𝑋31 ═ 5 𝑋32 ═ 8

Clasificación.- En este caso se identifican los distintos valores que tiene 𝑋𝑖 y ubicamos el
mayor y menor valor: 𝑋𝑚𝑖𝑛 = 1 𝑦 𝑋𝑚á𝑥 = 10

Los diferentes valores que toma la variable 𝑋𝑖 los vamos a denotar por 𝑌𝑖

𝑌1 = 1 𝑌2 = 2 𝑌3 = 4 𝑌4 = 2 𝑌5 = 4 𝑌6 = 4 𝑌7 = 5 𝑌8 = 5 𝑌9 = 2 𝑌10 = 3

Tabla No 4. Distribución del número de flores por planta. Marzo 2017

No de Tarjas Frecuencia
Flores 𝒀𝒊 𝒇𝒊
1 / 1
2 // 2
3 //// 4
4 // 2
5 //// 4
6 //// 4
7 ///// 5
8 ///// 5
8 // 2
10 /// 3
Total 32

20
Apuntes de clase Estadística General

TABLA PARA DATOS CONTINUOS

Designemos también el conjunto original de datos u observaciones por 𝑋1 , 𝑋2,……. , 𝑋𝑛 siendo


n el tamaño del conjunto y donde estos datos son del tipo continuo, para construir una tabla
de frecuencia debemos calcular lo siguiente:

CLASES.- (m, K)
Se llaman clases a cada uno de los grupos en los que se divide el conjunto de datos. No
hay una regla fija para determinar el número de clases.
4
K= 2, 5 √𝑛

K = 1 + 3, 3 log n

5 ≤ 𝐾 ≤ 20

RANGO. - (R)

Diferencia entre la observación que tiene el valor máximo y la observación que tiene el valor
minino, también se conoce como recorrido ó amplitud total.

R= 𝑋𝑀 − 𝑋𝑚

INTERVALO DE CLASE (C).-


Es el cociente que resulta de dividir la amplitud total o rango entre el número de clases.
𝑅
C═𝐾

MARCA DE CLASE (𝒀𝒊 ).-

Es el punto medio de un intervalo o clase

FRECUENCIA ABSOLUTA ( 𝒇𝒊 )

Llamada también frecuencia absoluta simple, es el número de veces que se repite los valores
dentro de las diferentes clases (intervalo) en la que está dividida la información.

FRECUENCIA RELATIVA (𝒉𝒊 ).-

Se denomina frecuencia relativa del valor 𝑦𝑖 al cociente de la frecuencia absoluta de 𝑦𝑖 y el


número total de observaciones. Se denota por ℎ𝑖

𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑢𝑡𝑎 𝑑𝑒 𝑦𝑖 𝑓𝑖
ℎ𝑖 = =
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑛

FRECUENCIA ABSOLUTA ACUMULADA (𝑭𝒊 ).-


Se llama frecuencia absoluta acumulada correspondiente al valor 𝑦𝑖 al número de
observaciones menores o iguales a 𝑌𝑖 se denota por “𝐹𝑖 "

𝐹𝑚 = 𝑓1 + 𝑓2 + 𝑓3 + … … + 𝑓𝑚

Entonces tenemos

21
Apuntes de clase Estadística General

1
F1 =  f j = f1
j 1
2
F2 =  f j = f1 + 𝑓2
j 1
3
F3 =  f j = f1 + 𝑓2 + 𝑓3
j 1
4
F4 =  f j = f1 + 𝑓2 + 𝑓3 + 𝑓4
j 1
5
F5 =  f j = f1 + 𝑓2 + 𝑓3 + 𝑓4 + 𝑓5
j 1

Y así sucesivamente

FRECUENCIA RELATIVA ACUMULADA (𝑯𝒊 ) .-

Se llama frecuencia relativa acumulada del valor 𝑦𝑖 a la frecuencia relativa total de las
observaciones menores o iguales a 𝑦𝑖 . Se denota como “ 𝐻𝑖 “

f1 +f2 +f3 +⋯.+f𝑚 m


𝐻𝑚 = ℎ1 + ℎ2 + ⋯ … . +ℎ𝑚 =
𝑛
= h
j 1
j

Entonces tenemos:
1
H1 =  h j = h1
j 1
2
H 2 =  h j = h1 +ℎ2
j 1
3
H 3 =  h j = h1 +ℎ2 + ℎ3
j 1
4
H 4 =  h j = h1 +ℎ2 + ℎ3 + ℎ4
j 1
5
H 5 =  h j = h1 +ℎ2 + ℎ3 + ℎ4 + ℎ5
j 1

Así sucesivamente

𝒀′𝒊 –𝟏 – 𝒀′𝒊 𝒀𝒊 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
𝑌0′ – 𝑦1′ 𝒀𝟏 𝑓1 ℎ1 𝐹1 𝐻1
𝑌1′ – 𝑦2′ 𝒀𝟐 𝑓2 ℎ2 𝐹2 𝐻2
𝑌2′ – 𝑦3′ 𝒀𝟑 𝑓3 ℎ3 𝐹3 𝐻3

𝑌𝑚′ –1 – 𝑦𝑚

𝒀𝒎 𝑓𝑚 ℎ𝑚 𝐹𝑚 𝐻𝑚

PROPIEDADES DE LAS FRECUENCIAS

22
Apuntes de clase Estadística General

1.- Las frecuencias absolutas y las frecuencias acumuladas absolutas son siempre enteros
no negativos.

𝑓𝑖 ≥ 0 y 𝐹𝑖 ≥ 0 para i = 1, 2, 3,……., m

2.- La suma de todas las frecuencias absolutas es igual al número total del conjunto de
observaciones.

f
j 1
j
= f1 + 𝑓2 + ⋯ … 𝑓𝑚 = 𝑛

3.- Las frecuencias relativas y las frecuencias relativas acumuladas son siempre número
fraccionados no negativos, no mayores de uno.

0≤ ℎ𝑖 ≤ 1 0≤ 𝐻𝑖 para i= 1, 2,……., m

4.- La frecuencia absoluta acumulada correspondiente al valor 𝑦𝑚 coincide con el número


total conjunto de observaciones.

m
Fm = f
i 1
i =1

5.- La frecuencia relativa acumulativa correspondiente al valor ℎ𝑚 coincide con la unidad.

m
Hm = h
i 1
i =1

6.- Las frecuencias absolutas acumuladas cumplen las siguientes desigualdades:

𝑓1 = 𝐹1 ≤ 𝐹2 ≤ ⋯ … . ≤ 𝐹𝑚 Para i = 1, 2,……, m

7.- Las frecuencias relativas acumuladas cumplen las siguientes desigualdades:

ℎ1 = 𝐻1 ≤ 𝐻2 ≤ ⋯ … . ≤ 𝐻𝑚 Para i = 1, 2,………, m

Ejemplo Los datos que a continuación se dan, corresponde al rendimiento de 50 genotipos


de papa del Banco de Germoplasma del Centro Internacional de la Papa (CIP).
Equivalente a toneladas por hectárea.

𝑋1 = 3,9 𝑋2 = 4,7 𝑋3 = 4,3 𝑋4 = 3,7 𝑋5 = 4,8 𝑋6 = 4,5 𝑋7 = 4,3


𝑋8 =5,3 𝑋9 = 5,3 𝑋10 = 5,0 𝑋11 = 6,0 𝑋12 = 4,3 𝑋13 = 4,5 𝑋14 = 4,8
𝑋15 = 5,3 𝑋16 = 5,6 𝑋17 = 3,3 𝑋18 = 5,1 𝑋19 = 4,4 𝑋20 = 4,1 𝑋21 = 5,1
𝑋22 = 4,7 𝑋23 = 4,1 𝑋24 = 4,9 𝑋25 = 4,0 𝑋26 = 4,7 𝑋27 = 3,3 𝑋28 = 3,9
𝑋29 = 4,4 𝑋30 = 4,2 𝑋31 = 4,5 𝑋32 = 5,3 𝑋33 = 5,6 𝑋34 = 3,9 𝑋35 = 6,1
𝑋36 = 4,9 𝑋37 = 4,5 𝑋38 = 4,5 𝑋39 = 4,7 𝑋40 = 4,2 𝑋41 = 5,0 𝑋42 = 4,3
𝑋43 = 4,2 𝑋44 = 4,7 𝑋45 =5,8 𝑋46 = 6,1 𝑋47 = 4,8 𝑋48 = 4,7 𝑋49 = 5,8
𝑋50 = 5,4

23
Apuntes de clase Estadística General

1.- Ordenamos los datos de menor a mayor

3,3 3,3 3,7 3,9 3,9 3,9 4,0 4,1 4,1 4,2
4,2 4,2 4,3 4,3 4,3 4,3 4,4 4,4 4,5 4,5
4,5 4,5 4,5 4,7 4,7 4,7 4,7 4,7 4,7 4,8
4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,3 5,3
5,3 5,3 5,4 5,6 5,6 5,8 5,8 6,0 6,1 6,1

El rango será:
R = 6,1 – 3,3= 2,8
El número de clases o intervalos será:
4
K = m = 2,5√50 = 6,64 → 𝑟𝑒𝑑𝑜𝑛𝑑𝑒𝑎𝑚𝑜𝑠 𝑎 7 𝑐𝑙𝑎𝑠𝑒𝑠
La amplitud del intervalo será:
2,8
C= = 0,42 = 0,4
6,64
A continuación calculamos:

Límites de clase: 𝒀′𝒊 –𝟏 – 𝒀′𝒊


El número menor se convierte en el límite inferior de la primera clase. Se le suma el intervalo
de clase y se convierte en el límite superior de la primera clase. Así sucesivamente.

Marca de clase (𝒀𝒊 )

Es la semi suma de los límites de clase. Es decir límite inferior más límite superior entre dos.

Frecuencia absoluta (𝒇𝒊 )

Es el número de observaciones o de datos comprendidos entre los límites de clase.

Frecuencia relativa (𝒉 𝒊 )

se denomina frecuencia relativa del valor 𝑦𝑖 al cociente de la frecuencia absoluta de 𝑦𝑖 y el


número total de observaciones. Se denota por ℎ𝑖

𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑢𝑡𝑎 𝑑𝑒 𝑦𝑖 𝑓𝑖
ℎ𝑖 = =
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑛
Así sucesivamente
𝑓1 3 𝑓2 6
ℎ1 = = = 0,06 ℎ2 = = = 0,12 𝑓3 14 𝑓4 11
𝑛 50 𝑛 50 ℎ3 = = = 0,28 ℎ4 = = = 0,22
𝑛 50 𝑛 50
𝑓5 8 𝑓6 3 𝑓7 5
ℎ5 = = = 0,16 ℎ6 = = = 0,06 ℎ7 = = = 0,10
𝑛 50 𝑛 50 𝑛 50

Interpretación

24
Apuntes de clase Estadística General

𝒉𝟏 : 0,06 se interpreta como la proporción de genotipos cuyo rendimiento es igual a mayor


a 3, 3, pero igual o menor a 3,7 toneladas por hectárea.
𝒉𝟐 : 0,12 se interpreta como la proporción de genotipos cuyo rendimiento es mayor a 3,7
pero igual o menor a 4,1 toneladas por hectárea.
Y así sucesivamente.

Frecuencia absoluta acumulada (𝑭𝒊 )

Se llama frecuencia absoluta acumulada correspondiente al valor 𝒚𝒊 al número de


observaciones menores o iguales a 𝒚𝒊 se denota por “𝑭𝒊 "

𝐹𝑚 = 𝑓1 + 𝑓2 + 𝑓3 + … … + 𝑓𝑚

Para nuestro ejemplo será:


1
F1 =  f j = f1 = 3
j 1
2
F2 =  f j = f1 + 𝑓2 = 3 + 6 = 9
j 1
3
F3 =  f j = f1 + 𝑓2 + 𝑓3 = 3 + 6 + 14 = 23
j 1
4
F4 =  f j = f1 + 𝑓2 + 𝑓3 + 𝑓4 = 3 + 6 + 14 + 11 = 34
j 1
5
F5 =  f j = f1 + 𝑓2 + 𝑓3 + 𝑓4 + 𝑓5 = 3 + 6 + 14 + 11 + 8 = 42
j 1

Y así sucesivamente.

Interpretación.-

𝐹2 = 9 Significa que hay 9 genotipos de papa cuyo rendimiento es mayor a 3,7 pero igual o
menor a 4,1 toneladas por hectárea.

Frecuencia relativa acumulada (𝑯𝒊 )

Se llama frecuencia relativa acumulada del valor 𝑦𝑖 a la frecuencia relativa total de las
observaciones menores o iguales a 𝑦𝑖 . Se denota como “ 𝑯𝒊 “

𝑓1 +𝑓2 +𝑓3 +⋯.+𝑓𝑚


𝐻𝑚 = ℎ1 + ℎ2 + ⋯ … . +ℎ𝑖 =
𝑛
m
Hm = h j 1
j

Para nuestro ejemplo


1
H1 =  h j = h1 = 0,06
j 1
2
H 2 =  h j = h1 +ℎ2 = 0,06 + 0,12 = 0,18
j 1

25
Apuntes de clase Estadística General

3
H 3 =  h j = h1 +ℎ2 + ℎ3 = 0,06 + 0,12 + 0,28 = 0,46
j 1
4
H 4 =  h j = h1 +ℎ2 + ℎ3 + ℎ4 = 0,06 + 0,12 + 0,28 + 0,22 = 0,68
j 1
5
H 5 =  h j = h1 +ℎ2 + ℎ3 + ℎ4 + ℎ5 = 0,06 + 0,12 + 0,28 + 0,22 + 0,16 = 0.84
j 1

Así sucesivamente

Interpretación:

𝑯𝟐 = 0,18 es la proporción de genotipos de papa cuyo rendimiento es igual o mayor a 3,3


pero igual o menor a 4,1 toneladas por hectárea.
𝑯𝟑 = 0,46 es la proporción de genotipos de papa cuyo rendimiento es igual o mayor a 3,3
pero igual o menor a 4,5 toneladas por hectárea.

Así sucesivamente.

La tabla de distribución de frecuencias será:

𝒀′𝒊 –𝟏 – 𝒀′𝒊 𝒀𝒊 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
3,3 − 3,7 3,5 3 0,06 3 0,06
3,7 − 4,1 3,9 6 0,12 9 0,18
4,1 − 4,5 4,3 14 0,28 23 0,46
4,5 − 4,9 4,7 11 0,22 34 0,68
4,9 − 5,3 5,1 8 0,16 42 0,84
5,3 − 5,7 5,5 3 0,06 45 0,90
5,7 − 6,1 5,9 5 0,10 50 1

REPRESENTACION GRAFICA DE UNA DISTRIBUCION DE FRECUENCIAS

HISTOGRAMA DE FRECUENCIA

Grafica en la que las clases se señalan en el eje horizontal y las frecuencias de clase en el
eje vertical. Las frecuencias de clase se representan por medio de las alturas de barras,
estas se dibujan de manera adyacente.

Un histograma que utiliza las frecuencias relativas de cada una de las clases, en lugar de
usar la frecuencia absoluta se conoce como histograma de frecuencias relativas. Este

26
Apuntes de clase Estadística General

histograma tiene la misma forma que un histograma de frecuencias absolutas construido a


partir del mismo conjunto de datos

POLIGONO DE FRECUENCIAS

También muestra la forma que tiene una distribución y es similar a un histograma. Consiste
en segmentos de recta que conectan los puntos formados por las intersecciones de los
puntos medio de clase y las frecuencias de clase

16
14
12
10
8
6
4
2
0
5.6 7 8.4 9.8 11.2 12.6 14 15.1 16.5

El polígono también se puede construir con las frecuencias relativas, a esta figura se le
conoce como polígono de frecuencias relativas.

Las ventajas de un histograma son:


a.- Los rectángulos muestran cada clase de la distribución por separado.

b.- El área de cada rectángulo, en relación con el resto, muestra la proporción del número
total de observaciones que se encuentran en esa clase.

Las ventajas del polígono son:


a.- El polígono de frecuencias es más sencillo que su correspondiente histograma.

b.- Traza con más claridad el perfil del patrón de los datos.

c.- El polígono se vuelven cada vez más liso y parecido a una curva conforme aumentamos
el número de clases y el número de observaciones.

OJIVA O DISTRIBUCIÓN DE FRECUENCIA ACUMULATIVAS,

Grafica que resulta de la unión de las frecuencias acumulativas con las marcas de
clase. Nos permite ver cuántas observaciones están por encima de ciertos valores.

27
Apuntes de clase Estadística General

60
50
40
30
20
10
0
5.6 7 8.4 9.8 11.2 12.6 14 15.4

REPRESENTACIÓN DE VARIABLES CUANTITATIVAS

Gráfico Característica
. Apropiadas para variable discretas
Barras
. Las barras aparecen separadas
. Son barras rectangulares contiguas
. Son apropiadas para variables cuantitativas continuas agrupadas
en intervalo
Histograma . La base de cada barra es proporcional a la amplitud del intervalo
. El punto medio de cada barra coincide con la marca de clase
. La altura de la barra es proporcional a su frecuencia
. Se obtiene uniendo con segmentos de recta los puntos medios de
Polígono de
las bases superiores de las barras de un histograma con su
frecuencias frecuencia.

REPRESENTACION TALLO HOJA

Es otra técnica para construir cuadros de frecuencias para datos continuos. Consiste en
realizar primero una ordenación de datos. La ordenación consiste en formar el llamado “tallo”
con los primeros dígitos significativo de los datos. Luego, las “hojas” se forman con los otros
dígitos. Después, se puede hacer una representación gráfica preliminar en la que se pueden
observar ciertos detalles que pudieron estar o no previstos.

Ejemplo

Se tiene datos sobre el precio de un artículo observado en 40 establecimientos comerciales.

5,2 10,2 7,0 7,1 10,2 8,3 9,4 9,2 5,4 8,1 5,3 6,2
6,5 7,1 6,6 7,8 6,8 7,2 8,4 9,6 8,7 7,3 9,1 8,6
8,5 5,7 6,4 10,1 8,2 9,0 7,8 8,2 7,8 6,6 7,0 7,7
8,3 7,5 9,8 7,5

Para elaborar una representación tallo – hoja es recomendable, primero, ordenar los datos
en forma ascendente, con lo cual se obtiene lo siguiente:

28
Apuntes de clase Estadística General

5,2 5,3 5,4 5,7 6,2 6,4 6,5 6,6 6,6 6,8
7,0 7,0 7,1 7,1 7,2 7,3 7,5 7,5 7,7 7,8
7,8 7,8 8,1 8,2 8,2 8,3 8,3 8,4 8,5 8,6
8,7 9,0 9,1 9,2 9,4 9,6 9,8 10,1 10,2 10,2

El siguiente paso consiste en formar tallos. Teniendo en cuenta que los precios varían
entre 5,2 y 10,2, los tallos se pueden formar con los dígitos de las unidades. Es decir, se
tendrá:

Tallos
5.
6.
7.
8.
9
10.

A continuación, se forman las hojas de cada tallo colocando a su lado derecho los dígitos
menos significativos que forman cada uno de los datos.

Tallo Hojas
5, 2 3 4 7
6, 2 4 5 6 6 8
7, 0 0 1 1 2 3 5 5 7 8 8 8
8, 1 2 2 3 3 4 5 6 7
9, 0 1 2 4 6 8
10, 1 2 2

También se puede agregar segmentos lineales partiendo de la última hoja de cada tallo para
obtener una aproximación al polígono de frecuencias, obteniéndose lo siguiente.

Tallo Hojas
5, 2 3 4 7
6, 2 4 5 6 6 8
7, 0 0 1 1 2 3 5 5 7 8 8 8
8, 1 2 2 3 3 4 5 6 7
9, 0 1 2 4 6 8
10, 1 2 2

OTRAS REPRESENTACIONES GRAFICAS

DIAGRAMA DE PARETO

En una representación gráfica que se utiliza usualmente para controles de calidad y que
permite tomar acciones correctivas necesarias.

Ejemplo

29
Apuntes de clase Estadística General

Con la finalidad de tomar acciones correctivas sobre la ocurrencia de defectos en la


producción de pernos, se inspeccionaron 2 000 pernos de un lote de producción.

En el cuadro siguiente se presenta la organización inicial de la información. Este cuadro se


formó con las observaciones tomadas de los pernos de la muestra que presentaron al menos
un defecto. En total se presentaron 84 defectos para 60 pernos que presentaron al menos
un defecto.

No. De veces
Defecto Porcentaje
Que aparecen
Cabeza rota 22 26,2
Tamaño inadecuado de cabeza 10 11,9
Enroscado imperfecto 7 8,3
Longitud imperfecta 12 14,3
Dureza fuera de la especificación 29 34,5
Otros 4 4,8
Total 84 100,0

En el siguiente cuadro, se forma considerando los defectos en orden descendiente, según


el porcentaje de veces que se presentan.

No. De veces
Defecto Porcentaje
Que aparecen
Dureza fuera de la especificación 29 34,5
Cabeza rota 22 26,2
Longitud imperfecta 12 14,3
Tamaño inadecuado de cabeza 10 11,9
Enroscado imperfecto 7 8,3
Otros 4 4,8
Total 84 100,0

Con la conformación proporcionada en el cuadro anterior, se construye el grafico de Pareto


utilizando la cantidad de veces que se presentan los defectos y el porcentaje acumulado.

Este grafico permite determinar el orden que se debe seguir para la corrección de los
defectos. Así tenemos que el primer defecto que se debe corregir es la dureza fuera de las

30
Apuntes de clase Estadística General

especificaciones; luego, las cabezas rotas; en seguida, la longitud imperfecta; y así


sucesivamente.

GRAFICO PARA SERIE DEL TIEMPO

Cuando se recoge la información hay que distinguir datos para un corte transversal en el
tiempo y datos correspondientes a una serie del tiempo. El primero de ellos se refiere a
información coleccionada en un determinado momento; así por ejemplo se tiene la
información recogida sobre las utilidades netas obtenidas en el año 2000 por cincuenta
empresas. Los datos para serie del tiempo se refieren a información recogida para una o
más variables a intervalos regulares de tiempo.

Estos intervalos regulares de tiempo pueden ser días, semanas, meses, bimestres,
semestres, año, etc. Así por ejemplo, se tiene la información sobre el producto nacional bruto
periodo 1991 – 2000.

Los datos en serie de tiempo para una variable determinada se pueden representar
gráficamente en dos formas. La primera mediante barras, una barra para cada intervalo o
periodo de tiempo con una altura proporcional al valor que le corresponde a la variable de
interés. La segunda, mediante líneas que unen los puntos que tienen como componente el
periodo de tiempo y el valor de la variable.

Ejemplo

La siguiente información corresponde a datos de la variable volumen de venta anual ( en


millones de soles), para el periodo 1991 – 2000, de una empresa.

Año 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Volumen
12 15 19 25 26 28 30 28 24 22
De ventas

DESCRIPCCION DE DATOS

MEDIDAS DE TENDENCIA CENTRAL.-

31
Apuntes de clase Estadística General

La tendencia central se refiere al punto medio de una distribución. Se conocen como


medidas de posición.

LA MEDIA ARITMÉTICA.-

Es la suma de todos los valores dividido entre el número de valores.

MEDIA POBLACIONAL:
n

X
i 1
i
µ=
N
En la cual.

µ ═ representa la media poblacional, letra griega mu

N ═ es el número de valores en la población

𝑋𝑖 ═ representa cualquier valor en particular

∑═ es la letra griega mayúscula sigma e indica la operación suma

∑𝑋𝑖 ═ es la suma de X valores de la población

MEDIA MUESTRAL
n

X
i 1
i
X=
n

En la cual:

𝑋 = Media muestral

n = es el número de valores de la muestra.

PROPIEDADES DE LA MEDIA ARITMETICA

1.- Todo conjunto de datos de nivel de intervalo o de nivel de razón posee una media.

2.- Todos los valores se encuentran incluidos en el cálculo de la media.

3.- La media es única. Solo existe una media en un conjunto de datos.

4.- Si todos los valores observados X1, X2,……….𝑋𝑛 son iguales a b (donde b es una
constante) entonces la media de una constante es la misma constante.

M(x) = M (b) = b

5.- Si a cada valor de las observaciones X1, X2,………Xn se le suma (o se resta) una
constante, la media del nuevo conjunto transformado yi= xi b; es la media aritmética del
conjunto original más (o menos) la constante. Es decir:

32
Apuntes de clase Estadística General

𝑌 = M (Y)= 𝑀(𝑋) ± 𝑏

Donde Yi = Xi ± b, b= constante, i = 1,2,………….,n

6.- Si cada valor de un conjunto X1, X2,………….,Xn se multiplica por una constante diferente
de cero, la media aritmética del conjunto transformado Yi = aXi, donde i= 1, 2,……,n
es la media aritmética del conjunto original multiplicado por la constante. O sea:

𝑋 = 𝑀(𝑌) = 𝑎𝑀(𝑋)

7.- La suma algebraica de las desviaciones de cada valor observado X1, X2, X3,….Xn con
respecto a su media es cero. Esta propiedad significa que:

 X
i 1
i  Xi  = 0

Para datos agrupados esta propiedad se transforma en


m

 f Y  Y   0
i 1
i i

m = número de clases

𝑓𝑖 = frecuencia absoluta de la clase i

Yi = punto medio del intervalo i (marca de clase)

8.- Si X1, X2,………,Xn, y ,Y1,Y2,……Yn son dos conjuntos de observaciones de n valores


cada uno, de dos variables X y Y, expresados en las mismas unidades, entonces la media
de ambas variables será:

M(X ± Y) = M(X) ± M (Y)

9.- En casos especiales, esto es cuando es apropiado hacerlo, la media aritmética se puede
utilizar para estimar la cantidad total de una población. Esta propiedad indica que:

Total = N X

MEDIA PONDERADA

La media ponderada de un conjunto de números denotados por 𝑋1 , 𝑋2 , 𝑋3 , … … … , 𝑋𝑛 con


ponderaciones 𝑊1 , 𝑊2 , 𝑊3 , … … … . . , 𝑊𝑛 , se calcula como sigue:
n

 x w  i i
Xw  i 1
n

w
i 1
i

Ejemplo.- Un establecimiento vende gaseosas de tres tamaños: pequeño, mediano y grande.


El pequeño cuesta $0,50 (soles): el mediano $ 0,75; y el grande $ 1,00. Ayer se
vendieron 20 gaseosas pequeñas, 50 gaseosas medianas y 30 gaseosas grandes.
¿Cuál es el precio medio ponderado por gaseosa?

33
Apuntes de clase Estadística General

MEDIANA

Valor en la posición central de los valores después de ordenarlos de menor a mayor o de


mayor a menor. Hay tantos valores por encima de la mediana como por debajo de ella en la
ordenación de datos.

𝑛+1
Ubicación de la mediana ═
2

Si hay cinco datos, entonces la ubicación de la mediana (n+1)/2 será igual a (5+1)/2 igual a
3. Al ordenar los datos de menor a mayor, se obtiene el valor del tercer elemento, que es 7,
la mediana.

Número de elemento 1 2 3 4 5
Valor del elemento 2 4 7 8 15

Mediana

En el siguiente ejemplo hay seis elementos de manera que (n+1)/2 será igual a (6+1)/2
igual a 3,5 Después de ordenar los datos de menor a mayor se encuentra la semi suma de
los valores 3 y 4. Luego la mediana será 31.

Numero de elemento 1 2 3 4 5 6
Valor del elemento 25 29 30 32 35 35

31
Mediana

VENTAJAS Y DESVENTAJAS DE LA MEDIANA


1.- La mediana es única; esto es, a semejanza de la media solo existe una mediana para un
conjunto de datos.

2.- No es difícil determinar la mediana para datos no agrupados. Tan solo se necesita
ordenarlos de menor a mayor o viceversa, y encontrar el valor del elemento central.

3.- No se ve afectada por valores muy grandes o muy pequeños y por tanto, es una medida
valiosa de tendencia central cuando ocurre este tipo de valores.

4.- Puede calcularse para datos de nivel de razón, de intervalo y ordinal.

MODA
Valor de la observación que aparece con mayor frecuencia.

La moda puede determinarse para todos los niveles de datos: nominales, ordinales, de
intervalo y de razón. La moda también tiene la ventaja de no verse afectada por valores muy
altos o muy bajos.

Hay muchos conjuntos de datos que no tienen moda, porque ningún valor figura más de una
vez. Pero también existen conjunto de datos que tiene más de una moda.

MEDIA GEOMETRICA (M.G.)

34
Apuntes de clase Estadística General

LA MEDIA GEOMÉTRICA de un conjunto de n números positivos se define como: la raíz


n-ésima del producto de n números.
Si uno de los números es cero o negativo, no se puede calcular la media geométrica
𝑛
M.G. ═ 𝑋g═ √(𝑋1 )(𝑋2 )(𝑋3 ) … … . . (𝑋𝑛 )

Hay dos usos principales de la media geométrica:

1.- Para promediar porcentajes, índices y cifras relativas.

2.- Para determinar el incremento porcentual promedio.

Ejemplo:

Supóngase que las utilidades obtenidas por una compañía constructora en cuatro proyectos
fueron de 3, 2, 4 y 6% respectivamente ¿Cuál es la media geométrica de las ganancias?
𝑛
M.G. ═ √(𝑋1 )(𝑋2 )(𝑋3 ) … … . . (𝑋𝑛 )

4 𝟒
M.G. ═√(3)(2)(4)(6) ═ √𝟏𝟒𝟒 ═ 3,46%

Ejemplo
Supongamos que un capital de 50 000 sea colocado a una tasa anual del 24% el primero de
Enero del 2013. Si se capitaliza los días primero de Enero de cada año, calcule el promedio
del dinero invertido entre el 31 de Diciembre del 2013 y 31 de Diciembre del 2016

AÑOS 𝑿𝒊 log 𝑿𝒊
2013 50 000 4,698970
2014 62 000 4,792392
2015 76 880 4,885813
2016 93 331,2 4,979235
∑ 19,356410

𝑛
M.G. ═ √(𝑋1 )(𝑋2 )(𝑋3 ) … … . . (𝑋𝑛 )
n

 log X i
log M .G.  i 1

19,356410
log M.G. = = 4,8391025
4
M.G. = antilog 4, 8391025

M.G. = 69,040.27 (Promedio invertido durante el período)


La media geométrica de términos positivos es siempre menor o igual que la media aritmética.
Es igual a la media aritmética sólo en el caso en que todos los términos sean iguales entre
sí.

𝑿 ≥ 𝑿g

35
Apuntes de clase Estadística General

La media geométrica para datos agrupados en clases, es la raíz n-ésima del producto
de las marcas de clase elevadas a sus respectivas frecuencias.

𝑛𝑓 𝑓 𝑓
𝑀. 𝐺. = 𝑋g = √𝑌′1 1 𝑌′2 2 … … . 𝑌′𝑚 𝑚

Desventajas de la media geométrica

1.- Su cálculo es muy engorroso.

2.- Está limitado para valores positivos para que pueda ser interpretado.

3.- Si algún valor de la variable es cero, la media geométrica será igual a cero.

4.- Si aparece algún valor negativo, el estadígrafo toma un valor imaginario.

MEDIA ARMONICA (𝑿h ═ 𝑴𝒉 )

LA MEDIA ARMÓNICA (𝑋h = 𝑀ℎ ) de términos no nulos 𝑋1 , 𝑋2 , … … … 𝑋𝑛 es el reciproco de


la media aritmética de los recíprocos de esos términos.

Es decir:

1 n
𝑿𝒉 = 𝑴𝒉 = n =
1 n


i 1 xi
x
1
i 1 i
n

Ejemplo

La media armónica de los números 3, 4, 6, y 8


4
𝑋ℎ = 𝑀ℎ = 1 1 1 1 = 4,57143
+ + +
3 4 6 8

La media armónica para datos agrupados será:


n
𝑋ℎ = 𝑀ℎ = m
f
Y
i 1
i
'
i

Siempre que se trate del mismo conjunto de datos


𝑿𝒉 ≤ 𝑿𝒈 ≤ 𝑿

VENTAJAS Y DESVENTAJAS

1.- La media armónica se basa en todas las observaciones por lo que está afectado por los
valores extremos. Pero da a los valores grandes un peso menor que el que da la media
geométrica; mientras que a los valores pequeños, le da un peso mayor que el que da la
media aritmética y la media geométrica.

36
Apuntes de clase Estadística General

2.- La media armónica no está defina, si alguno de los valores es cero.

Aplicaciones de la media armónica


1.- Cuando se tiene términos para cuyos recíprocos se quiere calcular su media.

2.- Cuando se presenta una relación inversa entre las variables implícitas, como por
ejemplo:

- Entre la productividad y el tiempo.

e=p x t

Donde: e = espacio p = productividad t = tiempo

- La velocidad y el tiempo
e=v x t
Donde: e= espacio v = velocidad t= tiempo

Ejemplos

1.- Suponga que ha gastado usted, un sol por 3 docenas de naranjas en una tienda, otro
sol por 4 docenas de naranjas en una segunda tienda y otro sol más por 5 docenas en
una tercera tienda. Determinar el precio promedio por una docena de naranjas.

Solución:

Obtendremos primero el precio pagado por docena de naranja.


En la primera usted ha gastado 1 sol por 3 docenas de naranjas o sea 1/3 de sol por docena.
En la segunda gastó 1 sol por 4 docenas, es decir 1/4 de sol por docena.
En la tercera tienda gastó un sol por 5 docenas, o sea 1/5 de sol por docena.
En otras palabras queremos calcular la media de los recíprocos de los números 3, 4, 5

1 n 3
𝑿𝒉 = 𝑴𝒉 = n
1
= n
= 1 1 1 = 0,25
x
i 1
x
1 + +
1/3 1/4 1/5
i i 1 i
n
2.- Cinco secretarias tienen las siguientes velocidades 40, 36, 28, 40, y 35 palabras por
minuto. Si cada una de ellas escribe un mismo texto, calcule la velocidad media

n
𝑋ℎ = 𝑀ℎ = n
1
x
i 1 i

5
𝑋ℎ = 𝑀ℎ = 1 1 1 1 1 = 35,196 palabras/minuto
+ + + +
40 36 28 40 35

37
Apuntes de clase Estadística General

MEDIA, MEDIANA Y MODA PARA DATOS AGRUPADOS

MEDIA ARITMERICA PARA DATOS AGRUPADOS (datos tabulados)

Para datos discretos

Considerando esta simbología, las expresiones de cálculo son las siguientes:

Media o promedio poblacional


n

X
i 1
i i f
µ=
N
Media o promedio muestral
n

X i fi
X i 1

n
Para datos continuos
Si los datos han sido clasificados en m clases en una tabla de frecuencia con marca de clase
Yi y frecuencia absoluta 𝒇𝒊 = 1,2,…….., m, la media aritmética de estos datos está definida
por:

Media o promedio poblacional:


n

Y f
i 1
i i
µ=
N
Media o promedio muestral:
n

Y f i i
X i 1

n
𝒀′𝒊 –𝟏 – 𝒀′𝒊 𝒀𝒊 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
6,3 - 7,5 6,9 14 0,14 14 0,14
7,5 - 8,7 8,1 18 0,18 32 0,32
8,7 - 9,9 9,3 13 0,13 45 0,45
9,9 - 11,1 10,5 25 0,25 70 0,70
11,1 - 12,3 11,7 13 0,13 83 0,83
12,3 - 13,5 12,9 8 0,08 91 0,91
13,5 - 14,7 14,1 5 0,05 96 0,96
14,7 - 15,9 15,3 4 0,04 100 1

Y f i i
X i 1

MEDIANA PARA DATOS AGRUPADOS

38
Apuntes de clase Estadística General

𝒏
𝟐
−𝑭𝒊−𝟏
Me = 𝒚′𝒊−𝟏 + 𝒄𝒋 [ ]
𝑭𝒊 − 𝑭𝒊−𝟏

Donde:

c j = amplitud de la clase mediana.

Fi = Frecuencia absoluta acumulada de la clase mediana.

n = número de observaciones.

𝑦𝑖−1 = Límite inferior de la clase mediana.

𝒀′𝒊 –𝟏 – 𝒀′𝒊 𝒀𝒊 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
6,3 - 7,5 6,9 14 0,14 14 0,14
7,5 - 8,7 8,1 18 0,18 32 0,32
8,7 - 9,9 9,3 13 0,13 45 0,45
9,9 - 11,1 10,5 25 0,25 70 0,70
11,1 - 12,3 11,7 13 0,13 83 0,83
12,3 - 13,5 12,9 8 0,08 91 0,91
13,5 - 14,7 14,1 5 0,05 96 0,96
14,7 - 15,9 15,3 4 0,04 100 1

𝒏
−𝑭𝒊−𝟏
𝟐
Me = 𝒚′𝒊−𝟏 + 𝒄𝒋 [ ]
𝑭𝒊 − 𝑭𝒊−𝟏

100
2
−45
𝐌𝐞 = 9,9 +1,29[ ] = 10,158
70 − 45

MODA PARA DATOS AGRUPADOS

𝒇𝒊 − 𝒇𝒊−𝟏
Mo= 𝒀′𝒊−𝟏 + 𝒄𝒋 [(𝒇 ]
𝒊 − 𝒇𝒊−𝟏 )+ (𝒇𝒊 − 𝒇𝒊+𝟏)
Donde:

= límite inferior de la clase modal.

f i 1 = frecuencia absoluta de la clase pre modal.

f i = frecuencia absoluta de la clase modal.

f i 1 = frecuencia absoluta de la clase pos modal.

cj = amplitud de la clase modal.

39
Apuntes de clase Estadística General

𝒀′𝒊 –𝟏 – 𝒀′𝒊 𝒀𝒊 𝒇𝒊 𝒉𝒊 𝑭𝒊 𝑯𝒊
6,3 - 7,5 6,9 14 0,14 14 0,14
7,5 - 8,7 8,1 18 0,18 32 0,32
8,7 - 9,9 9,3 13 0,13 45 0,45
9,9 - 11,1 10,5 25 0,25 70 0,70
11,1 - 12,3 11,7 13 0,13 83 0,83
12,3 - 13,5 12,9 8 0,08 91 0,91
13,5 - 14,7 14,1 5 0,05 96 0,96
14,7 - 15,9 15,3 4 0,04 100 1

𝑓𝑖 − 𝑓𝑖−1

Mo = 𝑌𝑖−1 + 𝑐𝑗 [(𝑓 ]
𝑖 − 𝑓𝑖−1 )+ (𝑓𝑖 − 𝑓𝑖+1)

25−13
Mo = 9,9 + 1,2 [ ] ═ 10,5
(25−13)+ (25− 13)

RELACIÓN ENTRE MEDIA, MEDIANA Y MODA EN DISTRIBUCIONES SIMÉTRICAS Y


ASIMÉTRICAS

1.- En una distribución de frecuencias simétrica cuya representación gráfica es acampanada


y además unimodal; coinciden exactamente en el mismo valor, media, mediana y moda.

𝑋 = 𝑀𝑒 = 𝑀𝑜
2.- Si la distribución tiene la forma acampanada, es unimodal, pero no tiene simetría, las tres
medidas toman valores diferentes, y la mediana queda comprendida generalmente entre
la moda y la media aritmética.

En una distribución asimétrica positiva (o con sesgo positivo) la media aritmética es el mayor
de los tres promedios. Esto se debe a que en la media influye más que en la mediana y la
moda, los valores sumamente altos.

En una distribución asimétrica negativa, la media es el menor de los tres promedios. La


media se ve afectada por los valores extremadamente bajos.

Si se conocen dos promedios de una distribución de frecuencias con sesgo o asimetría


moderada, el tercer promedio puede aproximarse, de acuerdo con las siguientes fórmulas:

Moda ═ Media – 3(Media –Mediana)

3 (𝑚𝑒𝑑𝑖𝑎𝑛𝑎)−𝑚𝑜𝑑𝑎
Media =
2

2 (𝑚𝑒𝑑𝑖𝑎)+ 𝑚𝑜𝑑𝑎
Mediana =
3

40
Apuntes de clase Estadística General

¿Toma en ¿Es
¿Qué tan cuenta afectada
Medida común Existencia cada por los Ventajas/
es? Valor? valores Desventajas
extremos?
“Promedio Es el de mayor uso,
Siempre
Media más Si Si sensible a los
existe
conocido” valores extremos
Apropiada cuando
Valor en el Siempre
Mediana No No hay valores
medio existe
extremos
Apropiada para
Valor más Podría no
Moda No No variables en escala
frecuente existir
nominal

USOS DE LA MEDIA ARITMETICA, MEDIANA Y MODA

a.- La media aritmética se utiliza

1. Cuando no existen valores extremos que afecten a la media.


2. Cuando se tengan que calcular otros valores estadísticos como la varianza.

b.- La mediana se utiliza

1. Cuando se desea conocer el valor de posición central.


2. Cuando se tienen valores extremos que afecten a la media.

c.- La moda se utiliza

1. Cuando se desea conocer el valor de la observación más frecuente.


2. Cuando se analizan variables cualitativas.
3. Cuando se desea tener una estimación rápida y aproximada de tendencia central.

MEDIDAS DE POSICIÓN NO CENTRALES O CUANTILES

Son medidas de posición que no necesariamente reflejan la tendencia central de la


distribución de frecuencias: A este tipo de medidas se les llama cuantiles, que son los valores
41
Apuntes de clase Estadística General

de la variable que dividen a la distribución en intervalos que contienen el mismo número de


observaciones.

Los cuantiles más usados son los cuartiles, 𝑄𝑗 , los deciles, Dj y los percentiles, 𝑃𝑗 .

PERCENTILES

El p – ésimo percentil es un valor tal que, a lo sumo, p por ciento de las observaciones son
menores o iguales que este valor y, a lo sumo, (100 – p) por ciento de las observaciones son
mayores o iguales que este valor.

CALCULO DEL I – ÉSIMO PERCENTIL PARA DATOS NO AGRUPADOS

Se siguen los siguientes pasos:

1.- Ordenar los datos de forma ascendente.


2.- Calcule un índice k:
𝒊
K=[ ]n
𝟏𝟎𝟎

Dónde i es el percentil de interés y n es la cantidad de observaciones

3.- Si k no es entero, se redondea. El valor del entero inmediato superior que k indica la
posición del i – ésimo percentil.
Si k es entero, el i – ésimo percentil es el promedio de los valores de los datos
ubicados en los lugares k y k + 1.

Ejemplo

Dada una muestra cuyos valores son:

53 55 70 58 64 57 72 53 69 57 68 53

Calcule los percentiles 30 y 75

Solución

1.- Se ordenan los datos de menor a mayor, esto es:


53 53 53 55 57 57 58 64 68 69 70 72
2.- Cálculo del índice k

Para percentil 30
𝑖 30
K= [ ]n = [ ] 12 = 3.6
100 100

3.- Como k no es entero, redondeamos. El lugar del percentil 30 es el siguiente entero


mayor de 3.6, es decir, el lugar 4. En este caso el percentil 30 es el valor del dato que
ocupa la posición cuarta, o sea 55. Esto significa que el 30% de los datos es menor que
55 y el 70% mayor o igual a 55.

Para percentil 75

42
Apuntes de clase Estadística General

𝑖 75
k= [ ]n = [100] 12 = 9
100

Como k es entero se establece que el percentil 75 es el promedio de los valores de los


68 +69
datos noveno y décimo; es por lo tanto. [ ] = 68.5 Esto significa que el 75% de los
2
datos, a lo sumo es menor que 68.5 y a lo sumo el 25% mayor o igual que 68.5.

Cálculo del i –ésimo percentil para datos agrupados

Se siguen los siguientes pasos:

𝑖𝑛
1.- Se calcula , donde i = 1, 2,3,………..,99
100

2.- Se identifica la clase que contiene el 𝑃𝑖 por la frecuencia acumulada


3.- Se emplea la fórmula
𝑖𝑛
′ 100
– 𝐹𝑘−1
𝑃𝑖 = 𝑌𝑖−1 + 𝑐𝑗 [ ]
𝑓

Donde:

𝑌𝑖−1 = Límite inferior de la clase que contiene a 𝑃𝑖

n = Tamaño de la muestra o población.

𝑐𝑗 = Tamaño del intervalo de clase.

𝐹𝑘−1 = Frecuencia acumulada de la clase anterior a la clase que contiene a 𝑃𝑖

f = frecuencia simple de la clase que contiene a 𝑃𝑖

Ejemplo

La tabla siguiente muestra la distribución de las edades de 120 personas

𝒀′𝒊−𝟏 − 𝒀′𝒊 𝒇𝒊 𝑭𝒊
30 – 40 1 1
40 – 50 3 4
50 – 60 11 15
60 – 70 21 36
Determine la edad mínima 70 – 80 43 79 del 25% de las personas
de más edad 80 – 90 32 111
90 - 100 9 120
Solución

La edad minina del 25% de las personas de más edad es el percentil 75, en ese sentido
tenemos que encontrar las frecuencias acumuladas

𝑖𝑛 75 𝑥 120
1.- Se calcula = = 90
100 100

43
Apuntes de clase Estadística General

2.- La clase que contiene al 𝑃75 es 80 – 90

3.- Utilizando la fórmula:


𝑖𝑛
′ − 𝐹𝑘−1
100
𝑃𝑖 = 𝑌𝑖−1 + 𝑐𝑗 [ ]
𝑓

90−79
𝑃75 = 80 + 10 [ ] = 83.44
32

CUARTILES.-
Dividen a la masa de datos en cuatro grupos iguales. El primer cuartil, 𝑄1 deja el 25% de
los datos ordenados a su izquierda, y el otro 75% a su derecha. El segundo cuartil, 𝑄2 , deja
el 50% de los datos a su izquierda y el otro 50% a su derecha, este valor coincide con la
mediana, mientras que el tercer cuartil, 𝑄3 deja el 75% de los datos ordenados a su izquierda
y el otro 25% a su derecha.

CALCULO DE LOS CUARTILES PARA DATOS ORDENADOS.


Los cuartiles son solo percentiles específicos; por lo tanto, los pasos para calcular los
percentiles se pueden aplicar en forma directa para calcular los cuartiles. Esto es:

𝑄1 = Primer cuartil o percentil 25


𝑄2 = Segundo cuartil o percentil 50
𝑄3 = Tercer cuartil o percentil 75

Ejemplo
Los siguientes datos representan los sueldos mensuales para una muestra de 12 Ingenieros
Agrónomos.

2850 2950 3050 2880 2755 2710 2890 3130 2940 3325 2920 2880
Determine el 𝑄1 𝑦 𝑄3

Solución

Cuartil uno, 𝑸𝟏

1.- Se ordenan los datos en forma ascendente

2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

2.- Calcular el 𝑄1 es igual que calcular el 𝑃25 , en ese sentido se calcula el índice K

𝑖 25
k= [ ]n = [ ] 12 = 3
100 100

44
Apuntes de clase Estadística General

Como K es entero se establece que el percentil 25 es el promedio de los valores de los


2850 +2880
datos tercero y cuarto; es por lo tanto [ ] = 2865. Esto significa que el 25%
2
de los Ingenieros Agrónomos tienen un salario mensual superior a 2865.

Cuartil tres, 𝑸𝟑 :

Implica calcular el percentil 75, entonces:

1.- Calcular el índice K

𝑖 75
k= [ ]n = [ ] 12 = 9
100 100

Como K es entero se establece que el percentil 75 es el promedio de los valores de los


2950 +3050
datos noveno y décimo; es por lo tanto, [ ] = 3000. Esto significa que el 75% de
2
los Ingenieros Agrónomos tienen un salario menor a 3000 y el otro 25% un salario
mensual superior a 30000

𝑄1 𝑄2 𝑄3

2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

2865 2905 3000

CÁLCULO DE CUARTILES PARA DATOS NO AGRUPADOS


𝒏
− 𝑭𝒌−𝟏
𝟒
𝑸𝟏 = 𝒀′𝒊−𝟏 + 𝒄𝒋 [ ]
𝒇

𝒏
− 𝑭𝒌−𝟏
𝟐
𝑸𝟐 = 𝒀′𝒊−𝟏 + 𝒄𝒋 [ ]
𝒇

3𝑛
− 𝐹𝑘−1
4
𝑸𝟑 = 𝒀′𝒊−𝟏 + 𝒄𝒋 [ ]
𝑓

Donde:

𝒀′𝒊−𝟏 =Limitre inferior de la clase que contiene al cuartil i

𝑛 = Número de datos

𝐹𝑘−1 = Frecuencia acumulada de la clase anterior de la clase que contiene al cuartil i

f = frecuencia de clase simple de la clase que contiene al cuartil.

𝑐𝑗 = tamaño del intervalo de clase.

Ejemplo

45
Apuntes de clase Estadística General

Una empresa decide evaluar a sus empleados. La clasificación se lleva a cabo mediante la
aplicación de un test que arroja los siguientes puntajes:

𝒀′𝒊−𝟏 − 𝒀′𝒊 𝒇𝒊
0 - 20 94
20 - 40 140
40 - 60 160
60 - 80 98
80 - 100 8

Determine:

a.- La puntuación que es excedida por el 75% de los trabajadores.


b.- La puntuación que supera a las puntuaciones del 75% de los trabajadores.
Solución

a.- En este caso Se debe calcular el primer cuartil (𝑄1 )

𝑛
− 𝐹𝑘−1
𝑸𝟏 = 𝒀′𝒊−𝟏 + 𝒄𝒋 [4 ]
𝑓

Debemos encontrar las frecuencias acumuladas



𝑌𝑖−1 − 𝑌𝑖′ 𝑓𝑖 𝐹𝑖
0 - 20 94 94
20 - 40 140 234
40 - 60 160 394
60 - 80 98 492
80 - 100 8 500

Luego

𝑛 500
El lugar del cuartil 1 es la posición = = 125. Es decir, que el cuartil está ubicado
4 4
en la clase 20 – 40. Por lo tanto:
𝑛
− 𝐹𝑘−1
4
𝑄1 = 𝑌𝑖−1
′ + 𝑐𝑗 [ ]
𝑓

𝟏𝟐𝟓−𝟗𝟒
𝑄1 = 20 + 20 [ 𝟏𝟒𝟎
] = 24.43

Esto quiere decir que el 75% de los trabajadores tienen una calificación mayor a 24.43

b.- La puntuación que supera a las puntuaciones del 75% de los trabajadores, corresponde
al valor del tercer cuartil.

46
Apuntes de clase Estadística General

3𝑛 3 𝑥 500
El lugar del tercer cuartil es la posición = = 375. Es decir, que el cuartil está
4 4
ubicado en la clase 40 - 60. Por lo tanto
3𝑛
− 𝐹𝑘−1 375 − 234
4
𝑄3 = 𝑌𝑖−1
′ + 𝑐𝑗 [ ] = 40+ 20 [ ] = 57.625
𝑓 160

Esto quiere decir que el 25% de los trabajadores tiene una puntuación mayor a 57.625

MEDIDA DE DISPERSIÓN Y ASIMETRÍA

Son medidas que se emplean para determinar el grado de variabilidad o de dispersión de


los datos con respecto a un promedio.

Existen varias razones por la cual se debe estudiar la dispersión en un conjunto de datos

1.- Al aplicar una medida de dispersión es posible evaluar la confiabilidad del promedio que
se está utilizando. Una dispersión pequeña indica que los datos se encuentran
acumulados cercanamente, por ejemplo, alrededor de la media aritmética. Por tanto, la
media se considera bastante representativa de los datos. Esto es: la media es un
promedio confiable. Por el contrario, una dispersión grande indica que la media no es muy
confiable, es decir no es muy representativa de los datos.

2.- Una medida de dispersión permite apreciar cuán dispersas están dos o más
distribuciones. Por ejemplo veamos la siguiente figura

MEDIDA DE DISPERSIÓN.DATOS NO AGRUPADOS

A continuación se muestran dos series de datos, ambos tienen la misma media aritmética
pero se observa que tienen diferente dispersión alrededor de ella.
Se tiene dos series de datos:
a.- 48, 49, 49, 50, 50, 50, 51, 51,52
b.- 40, 47,47, 50, 50, 50, 53, 53,60

47
Apuntes de clase Estadística General

La media aritmética de ambas series es la misma. Un análisis de las cifras individuales revela
sin embargo un gran contraste. En la serie B hay una gran variación entre los valores, siendo
40 el valor menor y 60 el valor mayor. En la serie A el número menor es 48 y el mayor es 52.

En resumen podremos decir que en la serie B hay valores muy altos y muy bajos., mientras
que en la serie A los valores están más concentrados alrededor del promedio.

RANGO, AMPLITUD TOTAL.-

Se trata de la diferencia entre los valores mayor (o más alto) y menor ó más bajo) de un
conjunto de datos

AMPLITUD TOTAL ═ Valor más alto – Valor más bajo

PROPIEDADES DEL RANGO:

1.- Es fácil de calcular y sus unidades son las mismas que las de la variable.

2.- No utiliza todas las observaciones (sólo dos de ellas).

3.- Se puede ver muy afectada por alguna observación extrema.

4.- El rango aumenta con el número de observaciones o bien se queda igual. En cualquier
caso nunca disminuye.

DESVIACIÓN MEDIA:

Denominada también desviación promedio de los valores absolutos de las desviaciones con
respecto a la media aritmética.
n

X i X
D.M .  i 1

Donde:

𝑋𝑖 = Es el valor de cada observación


𝑋 = Es la media aritmética de los valores
n = Es el número de observaciones en la muestra

La desviación media tiene dos ventajas. Utiliza en su cálculo el valor de cada uno de los
elementos de un conjunto de datos, y es fácil de comprender; y es el promedio en que los
valores se desvían con respecto de la media.

Ejemplo

Los pesos de una muestra de cajas listas para embarcarse a Italia son (en kilogramos): 103,
97, 101, 106 y 103

1.- ¿Cuál es la desviación media?


2.- ¿Cómo se interpreta?

48
Apuntes de clase Estadística General

X
i 1
i 103+97+101+106+103
X= = = 102 Kg
n 5

|103−102|+|97−102|+|101−102|+|106−102|+|103−102|
D.M. =
5

D.M.═ 2,4 Kg

Interpretación.- En promedio, los pesos de las cajas se desvían 2,4 Kg respecto de la


media aritmética que es 102

VARIANCIA Y DESVIACION ESTANDAR

VARIANCIA.-

Media aritmética de las desviaciones cuadráticas con respecto a la media.

Variancia de población:
n

(X i   )2
𝜎2 = i 1

N
Variancia de la muestra:
2
 n 
n n   X
 i 1 
i  n

 (Xi  X )   X  nX 2
2 2 2
X i i
n
𝑠 2 = i 1 = i 1 = i 1

n 1 n 1 n 1

La varianza para datos agrupados será calculada empleando la siguiente fórmula:


2
 n 
  fiYi 
 i 1 
n n

 f Y
i i
2

n
 fiYi 2  nX 2
S 2  i 1  i 1
n 1 n 1

PROPIEDADES DE LA VARIANZA

1.- La varianza de un conjunto de observaciones X1, X2,…………..Xn siempre es un número


no negativo
V(x) ≥ 0

2.- La varianza de una constante es cero. Esto significa que si X1 = X2 =……..= Xn= b
entonces:
V (b) = 0

49
Apuntes de clase Estadística General

3.- Si a cada observación X1, X2,……,Xn se le adiciona o se le resta una constante b 0, la


varianza del nuevo conjunto de valores Y1,Y2,………,Yn, donde Yi= Xi b, i = 1,2,….,n,
coincide con la varianza del conjunto original. Es decir:

V (y) = V (x ± b) = V(x)

4.- Si a cada valor de un conjunto X1,X2,……Xn, se multiplica por una constante a, la varianza
del nuevo conjunto de valores Y1,Y2,…………Yn, donde Yi = aXi, i= 1,2,…,n es igual a la
varianza del conjunto original multiplicada por el cuadrado de la constante. Es decir:
V (y) = a2 V(X)

VARIANZA CALCULADA A PARTIR DE SUB MUESTRAS

Si y son las medias aritméticas de dos submuestras de tamaño n1 y n2 respectivamente


y sus varianzas correspondientes. Entonces la varianza de la muestra de tamaño n
= n1 + n2 está dada por:

 n1  1 S12   n2  1 S22  n1  X1  X   n2  X 2  X 
2
2
S =
n 1

DESVIACION ESTANDAR

Raíz cuadrada de la variancia

Desviación estándar poblacional 𝜎 = √𝜎 2

Desviación estándar muestral S = √𝑆 2

COEFICIENTE DE VARIACIÓN (CV)

En algunas ocasiones se requiere un estadístico descriptivo que indique cuán grande es la


desviación estándar en relación con la media. Es decir nos indica la cantidad de veces que
la desviación estándar contiene a la media aritmética.

Esta medida es el coeficiente de variación (coeficiente de variabilidad) y se representa


como porcentaje.

DESVIACIÓN ESTANDAR
CV = × 100
MEDIA ARITMETICA

𝜎
POBLACION CV = [ 𝑥 100]
𝜇

𝑠
MUESTRA CV = [ 𝑥 100]
𝑥

CARACTERÍSTICAS DEL COEFICIENTE DE VARIABILIDAD

50
Apuntes de clase Estadística General

1.- No tiene unidad de medida.

2.- No aplicable cuando la distribución tiene media cero.

3.- Se afecta su valor cuando se suma una constante K a cada observación de un conjunto
de datos.

4.-No cambia de valor cuando se multiplica por una constante K a cada una de las
observaciones.

Calificación de una distribución de datos, según el grado de dispersión:

Coeficiente de
Grados de variabilidad
variabilidad (%)
0 Datos Completamente homogéneos
0 < 𝐶𝑉 < 10 Datos muy homogéneos
10 < 𝐶𝑉 < 15 Datos regularmente homogéneos
15 < 𝐶𝑉 < 20 Datos regularmente variables
20 < 𝐶𝑉 < 25 Datos variables
CV> 25 Datos muy variable

TEOREMA DE CHEBYSHEV.-

Una desviación estándar pequeña para un conjunto de valores indica que éstos se
encuentran localizados cerca de la media. Por el contrario una desviación estándar grande
revela que las observaciones están muy dispersas con respecto a la media.

El matemático ruso P.L. Chebyshev, desarrolló un teorema que permite determinar la


proporción mínima de los valores que se encuentra dentro de un número específico de
desviaciones estándares con respecto a la media.

REGLA EMPIRICA.- Para una distribución de frecuencias simétrica en forma de campana,


aproximadamente el 68% de las observaciones se encontrará a más o menos una desviación
estándar de la media; aproximadamente el 95% de las observaciones se encontrarán a más
o menos dos desviaciones estándar desde la media; y prácticamente todas las
observaciones (99,7%) se encontrarán a más o menos tres desviaciones desde la media.

51
Apuntes de clase Estadística General

MEDIDAS DE FORMA

COEFICIENTE DE ASIMETRIA.

Las medidas de asimetría tienen como facilidad elaborar un indicador que permita
establecer el grado de simetría o asimetría, que presenta una distribución, sin necesidad de
llevar a cabo su representación gráfica.

El coeficiente de asimetría puede calcularse mediante el coeficiente de asimetría de


Pearson.

𝑥 − 𝑀𝑜
𝑠𝑘 =
𝑠
También existen otras fórmulas alternativas para el cálculo del coeficiente de asimetría.

3(𝑀𝑒𝑑𝑖𝑎 − 𝑀𝑒𝑑𝑖𝑎𝑛𝑎)
𝑠𝑘 =
𝑆
Asimismo, el coeficiente de asimetría nos describe la forma de un conjunto de datos, es
decir, la manera como se distribuyen, comparando la media y la mediana. Si ambas medidas
son iguales, por lo general, se considera que los datos son simétricos (o con sesgo cero, es
decir, el coeficiente de asimetría es cero). Por lo contrario, los datos o su distribución es
asimétrica o sesgada, es decir, si la media excede a la mediana, los datos se describen
como sesgados a la derecha, o con sesgo positivo (el coeficiente de asimetría es positivo).
Si la mediana excede a la media, los datos suelen llamarse sesgados a la izquierda, o con
sesgo negativo (el coeficiente de asimetría es negativo).

El sesgo positivo surge cuando la media aumenta debido a algunos valores grandes y poco
usuales: el sesgo negativo ocurre cuando la media se reduce debido a algunos valores muy
pequeños. Los datos son simétricos cuando en realidad no hay valores extremos en ninguna
dirección, de tal manera que los valores grandes y pequeños se equilibran.

Simetría Relación
Simétrica o insesgada Media = Mediana = Moda
Sesgo positivo o a la derecha Media > Mediana > Moda
Sesgo negativo o a la izquierda Media < Mediana < Moda

52
Apuntes de clase Estadística General

COEFICIENTE DE APUNTAMIENTO O CURTOSIS

Analiza el grado de concentración que presentan los valores alrededor de la zona central de
la distribución, es decir, estudia la distribución de frecuencias en la zona central. La mayor
o menor concentración de frecuencias alrededor de la media y en la zona central de la
distribución, dará lugar a una distribución más o menos apuntada.

Así es por lo que a la curtosis también se le llama apuntamiento.

Si el valor de la curtosis es positivo, se dice que los datos tienen una distribución leptocúrtica
(es más apuntada o puntiaguda que la distribución normal); en caso contrario, si la curtosis
es negativa, se dice que los datos tienen una distribución platicúrtica (es menos apuntada o
puntiaguda que la distribución normal). Si la curtosis es cero, entonces los datos se
distribuyen siguiendo una distribución normal, y se dice que en este caso la distribución
mesocúrtica.

Para medir la curtosis se puede emplear las siguientes fórmulas:

(X i  X )4 1 𝑄3 − 𝑄1
K i 1
3 k= [ ]
nS x4 2 𝑃90 −.𝑃10

Donde

𝑄3 = Cuartil tres 𝑃90 = Percentil noventa

𝑄1 = Cuartil uno 𝑃10 = Percentil diez

CARACTERISTICAS DEL COEFICIENTE DE CURTOSIS

1.- No tiene unidades de medida.

2.- Se aplica a distribuciones unimodales que sean simétricas o ligeramente asimétricas.

3.- No le afecta las operaciones de suma y multiplicación por una constante c aplicada a
n

(X i  X )4
cada observación. K  i 1
3
nS x4

𝒙𝒊 (𝒙𝒊 − 𝒙)𝟐 (𝒙𝒊 − 𝒙)𝟒


2 4 16
4 0 0
8 16 256
2 4 16
∑ 16 24 288
Media 𝑥 = 4
Varianza 𝑠𝑥2 = 8

53
Apuntes de clase Estadística General

Reemplazamos y calculamos el coeficiente de curtosis

(X i  X )4 288
K i 1
3 = - 3 = -1.875
nS 4
x
(4)(64)

Al tener el coeficiente de curtosis un valor negativo, la distribución será platicurtica.

CARACTERISTICAS DEL COEFICIENTE DE ASIMETRIA DE PEARSON

1.- No tiene unidad de medida.

2.- Se aplica a distribuciones unimodales.

3.- Su valor debe encontrarse en el intervalo de -3 a 3

Ejemplo

Una muestra de digitadoras de texto reveló que su rapidez media de tecleo es de 87 palabras
por minuto, con una media de 73. La desviación estándar es de 16.9 palabras por minuto.
¿Cuál es el coeficiente de asimetría? Interprete su respuesta.

Solución

3(𝑀𝑒𝑑𝑖𝑎−𝑀𝑒𝑑𝑖𝑎𝑛𝑎) 3(87−73)
Reemplazando 𝑠𝑘 = = = 2,49
𝑠 16.9

Existe considerable asimetría con sesgo positivo en la distribución de la rapidez de tecleo.


Algunas operadoras muy rápidas hacen que la media sea mayor que la mediana o la moda.

PROBABILIDAD

¿QUE ES UNA PROBABILIDAD?

Probabilidad es una medida de la posibilidad de que ocurra un evento (o suceso) en el futuro,


solo puede asumir valores entre 0 y 1, inclusive.

EXPERIMENTO:

Observación de alguna actividad o la acción de efectuar una medición. Un Experimento


tiene dos o más resultados posibles y es incierto cuál habrá de ocurrir.
EVENTO:

54
Apuntes de clase Estadística General

Conjunto de uno o más resultados de un experimento.

RESULTADO:

Un acontecimiento particular de un experimento.

Ejemplos

1.- Experimento: Observar si su auto arranca o no al activar el interruptor principal (llave de


encendido).

Resultado posible: Si, arranca


No, arranca
Evento posible: Arranca

2.- Experimento: Tirar un dado

Resultado posible: Caer un 1


Caer un 2
Caer un 3
Caer un 4
Caer un 5
Caer un 6

Evento posible: Caer un número par


Caer un número mayor de 4
Caer un número 3 o menor

Una probabilidad se expresa como un número decimal o como una fracción.

Cuanto más se acerca una probabilidad a 0, es más improbable que suceda el evento al que
se asocia. Cuanto más se acerca la probabilidad a 1, tanto más seguros estamos que
sucederá.

ENFOQUES DE LA PROBABILIDAD:

Se analizarán dos enfoques de la teoría probabilística que son dos puntos de vista: objetivo
y subjetivo.

La probabilidad Objetiva puede subdividirse en:

1) probabilidad clásica o a priori.

2) el concepto de frecuencia relativa o probabilidad a posteriori.

PROBABILIDAD CLASICA:

Se basa en la consideración de que los resultados de un experimento son igualmente


posibles.

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠


Probabilidad de un evento ═
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

55
Apuntes de clase Estadística General

Ejemplo:

Se lanza un dado ¿Cuál será la probabilidad de que el resultado sea un “dos”?

𝑛 (𝐴) 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠


P (A) =
𝑛 (Ω) 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

1
Probabilidad de un dos:
6

MUTUAMENTE EXCLUYENTES

La ocurrencia de un evento significa que ningún otro puede ocurrir al mismo tiempo.

COLECTIVAMENTE EXHAUSTIVO,

Por lo menos uno de los sucesos ocurre cuando se realiza un experimento.

PROBABILIDAD EMPIRICA O FRECUENCIA RELATIVA.


𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑒𝑙 𝑒𝑣𝑒𝑛𝑡𝑜 𝑜𝑐𝑢𝑟𝑟𝑖ó 𝑒𝑛 𝑒𝑙 𝑝𝑎𝑠𝑎𝑑𝑜
Probabilidad de que suceda un evento ═ 𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠

PROBABILIDAD SUBJETIVA

Posibilidad (probabilidad) de que suceda un evento, asignado por una persona con base en
cualquier información de que disponga.

Ejemplo.-

1.- Estimar la probabilidad de que el equipo del JUAN AURICH, salga campeón en el
campeonato de futbol profesional.

2.- Estimar la posibilidad de que usted tenga una calificación de 20 en este curso.

REGLAS BASICAS DE PROBABILIDAD

REGLA DE LA ADICION

REGLA ESPECIAL DE ADICIÓN

Si dos eventos A y B son mutuamente excluyentes, la regla indica que la probabilidad de


que ocurra uno u otro de los eventos es igual a la suma de probabilidades.

P (A o B) = P(A ∪ B) = P (A) + P (B)

Ejemplo

En el experimento de tirar un dado, el evento "un número par" y el evento "un número impar"
son mutuamente excluyentes. Si se observó un número par, no podría caer un número impar
al mismo tiempo.

Para tres eventos mutuamente excluyentes denotados por A, B, C, la regla será:

P(A o B o C) = P (𝑨 ∪ 𝑩 ∪ 𝑪) = P(A) + P (B) + P(C)

56
Apuntes de clase Estadística General

REGLA GENERAL DE ADICIÓN

Es la probabilidad que mide la posibilidad de que dos o más eventos ocurran en forma
simultánea:

P (A o B) = P(A) +P (B) - P(A y B) o equivalentemente

P (A U B) = P(A) + P (B) - P(A ∩ B)

A este tipo de probabilidad también se le conoce como probabilidad conjunta

REGLA DEL COMPLEMENTO

Sea A un evento cualquiera, entonces se tiene que:

P (A) + P (A') = 1, de donde P (A') = 1- P (A)

Ejemplo

Se ha de entrevistar a un grupo selecto de empleados de la empresa ORION S.A., con


respecto a un plan de pensiones. Se efectuarán entrevistas detalladas a cada uno de los
empleados seleccionados en la muestra. Estos se clasificarán como sigue:

𝒏𝒐 de
Clasificación empleados
Supervisores 120
Mantenimiento 50
Producción 1460
Gerencia 302
Secretaria 68
Total 2000

¿Cuál es la probabilidad de que la primera persona seleccionada:


a) Sea empleada de mantenimiento o secretaria?
b) No sea de gerencia?

Solución
Sean los siguientes eventos:
B = El empleado seleccionado al azar es de mantenimiento.

E = El empleado seleccionado al azar es secretaria.

D = El empleado seleccionado al azar es de gerencia.

a) P (B o E) = P (B)+ P (E), por ser mutuamente excluyentes.


50 68
P (B o E) =P (B ∪ E) = + = 0,059
200 2000

302
b) P (D') = 1- P (D) = 1- = 0.849
2000

REGLA DE LA MULTIPLICACION

57
Apuntes de clase Estadística General

Dos eventos A y B son independientes, cuando la ocurrencia de un evento no tiene efecto


en la probabilidad de la ocurrencia de cualquier otro
Dos eventos son independientes si la ocurrencia de uno no altera la probabilidad de
ocurrencia del otro.
Sean A y B dos eventos independientes, entonces:

P (A y B) = P(A). P (B)

P (A ∩ B) = P(A). P (B)

En el caso de tres eventos independientes, A, B y C, la regla de la multiplicación utilizada


para determinar la probabilidad de que los tres eventos ocurran es:

P(A y B y C) = P(A).P (B).P(C)

P (A ∩ B ∩ C) = P(A).P (B).P(C)

También se cumple que si A y B son independientes, entonces:

P (A\B) = P (A) ó

P (B \ A) = P (B)

Ejemplo

Una moneda es lanzada dos veces al aire, ¿cuál es la probabilidad de que las dos veces se
obtenga cara?

Solución:

Sea A = Obtener cara en el primer lanzamiento.

B = Obtener cara en el segundo lanzamiento.

1 1
P (A) = P (B) =
2 2

El que resulte cara en el segundo lanzamiento no depende si salió cara o no en el primero,


es por eso que A y B son eventos independientes. Por la tanto:

1 1 1
P (A ∩ B) = P(A) · P (B) = × =
2 2 4

Ejemplo

Una máquina automática introduce legumbres en una bolsa de plástico. La experiencia


indica que algunos paquetes tuvieron menos peso, y algunos otros pesos de más, pero la
mayoría fueron satisfactorias. Veamos el siguiente cuadro:

Peso del
Probabilidad
paquete
Insuficiente 0.025

58
Apuntes de clase Estadística General

Satisfactorio 0.900
Excedido 0.075

a) ¿Cuál es la probabilidad de seleccionar tres paquetes de la línea de procesamiento de


alimentos y encontrar que a los tres les falta peso?
b) ¿Qué significa esta probabilidad?
Solución

a) Sea F = Paquete seleccionado que le falta peso.

P (F) = 0.025

P (F ∩ F ∩ F) = P (F) ·P (F) ·P (F) = (0.025) (0.025) (0.025)

P (F ∩ F ∩ F) = 0.000015625

b) Descubrir que a los tres paquetes les falte peso es poco probable.

Observación

Si dos eventos no son independientes, se dice que son dependientes. Con un ejemplo
ilustraremos esta idea:
Supongamos que hay 10 rollos de película fotográfica en una caja y se sabe que tres están
defectuosos. Se selecciona uno:

3
P (D) = Probabilidad de que sea defectuoso.
10

7
P (D') = Probabilidad de que no sea defectuoso.
10

Después se elige un segundo rollo de la caja, sin devolver el primero, la probabilidad de que
este sea defectuoso dependerá si el primero lo fue, de ser así es:

2
P (𝐷2 ) = Probabilidad de que el segundo rollo extraído sea
9
defectuoso dado que el primero lo fue.
7
P (𝐷2′ ) = Probabilidad de que el segundo rollo extraído no sea
9
defectuoso dado que el primero fue bueno.
Este tipo de análisis nos ayuda a definir la probabilidad condicional.

PROBABILIDAD CONDICIONAL

Es la probabilidad de que ocurra un evento en particular dado que otro evento ha ocurrido.

P (A ∩ B) = P (A). P (B\A)

𝑷 ( 𝑨 𝒚 𝑩)
P (B \ A) = ó
𝑷 (𝑨 )

59
Apuntes de clase Estadística General

𝑷 ( 𝑨 ∩ 𝑩)
P (B \ A) =
𝑷 (𝑨 )

P (B \ A) = Probabilidad de que ocurra B dado que ya ocurrió A.

Del ejemplo anterior: ¿cuál es la probabilidad de escoger un defectuoso seguido de otro


defectuoso?

P (A ∩ B) = P (A) P (B\A)
3 2
P (A ∩ B) = 10 × 9
= O.067
Donde:

A = Primer rollo defectuoso.


B = Segundo rollo defectuoso.

Ejemplo

De una baraja completa de 52 cartas, se extrae una "mano" de 5 cartas. ¿Cuál es la


probabilidad de obtener dos espadas, dos corazones y un diamante?

Solución:

P (𝐸1 ∩ 𝐸2 ∩ 𝐶1 ∩ 𝐶2 ∩ 𝐷) = 𝑃(𝐸1 ) 𝑝(𝐸2 / 𝐸1 ) 𝑃 (𝐶1 / 𝐸1 𝑦 𝐸2 ) P (𝐶2 / 𝐸1 𝑦 𝐸2 𝑦 𝐶1 )


P (𝐷 / 𝐸1 𝑦 𝐸2 𝑦 𝐶1 𝑦 𝐶2 )
13 12 13 12 13
P (𝐸1 ∩ 𝐸2 ∩ 𝐶1 ∩ 𝐶2 ∩ 𝐷) = × × × × = 0.001014
52 51 50 49 48

Pero esta es solo una parte, el total de posibilidades será una permutación de ellas, pero es
una permutación con repetición ya que las espadas se repiten dos veces y los corazones
también dos veces, entonces:
13 12 13 12 13 5!
P (𝐸1 ∩ 𝐸2 ∩ 𝐶1 ∩ 𝐶2 ∩ 𝐷) = ( 52 × × × × ) = 0.0304
51 50 49 48 2 ! 2 !

TABLAS DE CONTINGENCIA

Una tabla de contingencia es una distribución, una matriz, en cuyas filas y columnas los
individuos de una población se clasifican en función de dos variables. También se le conoce
con el nombre de tabla de doble entrada.

Por ejemplo, la siguiente es una tabla de contingencia en la que 300 personas se han
clasificado según el sexo y por su adicción al tabaco.

Fumadores No Total
Hombres 120 fumadores
60 180
Mujeres 50 70 120
Total 170 130 300

En los márgenes de la tabla se indican las sumas de filas y columnas.

60
Apuntes de clase Estadística General

Las tablas de contingencia nos ayudan a calcular los valores de probabilidad. Una tabla de
probabilidad puede crearse dividiendo cada valor de las casillas por el total, que en el
ejemplo anterior sería 300.

Los resultados se muestran en la siguiente tabla:

Fumadores No Total
Hombres 120/300 fumadores
60/300 180/300
Mujeres 50/300 70/300 120/300
Total 170/300 130/300 300/300

Por lo tanto, la tabla de probabilidades quedaría de la siguiente manera:

Fumadores No Total
Hombres 0.4 fumadores
0.2 0.6
Mujeres 0.1667 0.2333 0.4
Total 0.5667 0.4333 1

Los valores en los márgenes de la tabla se llaman probabilidades marginales. Por ejemplo,
elegida una persona al azar la probabilidad de que esta sea hombre es P (H) = 0.6 y la
probabilidad de seleccionar una mujer es P (M) = O.4

A las probabilidades en las celdas de la estructura principal de la tabla se les denomina


probabilidades conjuntas y muestran la probabilidad de la intersección de dos eventos. Por
ejemplo, la probabilidad de seleccionar una mujer y que esta sea fumadora es P (M ∩ F) =
0.167.

También se puede calcular probabilidades condicionales por ejemplo, si se ha elegido un


fumador ¿qué probabilidad hay de que sea mujer?

Nos piden que calculemos P (M \ F), esto es:

𝑃 (𝑀 ∩ 𝐹) 0.1667
P (M \ F) = = = 0.2942
𝑃 (𝐹) 0.5667

Por lo tanto, hay una probabilidad del 29.42% de que sea mujer dado que es fumador la
persona elegida.

DIAGRAMAS DE ÁRBOL O ARBORIGRAMA

Es una representación gráfica útil para organizar cálculos que abarcan varios datos. Cada
segmento en el árbol es una etapa del problema.

Para la elaboración de un arborigrama se empieza trazando un punto en la izquierda, que


representa el punto central de un tronco.

Ilustremos lo anterior mediante un ejemplo:

Ejemplo

61
Apuntes de clase Estadística General

Un club nocturno tiene los siguientes datos sobre la edad y el estado civil de 140 clientes.

Estado Civil
Edad Civil
Soltero Casado Total
Menor de 30 77 14 91
Mayor o igual a 30 28 21 49
Total 105 35 140

a) ¿Cuál es la probabilidad de encontrar un cliente menor de 30 y soltero?


b) Si un cliente tiene menos de 30 años, ¿cuál es la probabilidad de que sea soltero?

Solución:

Sean los siguientes eventos:

A = Cliente menor de 30 años.

B = Cliente mayor o igual a 30 años.

S = Cliente soltero.

C = Cliente casado.

Trabajamos un diagrama de árbol para ubicar los datos.

Probabilidad Probabilidad
condicionada conjunta
P(S/A)

77 91 77
S p(A ∩ S) = P(A)P(S/A)
= × = 0.55
91
140 91
91 A C P(A ∩ C) = P(A)P(C/A) 91 14 = 0.10
140 14 = ×
140 91
91
14
91
28 S P (B ∩ S) = P(B)P(S/B) 49 28 = 0.20
49
B
49 = ×
140 49
140
21 C P (B ∩ C) = P(B)P(C/B) 40 21 = 0.15
= ×
49 140 49
77
a.-P (A ∩ S) = 140 = 0.55 Probabilidad de que un cliente sea menor de 30 y soltero

77
b.- P (S \ A) = 91 = 0.85 Probabilidad de que un cliente sea soltero dado que es menor
de 30 años.

También se puede asociar a cada diagrama de árbol una tabla de contingencia Y viceversa.
Para el ejemplo se tiene:

62
Apuntes de clase Estadística General

Estado Civil
Edad CivilIVIL
Soltero Casado Totales
A P (A ∩ S) P (A ∩ C) P (A)
B P (B ∩ S) P (B ∩ C) P (B)
Totales P(S) P(C) 1

Los datos obtenidos en el diagrama de árbol los reemplazamos en la tabla, esto es:

Estado civil
Edad Civil
Soltero Casado Totales
A 0.55 0.1 0.65
B 0.2 0.15 0.35
Totales 0.75 0.25 1

TEOREMA DE BAYES

P (A \ B) y P (B \ A), pueden parecer similares, en concepto existe diferencia apreciable entre


las probabilidades que representan. Por ejemplo: si A es el evento de que las ventas en
época navideña sean altas en un área específica y B es el evento de que el clima sea bueno,
entonces P (A \ B) es la probabilidad de que las ventas sean altas dado que el clima es
bueno, mientras que P (B \ A) es la probabilidad de que el clima sea bueno dado que las
ventas son altas.

Existen muchas probabilidades en Estadística en que intervienen estas parejas de


probabilidades condicionadas, el teorema de Bayes que se verá a continuación, permite
expresar la relación matemática entre las probabilidades de la forma P (A \ B) y P (B \ A),
pero para ello se necesitan algunos conceptos previos.

PROBABILIDAD A PRIORI

Probabilidad inicial con base en el nivel actual de información.

PROBABILIDAD A POSTERIORI

Es una probabilidad con base en información adicional. El teorema de Bayes proporciona un


método para calcular este tipo de probabilidades.

TEOREMA DE BAYES

Si se conoce la probabilidad de B en cada uno de los componentes de un sistema excluyente


de eventos, entonces si ocurre B, se puede calcular la probabilidad (a posteriori) de
ocurrencia de cada A¡

𝑷 (𝑨𝟏 )𝑷(𝑩⁄𝑨 )
𝟏
P (A¡\B) =
𝑷(𝑨𝟏 ) 𝑷( ⁄𝑨 )+ 𝑷(𝑨𝟐 )𝑷( ⁄𝑨 )+ ………….+𝑷(𝑨𝒌 )𝑷(𝑩⁄𝑨 )
𝑩 𝑩
𝟏 𝟐 𝒌

63
Apuntes de clase Estadística General

Observación: Si los sucesos 𝐴1 , 𝐴2 , 𝐴3 , … … , 𝐴𝑘 se consideran casos posibles del suceso


B, entonces Bayes permite determinar la probabilidad de que uno de los 𝐴𝑖 ocurra siempre
que B haya ocurrido.

Ejemplo

La Dra. Blanquita ha estado enseñando Estadística Básica durante muchos años. Se sabe
que el 80% de los estudiantes terminarán los problemas asignados. Determinó, que de los
estudiantes que cumplen con su trabajo el 90% aprobará el curso. De aquellos estudiantes
que no lo hacen así, el 60% será aprobado. Eduardo López tomó Estadística durante el
último semestre con la profesora Blanquita y recibió una calificación aprobatoria. ¿Cuál es
la probabilidad de que sí haya hecho sus tareas?

Solución:

Sea:
A = Estudiante que cumple con su trabajo.

A' = Estudiante que no cumple con su trabajo.

B = Estudiante que aprueba.

B' = Estudiante que no aprueba.

P (A) = 0.8 => P (A') = 0.2

P (B\A) = 0.9; P (B\A') = 0.6

P (B'\A) = 0.1; P (B'\ A') = 0.4

P(B) = 0.9 P(A ∩ B) = P(A)P(𝐵⁄𝐴)

P(A ∩ B) = (0.8)(0.9)= 0.72

P(𝐵′ ) = 0.1

P(A) =0.8 P(A ∩ 𝐵′ ) = 𝑃(𝐴)𝑃(𝐵 ⁄𝐴)

P(A ∩ 𝐵′ ) = (0.8)(0.1) = 0.08

P(B) =0.6
P(𝐴′ ∩ B ) = 𝑃(𝐴′ )𝑃(𝐵⁄𝐴′ )

P(𝐴′ ) =0.2 P(𝐴′ ∩ B ) = (0.2)(0.6) = 0.12)

P(𝐵′ ) = 0.4

P(𝐴′ ∩ 𝐵′ ) = 𝑃(𝐴′ )𝑃(𝐵 ⁄𝐴′ )

P(𝐴′ ∩ 𝐵′ ) = 𝑃(0.2)𝑃(0.4) = 0.08

64
Apuntes de clase Estadística General

Por definición de probabilidad condicional tenemos:

𝑃 (𝐴 ∩ 𝐵)
P (𝐴⁄𝐵 ) =
𝑃(𝐵)

𝑃 (𝐴 )𝑃 (𝐵⁄𝐴)
P (𝐴⁄𝐵 ) =
𝑃(𝐵 )
Tener en cuenta que P (B) no es discernible de inmediato. Aquí es donde participa el teorema
de Bayes. Existen dos razones por las que Eduardo López haya aprobado el curso. Puede
haber hecho los trabajos asignados y aprobar el curso o puede no haber hecho los trabajos
asignados y también aprobar el curso, es decir:

P (B) = P (A y B) +P (A’ y B)

P (B) = P (A). P (B \ A) + P (A'). P (B \ A')

Cuando se hace la sustitución en el denominador de la fórmula 1 se tiene:

 A P(A)P(𝐵⁄𝐴)
P  =
 B  𝑃(𝐴) 𝑃(𝐵⁄𝐴)+ 𝑃(𝐴′ )𝑃(𝐵⁄𝐴′ )

 A 0.72
P =
B 0.72 +0.12

 A 0.72
P = = 0.86 = 86%
B 0.84
Por lo tanto, hay un 86% de probabilidad de que Eduardo López haya hecho sus tareas
dado que recibió una calificación aprobatoria.

Ejemplo

El departamento de crédito de la tienda departamental Saga Falabella en Piura, informó que


30% de sus ventas son en efectivo, 30% son pagadas con cheques en el momento de la
adquisición y 40% son a crédito. Se tiene que 20% de las compras en efectivo, 90% de las
pagadas con cheques y 60% de las adquisiciones al crédito, son por más de US$50. La Sra.
Milagritos acaba de comprar un vestido que cuesta US$ 120. ¿Cuál es la probabilidad de
que haya pagado por él en efectivo?

DISTRIBUCIONES PROBABILISTICAS DISCRETAS

¿QUE ES UNA DISTRUCION DE PROBABILIDADES?

Distribución probabilística, es la enumeración de todos los resultados de un experimento


junto con la probabilidad asociada a cada uno de ellos.

Ejemplo:

Supóngase que se está interesado en el número de caras que caen al lanzar tres veces una
moneda. Este es el experimento. Los posibles resultados son cero, uno, dos y tres caras.
¿Cuál es la distribución de probabilidades para el número de caras?

65
Apuntes de clase Estadística General

Solución.

Hay ocho posibles resultados, los cual son:

Resultado Tirada de la moneda Número de


Posible Primera Segunda Tercera Caras
1 S S S 0
2 S S C 1
3 S C S 1
4 S C C 2
5 C S S 1
6 C S C 2
7 C C S 2
8 C C C 3

A continuación se muestra los resultados junto con su respectiva probabilidad:

Número de Probabilidad del


caras X resultado P(X)
0 1⁄ = 0,125
8
1 3⁄ = 0,375
8
2 3⁄ = 0,375
8
3 1⁄ ═ 0,125
8
Total 8⁄ = 1,000
8

Existen dos características importantes:


1.- La probabilidad de un resultado específico debe estar siempre entre 0 y 1.
2.- La suma de las probabilidades de todos los resultados mutuamente excluyentes es 1

VARIABLE ALEATORIA

Cantidad que es resultado de un experimento aleatorio que, debido al azar, puede tomar
distintos valores

VARIABLE ALEATORIA DISCRETA.

Variable que sólo puede tener ciertos valores claramente separados y que es el resultado
de contar algún elemento de interés.

Ejemplos:
- El número de caras que se presentan en tres lanzamientos de una moneda
- El número de estudiantes que sacaron 15 en un examen
- El número de empleados ausentes en una fábrica determinada

VARIABLE ALEATORIA CONTINUA

Es aquella que puede tomar uno de una cantidad infinitamente grande de valores, dentro de
ciertas limitaciones

66
Apuntes de clase Estadística General

Ejemplos:
- La duración de cada canción en el último álbum de Corazón Serrano
- El peso de cada estudiante de esta clase
- La temperatura ambiente al momento que lee estos apuntes

MEDIA, VARIANCIA, DESVIACION ESTANDAR DE UNA DISTRIBUCION DE


PROBABILIDADES

MEDIA:

La media es un valor representativo que sirve para representar una distribución


probabilística. También es el valor promedio a largo plazo de la variable aleatoria. La media
se denomina también valor esperado o expectativa. E(X), de la variable.

n
𝝁 = 𝑬(𝑿) =   XP  X  
i 1

VARIANCIA Y DESVIACION ESTANDAR.-

Sirven para comparar la variación en dos distribuciones que tengan la misma media, pero
diferente dispersión.
n

  X  μ  P  X 
2
𝝈𝟐 =
i 1

Un vendedor, Juan Pérez vende automóviles nuevos para una empresa. Generalmente
negocia el mayor número de autos los sábados. Ha establecido la siguiente distribución de
probabilidad para el número de autos que espera vender en un sábado en particular.

Número de
automóviles Probabilidad
Vendidos P(x)
X
0 0,10
1 0,20
2 0,30
3 0,30
4 0,10
Total 1,00

1.- ¿Qué tipo de distribución es ésta?


2.- En un sábado común, ¿Cuántos autos espera vender?
3.- ¿Cuál es la variancia de la distribución?

DISTRIBUCIÓN PROBABILÍSTICA BINOMIAL

La Distribución probabilística Binomial, es una distribución de probabilidades discreta.

67
Apuntes de clase Estadística General

Una característica de esta distribución binomial es que se ocupa de experimentos donde


cada resultado puede tomar sólo uno de dos formas. Una forma común de denotar los dos
resultados es como “éxito” y “fracaso”.

Ejemplo:

Experimento: Seleccionar un juguete mecánico de la línea de producción

Resultado: El juguete funciona de manera correcta (éxito)


El juguete no funciona en forma correcta (fracaso).

Experimento: Preguntar a un niño de cinco años si le gusta un cereal de reciente


Producción.

Resultado: Le gusta (éxito)


No le gusta (fracaso)

Una segunda característica de una distribución binomial es que los datos recopilados son
resultado de conteos.

Una tercera característica de esta distribución es que la probabilidad de éxito permanece


igual de un ensayo a otro.

Una cuarta característica es que un ensayo es independiente de cualquier otro. Lo que


significa que el resultado de un ensayo no afecta al resultado de algún otro.

La distribución probabilística Binomial puede describirse utilizando la siguiente fórmula:

𝒏!
P(X) = 𝑝 𝑥 𝑞 𝒏−𝒙
𝒙!(𝒏 –𝒙)!

Donde:

n: es el número de ensayos.

X: es el número de éxitos observados.

p: es la probabilidad de éxito en cada ensayo.

q: es la probabilidad de fracaso que se obtiene de 1- p

MEDIA Y VARIANCIA DE UNA DISTRIBUCION DE PROBABILIDADES BINOMIAL

µ ═ np

𝝈𝟐 = 𝒏𝒑𝒒

Ejemplo:

Una institución universitaria establece nuevos métodos de aprendizaje y de evaluación, con


el resultado donde el 85% de sus alumnos aprueban todas las asignaturas. Supongamos

68
Apuntes de clase Estadística General

que se seleccionan 8 estudiantes de dicho plantel ¿Cuál es la probabilidad: (a) exactamente


3 aprueben todas las asignaturas, (b) exactamente 3 pierdan alguna asignatura; (c) por lo
menos dos pierdan alguna asignatura?

𝒏!
a.- P(X) = 𝑝 𝑥 𝑞 𝒏−𝒙
𝒙!(𝒏 –𝒙)!

𝟖!
P(X= 3) = 0,853 0,15𝟖−𝟑
𝟑!(𝟖 –𝟑)!

P(X= 3)= 0, 0026 = 0, 26%

𝒏!
b.- P(X) = 𝑝 𝑥 𝑞 𝒏−𝒙
𝒙!(𝒏 –𝒙)!
𝟖!
P(X= 3) = 0,153 0,85𝟖−𝟑
𝟑!(𝟖 –𝟑)!

P(X= 3) = 0,0839 =8, 39%

c.- = 1− [𝑷(𝑿 =𝟎) + 𝑷(𝑿=𝟏) ]

8! 8!
𝑷(𝑿≥𝟐) = 1− [𝑃(𝑋 =0) = 0,150 0,858−0 + 𝑃(𝑋=1) = 0,151 0,858−1 ]
0!(8 –0)! 1!(8 –1)!

𝑃(𝑋≥2) = 1 − [0,2725 + 0,3847]

𝐏(𝐗≥𝟐) = 0, 3428 = 34, 28%


Ejemplo

Supongamos que se toman 10 semillas de Oryza sativa L. Y se registra el evento “germinó”


o “no germinó” después de 5 días desde su implantación. En este experimento las semillas
están suficientemente aisladas como para asegurar respuestas independientes. Si la
probabilidad de germinación es (para todas las semillas) igual a 0,25 calculemos:

a.- ¿Cuál es la variable aleatoria en este problema?


b.-¿ La variable es discreta o continua? ¿Por qué?
c.- ¿Cuál es la probabilidad que germinen al menos 3 de las 10 semillas?
d.- Calcule la media y la variancia y la desviación estándar de la distribución
DISTRIBUCION PROBABILISTICA DE POISSON

La distribución de Poisson da un modelo para variables de tipo de conteo, donde los conteos
se refieren al registro del número de un evento de interés en una unidad de tiempo o espacio
dados (horas, minutos, 𝑚2 , 𝑚3 , etc).
Lleva ese nombre en honor a SIMON POISSON, quien la estudió y dio a conocer en 1837.
Con frecuencia se denomina ley de eventos improbables, lo cual significa que la
probabilidad p que suceda un evento específico es bastante pequeña. Esta es una
distribución de probabilidades discreta.

69
Apuntes de clase Estadística General

Es una distribución de probabilidades usada cuando n es muy grande, por lo general mayor
de cincuenta, y p, la probabilidad de éxito de un suceso, se acerca a cero, mientras que q
la probabilidad del fracaso se aproxima a 1, de tal manera que el producto de np, simbolizado
por lambda 𝝀, sea menor o igual a 5

La distribución de Poisson se utiliza para describir el número de veces que se presenta un


evento durante un intervalo específico ejemplo:

- La distribución de llamadas telefónicas que llegan a un conmutados por hora, minuto, etc,
etc
- La demanda (necesidades) de los pacientes que requieren servicio en una institución de
salud
- Las llegadas de camiones y automóviles a una caseta de peaje por hora, día, etc
- Número de accidentes registrados en una intersección de calles por día, semana, mes, etc
Estos ejemplos tienen en común un elemento: pueden ser descritos mediante una variable
aleatoria discreta que toma valores enteros (0, 1, 2, 3, etc.).

Otros ejemplos:
- Número de huevos de un insecto en una ovoposición
- Número de bacterias en una muestra de agua
- Número de semillas defectuosas, observadas en una cinta transportadora por minuto.
- Número de nematodos por unidad de volumen de suelo
- El número de palabras mal escritas por página en un periódico
- El número de llamadas telefónicas por hora que recibe la secretaria de la Facultad
- El número de vehículos vendidos por día por la marca Toyota en la ciudad de Lambayeque
- El número de goles en un encuentro de fútbol escolar
- Número de pulgones por planta

Se calcula de la siguiente manera.

𝝁𝑿 𝒆−𝝁 𝝁𝑿
P(X) = O bien P(X) =
𝑿! 𝑿!𝒆𝝁

𝝀𝑿 𝒆−𝝀
P(X) =
𝑿!
Donde:

µ =𝜆 = es la media aritmética del número de ocurrencias (éxitos) en un intervalo de


tiempo dado

e = es la constante 2,71828 (base de los logaritmos neperianos)

X= es el número de ocurrencias (éxitos)

P (X) = es la probabilidad que se va a calcular para un valor dado de X

Las características de una distribución Poisson son:

70
Apuntes de clase Estadística General

- El experimento aleatorio consiste en contar el número de veces que ocurre el evento

en una unidad determinada de espacio o tiempo.

- Las ocurrencias de los eventos son mutuamente independientes

- La probabilidad de ocurrencia es igual para todos los eventos

- En una unidad de espacio o de tiempo muy reducida, la probabilidad de ocurrencia

de más de un evento es tan pequeña que es prácticamente despreciable.

MEDIA Y VARIANCIA DE UNA DISTRIBUCION DE POISSON

𝝁 = 𝒏𝒑

𝝈𝟐 = np

Ejemplo
Si el 1% de las bombillas fabricadas por una compañía son defectuosas, hallar la
probabilidad de que, en una muestra de 100 bombillas, 3 sean defectuosas

𝝀𝑿 𝒆−𝝀
P(X) =
𝑿!
𝝀 = 𝒏𝒑

𝜆 = 100 (0,01) = 1

13 2,71828−1
P(X) = = 0, 06121 = 6,13%
3!
Ejemplo:

1.- Se sabe que el número medio de errores por factura se estimó en 0,3. ¿Cuál es la
probabilidad de no encontrar errores en una factura seleccionada al azar? ¿Cuál es la
probabilidad de hallar exactamente un error?

2.- Si el número promedio de picaduras de gorgojos por semilla es 0,2 (de cada 100 semillas
20 se encuentran picadas) ¿Cuántas de 100 semillas no tendría picaduras?, ¿Cuántas 1
picadura? Y ¿Cuántas 2 ó más?

DISTRIBUCION DE POISSON COMO APROXIMACION DE LA DISTRIBUCION


BINOMIAL

En casos en los que se aplica la distribución binomial y n es relativamente grande y p


relativamente pequeña, se acostumbra argumentar que los cálculos de la probabilidad
binomial eran un tanto complicados y, por ello, se sugería utilizar la distribución de Poisson
para aproximar los resultados porque, tal como se verá, la fórmula es más sencilla de
resolver.

Ejemplo
71
Apuntes de clase Estadística General

Los registros de una empresa muestran que la probabilidad de que falle cierto tipo de foco
en las primeras 100 horas de uso es p = 0,0005. Determine la probabilidad de que, de un
lote de 1 000 focos, cuando mucho 2 fallen en las primeras 100 horas de uso a) usando la
distribución Poisson b) usando la Binomial

Solución:

a.- P (cuando mucho 2) = P(X= 0) +P(X =1)+P(X=2)

µ = np = 1 000(0,0005) =0,5

2,71828−0,5 0,5 0 0,6065(1)


p (0) = = =0,6065
0! 1

2,71828−0,5 0,5 1 0,6065(0,5)


p (1) = = =0,30325
1! 1

2,71828−0,5 0,5 2 0,6065(0,25)


p (2) = = =0,07581
2! 2

Luego la probabilidad de que fallen cuando mucho 2 focos, según Poisson

P (x≤ 2) = P(X= 0) +P(X =1)+P(X=2) = 0,6065 + 0,30325 + 0,07581 = 0,98556

b.- Según distribución Binomial

𝑛!
P(X) = 𝑝 𝑥 𝑞 𝑛−𝑥
𝑛!(𝑛 −𝑥)!

1 000!
P(X =0) = (0,0005)0 (0,9995)1000 = 0,6065
0!(1 000 −0)!

1 000!
P(X =1) = (0,0005)1 (0,9995)999 = 0,3034
1!(1 000 −1)!

1 000!
P(X =2) = (0,0005)2 (0,9995)998 = 0,07581
2!(1000 −2)!

Luego la probabilidad de que fallen cuando mucho 2 focos, según distribución Binomial

P (x≤ 2) = P(X= 0) +P(X =1)+P(X=2) = 0,6065 + 0,30325 + 0,07581 = 0,98556

Como se verá los resultados son iguales.

DISTRIBUCION PROBABILISTICA NORMAL

Es una distribución de probabilidad continua.


La distribución probabilística normal y su curva normal tienen la siguiente característica:
1.- La curva normal tiene la forma de una campana y presenta un solo valor máximo en el
centro. La media, mediana y moda son iguales.

72
Apuntes de clase Estadística General

Luego la mitad del área bajo la curva se encuentra a un lado (o por encima del valor
central) y la otra mitad al otro lado (o por debajo).

2.- La distribución probabilística normal es simétrica con respecto a su media, si se corta la


curva normal verticalmente por este valor central, las dos mitades serán como imágenes
reflejadas en un espejo.

3.- La curva normal decrece uniformemente en ambas direcciones a partir del valor central.
Es asintótica, lo cual significa que la curva se acerca cada vez más al eje X, pero nunca
llega a tocarlo. Esto es, los puntos extremos de la curva se extienden indefinidamente en
ambas direcciones.

La distribución normal estándar tiene media igual a 0 y desviación estándar igual a 1.

0,5 0,5
50% 50%
%

Valor z (o desvió normal z) es la diferencia (desviación) entre un valor seleccionado,


denotado por X y la media poblacional µ, dividida entre la desviación estándar de la población
𝝈
Expresado como fórmula:
𝑿−𝝁
Z=
𝝈
Donde:

Z = Número de desviaciones estándar que hay desde X a la media de la distribución

X = es el valor de cualquier observación específica

𝜇 = es la media de la distribución

𝜎 = es la desviación estándar de la distribución

AREAS BAJO LA CURVA NORMAL|

1.- Aproximadamente el 68% del área bajo la curva normal está dentro más una y menos
una desviación estándar respecto de la media. Esto se expresa así µ ± 1σ

2.-Aproximadamente el 95,5 % del área bajo la curva normal está dentro más dos y menos
dos desviaciones estándar respecto de la media. Esto se expresa así µ ± 2σ

3.- Aproximadamente el 99,7 % del área bajo la curva normal está dentro más tres y menos
tres desviaciones estándar respecto de la media. Esto se expresa así µ ± 3σ

73
Apuntes de clase Estadística General

Mostramos esto en el siguiente diagrama

DETERMINACION DE AREAS BAJO LA CURVA NORMAL

Se usa la tabla de Z, donde se ve que al transformar las mediciones a desvíos normales z


cambia la escala. Las conversiones se muestran en la gráfica siguiente. Por ejemplo µ + 1𝜎
se convierte a z de + 1,00

Estos conceptos pueden expresarse de manera algo distinta: el área bajo la curva normal
dentro de más y menos una desviación estándar respecto de la media, es 0,6826. El área
dentro de más y menos dos desviaciones estándar respecto de la media, es de 0,9544. El
área dentro de tres desviaciones estándar respecto de la media vale 0,9974

Ejemplo

Un profesor manifiesta que el promedio que los estudiantes obtienen en su asignatura es de


3,9, con una desviación estándar de 0,35. ¿Cuál es la probabilidad que uno de sus alumnos
obtenga:

a.- Una calificación superior a 4,4


b.- Inferior a 3,2
c.- Una calificación mayor o igual a 3

Solución:

𝑿−𝝁
a.- Z=
𝝈
4,4 − 3,9
Z=
0,35

Z= 1,43 A (0,4263)

P(X≥ 4,4) = 0,5 – 0,4263 = 0,0737= 7,37%

74
Apuntes de clase Estadística General

𝑿−𝝁
b.- Z=
𝝈
3,2 − 3,9
Z=
0,35

Z= −2 A (0,4773)

P(X ≤ 3,2) = 0,5 – 0,4773 = 0,0227= 2,27%

𝑿−𝝁
c.-- Z=
𝝈
3,0 − 3,9
Z=
0,35

Z= −2,57 A (0,4949)

P(X≥ 3) = 0,5 + 0,4949 = 0,9949

P(X≥ 3) = 99,49%

Ejemplo

Una máquina expendedora de gaseosa se ajusta para servir 7,00 onzas de líquido por vaso.
La desviación estándar es de 0,10 onzas ¿Cuál es la probabilidad de que la máquina sirva:

a.- Entre 7.10 y 7.25 onzas de gaseosa


b.- 7.25 onzas ó más
c.- Entre 6.8 y 7.25 onzas

DISTRIBUCION MUESTRAL DE LA MEDIA

Distribución de probabilidad que consta de todas las posibles medias de las muestran de un
determinado tamaño de muestra de la población y la probabilidad de ocurrencia asociada
con cada media muestral

Teorema:

Si se extraen varias muestras de tamaño n de un universo, con una distribución cualquiera,


entonces se cumple que:

75
Apuntes de clase Estadística General

𝜇𝑋 = 𝜇
n

(X i   )2
𝜎𝑥2 = i 1

𝜎𝑥 = √𝜎𝑥2

𝜎
Pero: 𝜎𝑋 = Para una población infinita
√𝑛

𝜎 𝑁 −𝑛
𝜎𝑋 = X√ Para una población finita
√𝑛 𝑁 −1

𝜇𝑋 = Media de la distribución muestral


𝜎𝑋 = Desviación estándar de la media muestral o error estándar
de la media

𝑁 −𝑛
√ = Factor de corrección finita
𝑁 −1

OBSERVACION
𝜎 𝑛
Se puede usar 𝜎𝑋 = en una población finita, pero siempre y cuando <0,05
√𝑛 𝑁
Ejemplo
El tiempo de servicio de los empleados (POBLACION) a nivel de ejecutivo de la empresa
“LA PONDEROSA” es:

Años de
Nombre
servicio
JUAN 20
DIANA 22
ROSA, 24
EDUARDO 26
HUGO 28
n

X i
2
20+22+24+26+28
𝜇 = i 1
= =24
N 5
n

(X i   )2 (20−24)(22−24)(24−24)(26−24)(28−24)
𝜎2 = i 1
= =8
N 5
𝜎 = √𝜎 2 = √8 = 2,8284

Ahora
a.-Formar muestras tamaño 2

76
Apuntes de clase Estadística General

b.-Organice las medias en una distribución de muestras

c.- Compare la media de la población y el valor medio de las medias muestrales

Solución:
Años de Media Años de Media
servicio (n muestral servicio muestral
= 2) 𝒙 (n = 2) 𝒙
20, 22 21 22, 24 23
20, 26 23 22, 28 25
20, 24 22 26, 24 25
20, 28 24 26, 28 27
22, 26 24 24, 28 26

∑𝑥 21+23+⋯….+26
𝑥= = = 24
𝑛 16

Luego: 𝝁 = 𝒙

(X
i 1
i  µ )2
𝝈𝒙 =
N
(21−24)2 + (23 −24)2 +⋯………..+(26 −24)2
𝝈𝒙 = √ = √3 = 1,7320
10

𝜎 𝑁 −𝑛
𝜎𝑋 = X√𝑁 −1 Para una población finita
√𝑛
2,8284 5 −2
𝜎𝑋 = X√
√2 5 −1
𝝈𝑿 = 𝟏, 𝟕𝟑𝟐𝟎

TEOREMA DEL LIMITE CENTRAL

Se extraen varias muestras de tamaño n de cualquier universo, con media µ y desviación


estándar 𝜎; entonces la distribución de las medias muestrales se acercará a una de tipo
𝝈
normal con media 𝝁𝑿 y desviación estándar , si las muestras son grandes (n≥ 30). La
√𝒏
variable estandarizada correspondiente será:

𝑿 – 𝝁𝑿
Z=
𝝈𝒙

Ejemplo:

77
Apuntes de clase Estadística General

Se sabe que la producción de pollos de una determinada granja tiene un peso promedio de
3,50 Kg. Y una desviación estándar de 0,18 Kg. ¿Cuál es la probabilidad de que una muestra
aleatoria de 100 pollos de esta población pesen entre 3,53 y 3,56 Kg?

𝑿 – 𝝁𝑿 𝑋 – 𝜇𝑋
Z= = 𝜎
𝝈𝒙 ⁄ 𝑛

3,56 −3,50
𝒁= 0,18 = 3,33

√100

Z3,33 A (0,4996)

𝑿 – 𝝁𝑿 3,53 −3,50
Z= 𝝈𝒙
= 0,18 =

√100
1,66

Z1,66 A (0,4515)

P (3,53 ≤ 𝑿 ≤ 𝟑, 𝟓𝟔) =0,4996 − 0.4515= 𝟎, 𝟎𝟒𝟖𝟏

Ejemplo

Un fabricante de cierto champú para el cabello,distribuye el tamaño profesional de su


producto en 100 salones de belleza de Chiclayo. Se ha determinado que el consumo
promedio de su producto es de 2,800 cojines mensuales, con una desviacion estandar de
280 cojines. Si se toma una muestra probabilistica de 36 salones,¿Cuál es la probabilidad
de que el consumo promedio en un mes sea inferior a 2,700?

𝑋 – 𝜇𝑋 𝑋 – 𝜇𝑋
Z= = 𝜎
𝜎𝑥
√𝑛

2,700 −2,800
Z= 280 = − 2,14
√36

𝒁𝟐,𝟏𝟒 A( 0,4838)

P (𝑿 < 2,700) = 0,5 – 0,4838 = 0,0162=1,62%

Ejemplo

La altura media de los alumnos de un plantel de secundaria es de 1,50 m. Y su desviación


estándar es de 0,25 m. Determinar la probabilidad de que en una muestra de 36 alumnos,
la media sea superior a 1,60 mts.

78
Apuntes de clase Estadística General

𝑿 – 𝝁𝑿 𝑋 – 𝜇𝑋
Z= = 𝜎
𝝈𝒙 ⁄ 𝑛

1,60 −1,50
𝒁= 0,25 = 2,40

√36

Z2,40 A (0,4918)

P= 0,5 – 0,4918 = 0,0082= 0,82%

En aquellos casos de poblaciones finitas, es decir cuando se da información sobre el


tamaño de la población y cuando el tamaño de muestra es mayor al 5% de la población,
se puede aplicar el factor de corrección, representado por:

𝑵−𝒏

𝑵−𝟏

Luego la desviación estándar de la muestra se convierte en

𝝈 𝑵 −𝒏
𝝈𝒙 = √
√𝒏 𝑵 − 𝟏

Ejemplo

Si en el ejemplo anterior se considera que dicho plantel de secundaria tiene un total de N=


400 alumnos. ¿Cuál es la probabilidad, en una muestra de 36 alumnos, de que la media sea
superior a 1,60 m?

𝑋 – 𝜇𝑋 𝑋 – 𝜇𝑋
Z= =
𝜎𝑥 𝜎 𝑁 −𝑛

√𝑛 𝑁 −1

1,60 −1,50
Z= = 2,51
0,25 400 −36

√36 400 −1

𝒁𝟐,𝟓𝟏 A( 0,4940)

P (𝑿 > 1,60) = 0,5 – 0,4940 = 0,006= 0,6

Ejemplo:

Un fabricante declara que la duración de las bujías que él fabrica sigue una distribución
normal con media de 36 000 Km y una desviación estándar de 4 000 Km Para una muestra

79
Apuntes de clase Estadística General

aleatoria de dieciséis bujías se obtuvo una duración media de 34 500 Km. ¿Cuál es la
probabilidad de obtener una media muestral tan pequeña como esta o menor?

DISTRIBUCION EN EL MUESTREO DE UNA PROPORCION

Es una distribución probabilística que consta de todos los valores posibles que pueda
tomar 𝑝 de un tamaño de muestra dado, junto a su probabilidad de ocurrencia.

MEDIA Y DESVIACION ESTANDAR DE 𝒑 PARA UNA POBLACION INFINITA

Supongamos que la proporción de la proporción de la población es p y se obtienen muestras


aleatorias de tamaño n entonces:

𝜇𝑝̂ =P= 𝜋

𝑃𝑄
𝜎𝑝̂ ═ √
𝑛

MEDIA Y DESVIACION ESTANDAR DE 𝒑 PARA UNA POBLACION FINITA

𝜇𝑝̂ =P= 𝜋
𝑃𝑄 𝑁−𝑛
𝜎𝑝 = 𝜎𝑝̂ = √ √
𝑛 𝑁 −1

𝑁−𝑛
√ Recibe el nombre factor de corrección para una población finita
𝑁 −1

TEOREMA DEL LIMITE CENTRAL, EN LA PROPORCION

𝑝 −𝜋 𝑝 −𝜋
Z= =
𝜎𝑝 𝜋(1−𝜋)

𝑛

Ejemplo

Se tiene que el 4% de las piezas producidas por cierta maquina es defectuosa, ¿Cuál es la
probabilidad de que en un grupo de 200 piezas, el 3% o más sean defectuosas.?

𝑝 −𝜋 𝑝 −𝜋
Z= =
𝜎𝑝
√𝜋(1−𝜋)
𝑛

0,03 −0,04
Z=
0,04 𝑥 0,96

200

𝑍 = −0,71

80
Apuntes de clase Estadística General

Z (0,71) = A (0,2612)

̂ > 𝟎, 𝟎𝟑) = 0,5 + 0,2612 = 0,7612= 76,12%


P (𝒑

Ejemplo

Se desea estudiar una muestra de 49 personas para saber la proporción de las personas
mayores de 40 años, sabiendo que la proporción en la población es 0,4. ¿Cuál es la
probabilidad de que la proporción en la muestra sea menor de 0,5?

𝑝 −𝜋 𝑝 −𝜋
Z= =
𝜎𝑝
√𝜋(1−𝜋)
𝑛

0,5 −0,4
Z= = 1,43
0,4 𝑥 0,6

49

Z (1,43) = A (0,4236)

̂ < 𝟎, 𝟓) = 0,5 + 0,4236 = 0,9236


P (𝒑

Ejemplo

Cuarenta y seis por ciento de los sindicatos del país están en contra de comercializar con la
China Continental; ¿Cuál es la probabilidad de que una encuesta a 100 sindicatos muestre
que más del 52% tenga la misma posición?

𝑝 −𝜋 𝑝 −𝜋
Z= 𝜎
𝑝
=
√𝜋(1−𝜋)
𝑛

0,52 −0,46
Z= = 1,21
0,44 𝑥 0,54

100

Z (1,21) = A (0,3869)

̂ > 𝟎, 𝟓𝟐) = 0,5 − 0,3869 = 0,1131= 11,31%


P (𝒑

Ejemplo

Se ha estimado que el 43% de los Ingenieros Agrónomos consideran que es muy importante
que se imparta el curso de Ética en la Facultad de Agronomía para inculcar valores morales
a los estudiantes. Halle la probabilidad de que más de la mitad de los 80 Ingenieros
Agrónomos de una muestra opinen de este modo.

81
Apuntes de clase Estadística General

DISTRIBUCION DE DIFERENCIAS ENTRE DOS MEDIAS MUESTRALES

Se tiene dos poblaciones normales e independientes identificadas la primera por X y la


segunda por Y de tamaños 𝑵𝟏 𝑦 𝑵𝟐 cuyas medias se simbolizan por 𝝁𝑿 𝑦 𝝁𝒀 y sus
desviaciones estándar por 𝝈𝑿 𝑦 𝝈𝒀 Se obtiene un número par de muestras posibles,
entonces

(𝑋 1 − 𝑋2 ) − (𝜇1 −𝜇2 )
Z=
𝜎 2𝜎 2
√ 1+ 2
𝑛1 𝑛2

(𝑋 −𝑌) − (𝜇𝑋 −𝜇𝑌 ) (𝑋 −𝑌) − (𝜇𝑋 −𝜇𝑌 )


Z= =
𝜎𝑋 −𝑌 2 2
𝜎 𝜎
√ 𝑋+ 𝑌
𝑛𝑋 𝑛𝑌

Se puede aplicar esta distribución cuando no se conocen las varianzas poblacionales las
cuales pueden ser sustituidas por variancias muestrales siempre que sean mayores de 30.
La fórmula será:

(𝑋 −𝑌) − (𝜇𝑋 −𝜇𝑌 )


Z=
𝑆2 𝑆 2
√ 𝑋+ 𝑌
𝑛𝑋 𝑛𝑌

Ejemplo

1.- Se obtiene una muestra aleatoria de 100 elementos de una población normal que tiene
media 50 y desviación estándar 8. Luego se selecciona otra muestra aleatoria de 400
elementos de una población normal, que tiene media 40 y desviación estándar 12.
Encontrar la probabilidad de que

a.- La media de la primera muestra exceda a la segunda en 8 o más


b.- Ambas medias difieran, en valor absoluto, en 12 o más

SOLUCION
𝜇𝑋 = 50 𝜇𝑌 = 40 𝜎𝑋 = 8 𝜎𝑌 = 12 𝑛1 = 100 𝑛2 = 400

82
Apuntes de clase Estadística General

(𝑿 −𝒀) − (𝝁𝑿 −𝝁𝒀 )


a.- Z=
𝝈𝑿 −𝒀

(𝑿 −𝒀) − (𝝁𝑿 −𝝁𝒀 )


Z=
𝝈 𝟐𝝈 𝟐
√ 𝑿+ 𝒀
𝒏𝑿 𝒏𝒀

8 − (50 −40)
Z= = −2
64 144
√ +
100 400

𝑍=2 A(0,4772)

P{(𝑿 − 𝒀) ≥ 𝟐𝟖} = 0,5 + 0,4772 = 0,9772 = 97,72%

12 − 10
b.- Z= = 2
64 144
√ +
100 400

𝑍=2 A(0,4772)

P{(𝑋 − 𝑌) ≥ 12} = 0,5 − 0,4772 = 0,022

−12 − 10
Z= = −22
64 144
√ +
100 400

𝑍2 = −22 A(0,5)

P{(𝑋 − 𝑌) ≥ −12} = 0,5 − 0,5 = 0,0

Luego

P{(𝑿 − 𝒀) ≥ |𝟏𝟐|} = 0,0228 + 0,0 = 0,0228= 2,28%

Ejemplo

En un restaurante, el consumo medio por desayuno es de $ 4 980, con una desviacion


estandar de $950. En un segundo restaurante las correspondientes cifras son $4 238 y $
820. Si se eligen al azar 80 boletas de pago del primer retaurante y una muestra aleatoria
de 60 del segundo,¿Cuál es la probabilidadde que la diferencia entre los consumos de
ambas muestras sea mayor que $1 000 en valor absoluto?

𝜇𝑋 = 4 980 𝜇𝑌 = 4 238 𝜎𝑋 = 950 𝜎𝑌 = 820 𝑛1 = 80 𝑛2 = 60

(𝑿 −𝒀) − (𝝁𝑿 −𝝁𝒀 )


Z=
𝝈𝑿 −𝒀

83
Apuntes de clase Estadística General

(X − Y) − (μX − μY )
Z=
σ2X σ2Y
√ +
nX nY

1 000 − (4980 −4238)


Z= = 1,75
902500 627400
√ + 60
80

𝑍1,75 = A(0,4599)

−1 000 − (4980 −4238)


Z= = −11,82
902500 627400
√ +
80 60

𝑍11,82 = A(0,4999)

A= 0,4999+0,4599=0,9598

P = 1−0,9598= 0,0402=4,01%

Ejemplo

Dos marcas A y B de tabletas antiácidas efervecentes registran el mismo promedio de


disolucion en agua, con desviacion estandar de 12 segundos para la marca A y 24 segundos
para B. Suponiendo que el tiempo de disolución esté normalmente distribuido. ¿ Cuál es la
probabilidad de qué, con una muestra de 36 tabletas de cada marca, las tabletas B registren
un promedio de tiempo de disolución, cuando menos 5 segundos más rápido que A?

(𝑿 −𝒀) − (𝝁𝑿 −𝝁𝒀 )


Z=
𝝈𝑿 −𝒀

(𝑿 − 𝒀) − (𝝁𝑿 − 𝝁𝒀 )
𝒁=
𝝈𝟐 𝝈𝟐
√ 𝒙 + 𝒚
𝒏𝒙 𝒏𝒚

5 − (0)
Z= = 1,12
144 576
√ + 36
36

𝑍1,12 = A(0,3686)

P = 0,5−0,9598= 0,1314=13,14%

DISTRIBUCION DE DIFERENCIAS ENTRE DOS PROPORCIONES MUESTRALES 𝑷𝟏 −


𝑷𝟐

84
Apuntes de clase Estadística General

En el caso de dos poblaciones independientes, de tamaño 𝑁1 𝑦 𝑁2 , distribuidas


binomialmente, con parametros, medias proporcionales 1 y  2 . El error estandar de las
diferencias entre las dos medias proporcionales estará dada por 𝜎𝑃1 − 𝑃2 , tendremos:

(𝑝1 − 𝑝2 ) − (  1   2 )
Z=
𝑃 𝑄 𝑃2 𝑄2
√ 1𝑛 1 + 𝑛
1 2

Ejemplo

Dos fabricas A y B , producen articulos similares. La produccion de A contiene 7% de


defectosos, y la de B contiene, 5%. Si se extrae una muestra aleatoria de 2000 de cada una
de las producciones de las fabricas, ¿Cuál es la probabilidad de que las dos muestras
revelen una diferencia en el número de los defectuosos del 1% ó más. En valor absoluto.

(𝑝1 – 𝑝2 ) – (  1   2 )
Z=
𝑃1 𝑄1 𝑃2 𝑄2
√ 𝑛 + 𝑛
1 2

0,01 −0,02
𝑍= = − 1,33
(0,07 ×0,93) (0,05 ×0,95)
√ +
2000 2000

Z= −1,33 A (0,4082)

−0,01 −0,02
Z= =−4
(0,07×0,93) (0,05 ×0,95)
√ +
2000 2000

Z= −4 A (0,5)

P( 𝑷𝟏 − 𝑷𝟐 ≥ |𝟎, 𝟎𝟏|) = 0,5 + 0,4082 = 90,82%

Ejemplo

Consideremos dos máquinas que producen un determinado artículo; la primera produce por
término medio un 14% de artículos defectuosos , en tanto que otra, produce el 20% de
artículos defectuosos; si se obtienen muestras de 200 unidades en la primera y 100 unidades
en la segunda,¿Cuál es la probabilidad de que difiera A de B en 8% o más?

(𝑝1 – 𝑝2 ) – (  1   2 )
Z=
𝑃1 𝑄1 𝑃2 𝑄2
√ 𝑛 + 𝑛
1 2

85
Apuntes de clase Estadística General

0,08 −(−0,06)
𝑍= = 2,98
(0,14)(0,86) (0,2)(0,8)
√ + 100
200

Z= 2,98 A (0,4986)

P( 𝑷𝟏 − 𝑷𝟐 ≥ 𝟎, 𝟎𝟖) = 0,5 − 0,4986 = 0,0014=0,14%

DISTRIBUCION DE t

En problemas referentes a pruebas de hipótesis, cuando se conoce la desviación estándar


o desviación típica poblacional no importa que el tamaño de la muestra sea grande o
pequeña. Se dice que una muestra es grande, si el número de unidades es mayor a treinta
y es pequeña si es menor o igual a treinta.

A esta distribución se le conoce como distribución “t” se Student, en honor al estadístico


irlandés W.S. Gosset, quien escribía bajo el seudónimo de Student. Fue enunciada en 19908
y ligeramente modificada por R. A. Fisher (1925).

Esta distribución se expresa en forma acampanada y simétrica, pero más achatada y con
más área en los extremos, es decir las áreas que corresponden a las regiones críticas o de
rechazo. Se puede considerar que no hay una distribución de “t”, sino más bien una familia
de distribuciones “t” dado que las deviaciones estándar se modifican a medida que se va a
aumentando el tamaño de la muestra, acercándose a la normal.

Grados de libertad, esta expresión fue introducida por Fisher, dice que los grados de
libertad de un conjunto de observaciones, están dados por el número de valores que pueden
ser asignados arbitrariamente, antes de que el resto de las variables queden completamente
determinadas. Ejemplo: Si tengo cuatro valores: 8 +10 + 6 + 20 = 44, se observa que puedo
asignar tres (3) valores arbitrariamente: 16 + 4 + 10 +14= 44, pero el cuatro debe ser 14 y
no lo puedo asignar libremente pues la suma debe ser 44. Por la tanto 𝜈 = n – 1 = 4 - 1 = 3.
“𝜈” se lee “nu” o “niu” y se emplea para simbolizar los grados de libertad

ESTIMACIÓN PUNTUAL Y POR INTERVALO

Toda inferencia que se haga sobre una población tendrá necesariamente, que basarse en
estadísticos muestrales, esto es, en funciones de la información muestral. La elección
apropiada de estos estadísticos dependerá de cuál sea el parámetro de interés de la
población. El verdadero parámetro será desconocido, y un objetivo será estimar su valor.

Para estudiar la estimación de un parámetro desconocido, debe considerarse dos


posibilidades: Estimación puntual y estimación por intervalo.

PARÁMETROS Y ESTADÍSTICOS

La media µ y la desviación estándar 𝝈 de una variable aleatoria poblacional X son conocidos


como parámetros y la media 𝒙 y la desviación estándar 𝒔 de una muestra son conocidos
como estadísticos. En general a cualquier característica numérica de una población se le

86
Apuntes de clase Estadística General

conoce como parámetro y a cualquier cantidad calculada de una muestra aleatoria se le


conoce como estadístico. Los estadísticos se usan para estimar parámetros.

ESTIMACIÓN PUNTUAL

Es el valor calculado, a partir de la información de muestreo, que se emplea para estimar el


parámetro de población

El estadístico muestral usado para estimar un parámetro de la población se llama estimador,


y un valor observado específico se denomina estimación.

Cuando la estimación de un parámetro de la población está dada solamente por un número,


se denomina estimación puntual. Por ejemplo la media muestral 𝑥 es un estimador de la
media poblacional y un valor simple de 𝑥 es un estimación puntual.

Se dice que:

𝒙 es el estimador puntual de la media poblacional µ

s es el estimador puntual de la desviación estándar poblacional 𝝈

̂ es el estimador puntual de la proporción poblacional P.


𝒑 =𝒑

̂ en una determinada muestra se les


Luego a los valores numéricos obtenidos para 𝒙 , 𝒔, 𝒑
llama estimados puntuales del parámetro.
Ejemplo:

A continuación se muestra el salario anual de 10 trabajadores de una fábrica y los datos si


concluyeron con un programa de adiestramiento general:

Salario ¿Programa de
anual ($) Adiestramiento gerencial?

𝒙𝟏 9 094,3 Si
𝒙𝟐 3 263,9 Si
𝒙𝟑 9 643,5 Si
𝒙𝟒 9 984,9 Si
𝒙𝟓 7 621,6 No
𝒙𝟔 5924,0 Si
𝒙𝟕 9 092,3 No
𝒙𝟖 1 404,4 Si
𝒙𝟗 3 957,7 No
𝒙𝟏𝟎 5 109,7 No
n

(X i  X )2 𝑋1 +𝑋2 +𝑋3 +⋯….+𝑋10


X i 1
= = 6 509.63
n 1 𝑛−1

87
Apuntes de clase Estadística General

(X
i 1
i  X )2
S2 = = 9.09
n 1

S ═√9,09 = 3.01

4
𝑃= = 0,4
10
Luego para una muestra de 10 trabajadores de una fábrica, el estimado puntual de 𝝁 es
de $ 6 509.63 nuevos soles, el de σ es de 3.01 y el de p es 0,4

PROPIEDADES DE LOS ESTIMADORES PUNTUALES

Son tres: Insesgo, eficiencia, consistencia.

INSESGO:

Si el valor esperado del estadístico de muestra es igual al parámetro poblacional que se


estima, se dice que este estadístico es un estimador insesgado del parámetro poblacional.

EFICIENCIA.

Suponga que se puede usar una muestra aleatoria simple de “n” elementos para obtener
dos estimadores puntuales del mismo parámetro poblacional. En este caso, preferiríamos
usar el estimador puntual con la menor desviación estándar, porque tiende a proporcionar
estimados más cercanos al parámetro poblacional. Se dice que el estimador puntual con la
menor desviación estándar tiene una mayor eficiencia relativa que el otro.

CONSISTENCIA.

En términos generales un estimador puntual es consistente si sus valores tienden a


acercarse al parámetro de la población conforme se incrementa el tamaño de la muestra. En
otras palabras, un tamaño grande de muestra tiende a proporcionar un mejor estimador
puntual que un tamaño pequeño.

ESTIMACIÓN POR INTERVALO DE CONFIANZA

Un intervalo de confianza, es una gama de valores obtenidos a partir de datos de


muestreo, de modo que el parámetro ocurre dentro de esta variedad de valores con una
probabilidad pre establecida llamada nivel de confianza.

INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN NORMAL:


VARIANZA POBLACIONAL CONOCIDA.

Supongamos que tenemos una muestra aleatoria de “n” observaciones procedentes de una
población con distribución normal con una media µ y una varianza . Si es conocida y
el valor observado de la media muestral es , entonces el intervalo de confianza del 100 (1-
para la media poblacional, viene dada por:

{ 𝑿 − 𝐙𝝈𝒙 ≤ μ ≤ 𝑿 + 𝐙 𝝈𝒙}= 1- ∝
88
Apuntes de clase Estadística General

ERROR MUESTRAL

Es el valor absoluto de la diferencia entre un estimador puntual insesgado y el parámetro


poblacional que estima se llama error muestral.

Para el caso en el que la media de una muestra estima a una media poblacional, el error
muestral es:
E = |𝑿 − 𝝁|

Ejemplo.-

1.- Un proceso de envase de bolsas de azúcar refinada. El peso del contenido de estas
bolsas tiene una distribución normal con desviación estándar de 15 gramos. Los
contenidos de una muestra aleatoria de 25 bolsas tienen un peso medio de 100 gramos.
Calcule un intervalo de confianza del 95% para el verdadero peso medio de todas las
bolsas de azúcar producidas por el proceso.

𝜎 𝜎
{𝑥 − 𝑧 ≤ 𝝁 ≤ 𝑥+ 𝑧 } = 1– α
√𝑛 √𝑛

15 15
{100– 1,96
√25
≤ 𝜇 ≤ 100 + 1,96 √25
}=0,95

{94,12 ≤ 𝜇 ≤ 105,88} = 0,95

2.- Se desea establecer si la aplicación de fertilizantes modifica el rendimiento promedio de


una variedad de trigo. Se conoce que la desviación estándar es 𝜎 = 450Kg. A los fines
de evaluar el efecto de la fertilización, se realizó un ensayo que consistió en elegir 20
hectáreas (una en cada chacra de la región), en forma aleatoria a las que se les aplicó
fertilizante, evaluando luego su rendimiento a cosecha. La producción obtenida fue 𝑥 =

89
Apuntes de clase Estadística General

2650 Kg. Encontrar un intervalo de confianza al 90% para el verdadero rendimiento


promedio.

INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN CON VARIANZA


DESCONOCIDA Y TAMAÑO DE MUESTRA GRANDE

Supongamos que tenemos una muestra de “n” observaciones procedentes de una


distribución con media µ. Sean x y s la media y la desviación estándar de la muestra
observada, respectivamente, entonces si n es grande, n≥ 30 una buena aproximación de un
intervalo de confianza del 100 (1 – α) % para la media dada por:

𝑺 𝑺
{𝑿– 𝐙 𝒏 ≤ 𝝁 ≤ 𝒙 +𝐙 }= 1–α
√ √𝒏

1-- Se extrajo una muestra aleatoria de 172 estudiantes de Agronomía y se les pidió que
evaluasen unas determinadas condiciones de trabajo en una escala de 1 (no importante)
a 5 (extremadamente importante). La “seguridad de trabajo “recibió una calificación
media de 4,38 con una desviación estándar muestral de 0,70. Calcule un intervalo de
confianza del 99% para la media poblacional.

𝑺 𝑺
{𝑿– 𝐙 𝒏 ≤ 𝝁 ≤ 𝒙 +𝐙 }= 1–α
√ √𝒏

0,70 0,70
{4.38 – 2.576 ≤ 𝜇 ≤ 4.38 + 2.576 } = 0.95
√172 √172

{4.2427 ≤ 𝜇 ≤ 4,5173} = 0,99

2.- Un propietario de una gasolinera desea estimar el número medio de galones de


combustible que vende a sus clientes. De sus registros selecciona una muestra de 60
ventas y concluye que el número medio de galones vendidos es 8,60 con una desviación
estándar de 2,30 galones. Establezca un intervalo de confianza del 99% para la media
poblacional.

Solución

𝑠 =2,30 n= 60 𝑋 = 8,60
𝒔 𝑠
{𝑋 − 𝑍(1 − 𝛼⁄ ≤ 𝝁 ≤ 𝑋 + 𝑍(1 − 𝛼⁄ }=1−𝛼
2) √𝒏 2) √𝑛
2,30 2,30
{8,60 − 2,576 ≤ 𝝁 ≤ 8,60 + 2,576 } = 0,99
√60 √60

{8,60 − 0,765 ≤ 𝝁 ≤ 8,60 + 0,765} = 0, 99

{7,835 ≤ 𝝁 ≤ 9,365} =0, 95

90
Apuntes de clase Estadística General

INTERVALOS DE CONFIANZA PARA UNA PROPORCIÓN DE LA POBLACIÓN

Una estimación puntual para una proporción poblacional se obtiene dividiendo el número de
éxitos de una muestra entre el número total muestreado.

Mientras que para encontrar los intervalos de confianza debemos tener en cuenta lo
siguiente:

{𝒑 – 𝐳 𝝈𝒑 ≤ 𝝅 ≤ 𝒑 + 𝒛 𝝈𝒑 } = 1 –∝

Como 𝜋 no se conoce

𝑝(1 − 𝑝)
𝜎𝑝 = √
𝑛

Donde
𝑧∝ =Valor asignado por el nivel de confianza
= = p= es la proporción muestral

n = es el tamaño de la muestra

Ejemplo.-

1.- En una muestra aleatoria de 900 votantes, el 55% prefiere al candidato demócrata de
presidente. Halle un intervalo de confianza aproximado para la proporción de todos los
votantes que prefieren al candidato demócrata con un nivel de confianza del 90%

{𝒑 – 𝐳 𝝈𝒑 ≤ 𝝅 ≤ 𝒑 + 𝒛 𝝈𝒑 } = 1 –∝

𝑝(1−𝑝) 0,55(1−0,55)
𝜎𝑝 = √ =√ ═ 0.0165
𝑛 900

{0,55– 1.645(0.0165) ≤ 𝜋 ≤ 0,55 + 1.645(0.0165) } = 1 –∝

{0.5229 ≤ 𝜋 ≤ 0,5771 } = 1 – ∝

2.-Se realizó una investigación de mercado para estimar la proporción de amas de casa que
puedan reconocer la marca de un limpiador con base en la forma y el color del recipiente.
De 1400 personas 420 pudieron reconocer (identificar) la marca del producto. Si se utiliza
el grado de confianza del 99% ¿Cuál serán los intervalos de confianza?

91
Apuntes de clase Estadística General

{𝒑 – 𝐳 𝝈𝒑 ≤ 𝝅 ≤ 𝒑 + 𝒛 𝝈𝒑 } = 1 –∝
420
P = 1400 = 0,30

𝑝(1−𝑝) 0,30(1−0,30)
𝜎𝑝 = √ =√ ═ 0.0122
𝑛 1400

{0,30 – 2.576(0.0122) ≤ 𝜋 ≤ 0,30 + 2.576(0.0122)} = 1 –∝

{0.2686≤ 𝑃 ≤ 0,3314 } = 1 –∝

3.- María Tang considera ser candidata para la alcaldía de su pueblo natal. Antes de
presentar su candidatura, decide realizar un sondeo de electores en dicho lugar. Una
muestra de 400 reveló que 300 ciudadanos la apoyarían en la elección. Calcule el
intervalo de confianza del 99% para la proporción de votantes en la población que
apoyaría a la Sra., Tang.

Solución:
300 100
n= 400 p= = 0,75 q= = 0,25
400 400

𝑝 (1 −𝑝) 𝑝 (1−𝑝)
{ p − 𝑍(1 − 𝜎) √ 𝑛
≤ 𝝅 ≤ P + 𝑍(1 − 𝜎) √ 𝑛
} =1– 𝛼
2 2

0,75 × 0,25 0,75 × 0,25


{ 0,75 − 2,576 √ ≤ 𝝅 ≤ 0,75 + 2,576√ }
400 400

= 0,99
{ 0,75 − 0,056 ≤ 𝝅 ≤ 0,75 + 0,056} = 0,99

{ 0,694 ≤ 𝝅 ≤ 0,806} = 0,99

4.- De 900 consumidores que se entrevistaron, 414 señalaron que están muy entusiasmados
con un nuevo proyecto de decoración para el hogar. Elabore el intervalo de confianza del
99% para la proporción de la población.
Solución:
414 486
n= 400 p = 900 = 0,46 q = 900 = 0,54

𝑝 (1 −𝑝) 𝑝 (1−𝑝)
{ p − 𝑍(1 − 𝜎) √ 𝑛
≤ 𝝅 ≤ P + 𝑍(1 − 𝜎) √ 𝑛
} =1– 𝛼
2 2

0,46 × 0,54 0,46 × 0,54


{ 0,46 − 2,576 √ ≤ 𝝅 ≤ 0,46 + 2,576√ } = 0,99
900 900

{ 0,46 − 0,043 ≤ 𝝅 ≤ 0,46 + 0,043} = 0,99

92
Apuntes de clase Estadística General

{ 0,417 ≤ 𝝅 ≤ 0,503} = 0,99

5.- Un banco tiene 650 clientes con cuenta de cheque. Una muestra reciente de 50 de ellos
mostró que 26 poseen la tarjeta de crédito que maneja el banco. Fije un intervalo de
confianza del 99% para la proporción de clientes con cuenta de cheques que disponen
de la tarjeta de crédito citada.

Solución:
26 24
n= 650 p = 50 = 0,52 q = 50 = 0,48

𝑝 (1 −𝑝) 𝑝 (1−𝑝)
{ p − 𝑍(1 − 𝜎) √ 𝑛
≤ 𝝅 ≤ P + 𝑍(1 − 𝜎) √
𝑛
} =1– 𝛼
2 2

0,52 × 0,48 0,52 × 0,48


{ 0,52 − 2,576 √ ≤ 𝝅 ≤ 0,52 + 2,576√ } = 0,99
50 50

{ 0,52 − 0,175 ≤ 𝝅 ≤ 0,52 + 0,175} = 0,99

{ 0,345 ≤ 𝝅 ≤ 0,695} = 0,99

ESTIMACIÓN POR INTERVALO PARA LA DIFERENCIA ENTRE DOS MEDIAS


POBLACIONALES

Se puede hacer comparaciones como:

El promedio de diámetros de tallos de plantas tratadas dos tipos diferentes de nutrientes.

Las producciones promedio en una planta química que usa materias primas suministradas
por dos proveedores diferentes.

Cuando muestras aleatorias independientes de tamaño n1 y n2 observaciones han sido


seleccionadas de entre poblaciones con medias µ1 y µ2 y variancias 𝝈𝟐𝟏 y 𝝈𝟐𝟐
respectivamente, la prueba estadística será:

(x1 − x2 )− (𝜇1 −𝜇2 )


Z=
𝜎 𝜎 2 2
√ 1+ 2
𝑛1 𝑛2

Pero si n1 y n2 son grandes (mayores de 30) y 𝝈𝟐𝟏 , 𝝈𝟐𝟐 no se conocen, el estimador del
estadístico será:

(𝐱𝟏 − 𝐱𝟐 )− (𝝁𝟏 −𝝁𝟐 )


Z=
𝒔 𝒔 𝟐 𝟐
√ 𝟏+ 𝟐
𝒏𝟏 𝒏𝟐

El intervalo de confianza en este caso será:

93
Apuntes de clase Estadística General

𝝈𝟐 𝝈𝟐𝟐 𝝈𝟐𝟏 𝝈𝟐𝟐


{(𝐱𝟏 − 𝐱𝟐 ) – 𝐳 √𝒏𝟏 + 𝒏𝟐
≤ 𝝁𝟏 − 𝝁𝟐 ≤ (𝐱𝟏 − 𝐱𝟐 ) + 𝐳 √
𝒏𝟏
+ 𝒏𝟐
}= 1-𝜶
𝟏

En caso de que las muestras sean grandes (mayores de 30) y 𝜎12 , 𝜎22 no se conocen, el
intervalo se podrá calcular de la siguiente manera:

𝒔𝟐 𝒔𝟐𝟐 𝒔𝟐 𝒔𝟐𝟐
{(𝐱𝟏 − 𝐱𝟐 ) – 𝐳 √𝒏𝟏 + 𝒏𝟐
≤ 𝝁𝟏 − 𝝁𝟐 ≤ (𝐱𝟏 − 𝐱𝟐 ) + 𝐳 √𝒏𝟏 + 𝒏𝟐
}= 1-𝜶
𝟏 𝟏

Ejemplo:

Las resistencia al desgaste de dos tipos de llantas para automóvil se compararon en


muestras de pruebas de camino de 𝑛1 = 𝑛2 = 100 llantas para cada tipo. El número de millas
hasta el completo desgaste se definió como una cantidad específica de desgaste de las
llantas. Los resultados de la prueba se muestran a continuación

LLANTA 1 LLANTA 2
𝑋1 = 26400 𝑀𝑖𝑙𝑙𝑎𝑠 𝑋2 = 25100 𝑚𝑖𝑙𝑙𝑎𝑠
𝑆12 = 144000 𝑆22 = 1960000

Estime (µ1 - µ2), la diferencia en la media de millas hasta el completo desgaste, usando un
intervalo de confianza del 99%. ¿Hay diferencia en el promedio de calidad de desgaste para
los dos tipos de llantas?

Solución:

La estimación puntual de (𝜇1 − 𝜇2 ) 𝑒𝑠 (x1 − x2 ) = 26 400 – 25100 = 1300 millas

𝜎12 𝜎22
El error estándar = √ +
𝑛1 𝑛2

𝑠12 𝑠12
Que se puede estimar como = √ +
𝑛1 𝑛2
1440 000 1960 000
=√ + = 184,4 millas
100 100

El intervalo de confianza se calcula como:

𝑠2 𝑠22 𝑠2 𝑠2
{(x1 − x2 ) – z √𝑛1 + ≤ 𝝁𝟏 − 𝝁𝟐 ≤ (x1 − x2 ) + z √𝑛1 + 𝑛2 }=1-𝛼
1 𝑛2 1 2

1440 000 1960 000 1440 000 1960 000


{1300 − 2,58√ + ≤ 𝝁𝟏 − 𝝁𝟐 ≤ 1300 + 2,58√ + }= 0,99
100 100 100 100

{1300 – 2,58(184,4) ≤ 𝝁𝟏 − 𝝁𝟐 ≤1300+2,58(184,4)} = 0,99

94
Apuntes de clase Estadística General

{824,2 ≤ 𝝁𝟏 − 𝝁𝟐 ≤ 1775,8} = 0,99

ESTIMACIÓN POR INTERVALO DE LA DIFERENCIA ENTRE DOS PROPORCIONES


POBLACIONALES

Se pueden hacer comparaciones como:


Los porcentajes de germinación se semillas tratadas y semillas no tratadas con un fungicida
La proporción de votantes mujeres y la proporción de votantes hombres que están a favor
de una enmienda de igualdad de derechos
Suponga que las muestras aleatorias independientes de las observaciones 𝑛1 𝑦 𝑛2 han sido
seleccionadas de poblaciones con parámetros 𝑝1 𝑦𝑝2 , respectivamente La distribución
muestral de la diferencia entre proporciones muestrales:
𝑥1 𝑥2
(p1 – 𝑝2) = ( − )
𝑛1 𝑛2

La media muestral de (𝑝̂ 1 - 𝑝̂ 2) es p1 – p2

𝑃1 𝑄1 𝑃2 𝑄2
El error estándar es=√ +
𝑛1 𝑛2

𝑝1 𝑞1 𝑝2 𝑞2
Que se estima como = √ +
𝑛1 𝑛2

La estimación cuando 𝑛1 𝑦 𝑛2 > 30 será:


𝒑𝟏 𝒒𝟏 𝒑𝟐 𝒒𝟐 𝒑𝟏 𝒒𝟏 𝒑𝟐 𝒒𝟐
{(𝒑𝟏 – 𝒑𝟐 ) – 𝐙√ 𝒏𝟏
+ 𝒏𝟐
≤ 𝝅𝟏 − 𝝅𝟐 ≤ (𝒑𝟏 – 𝒑𝟐 ) + 𝐙√ 𝒏𝟏
+ 𝒏𝟐
}= 1–∝

La estimación cuando 𝑛1 𝑦 𝑛2 < 30 será:

𝒑𝟏 𝒒𝟏 𝒑𝟐 𝒒𝟐 𝒑𝟏 𝒒𝟏 𝒑𝟐 𝒒𝟐
{(𝒑𝟏 – 𝒑𝟐 ) – 𝐭√ 𝒏𝟏
+ 𝒏𝟐
≤ 𝝅𝟏 − 𝝅𝟐 ≤ (𝒑𝟏 – 𝒑𝟐 ) + 𝐭√ 𝒏𝟏
+ 𝒏𝟐
}= 1 – ∝

Ejemplo:
1.- La propuesta de un bono para la construcción de una escuela será enviada a los votantes
en la siguiente elección municipal. Una parte importante del dinero derivado de esta
emisión de bonos se empleará en construir escuelas en una zona de rápido desarrollo de
la ciudad y lo demás se usará para renovar y actualizar los edificios escolares del resto
de ésta. Para evaluar la viabilidad de la propuesta de un bono, a una muestra aleatoria
de 𝑛1 = 50 residentes de la zona de rápido desarrollo y 𝑛2 = 100 de las otras partes de
la ciudad, se les preguntó si piensan votar por la propuesta. Los resultados se dan a
continuación:

Sección en Resto de
desarrollo la ciudad
Tamaño muestral 50 100
Número a favor de la propuesta 38 65

95
Apuntes de clase Estadística General

Proporción a favor de la propuesta 0.76 0.65

Estime la diferencia en las proporciones verdaderas a favor de la propuesta del bono


con un 99% de intervalo de confianza.

(p1 –p2) = 0, 76 – 0, 65 = 0, 11

𝑝1 𝑞1 𝑝2 𝑞2 (0.76)(0,24) (0,65)(0,35)
√ + =√ + = 0, 0770
𝑛1 𝑛2 50 100

𝒑 𝟏 𝒒𝟏 𝒑𝟐 𝒒𝟐 𝒑𝟏 𝒒𝟏 𝒑𝟐 𝒒𝟐
{(𝒑𝟏 – 𝒑𝟐 ) – 𝐙√ + ≤ 𝝅𝟏 − 𝝅𝟐 ≤ (𝒑𝟏 – 𝒑𝟐 ) + 𝐙√ + }=1 –∝
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐

{0,11 – (2,58)(0,0770) < 𝝅𝟏 − 𝝅𝟐 < 0,11 + (2,58)(0,0770) } = 0,99


{– 0,089 < 𝝅𝟏 − 𝝅𝟐 < 0,309 } = 0,99

2.- En una muestra al azar de 200 y 300 adolescentes que veían cierto programa de
televisión, 50 adultos y 150 adolescentes dijeron que les gustaba. Hallar los límites de
confianza del 95% para la diferencia de proporción de adultos y adolescentes que ven
televisión.

Solución:

(𝑝1 −𝑝2 )−(𝜋1 −𝜋2 )


Z=
𝑝1 𝑞 2 𝑝1 𝑞 2
√ 𝑛 +
1 𝑛 2

𝑝1 𝑞2 𝑝1 𝑞2 𝑝1 𝑞2 𝑝1 𝑞2
{(𝑝1 − 𝑝2 ) − 𝑧√ + ≤ 𝜋1 − 𝜋2 ≤ (𝑝1 − 𝑝2 ) + 𝑧√ + } = 1−∝
𝑛1 𝑛2 𝑛1 𝑛2

50 150
𝑝1 = 200 = 0,25 𝑝2 = 200 = 0,50

0,25 × 0,75 0,5 × 0,5 0,25 × 0,75 0,5 × 0,5


{(0,25 − 0,50) − 1,95√ + ≤ 𝝅𝟏 − 𝝅𝟐 ≤ (0,25 − 0,50) − 1,95√ + } = 1−∝
200 300 200 300

{−0,17 ≤ 𝝅𝟏 − 𝝅𝟐 ≤ −0,33} = 0,05

b.- Cuando 𝑛1 𝑦 𝑛2 ≤ 30

3.- Se desea determinar si hay alguna diferencia significativa, según el sexo y en la


preferencia por margarina o mantequilla. Se realizó un muestra aleatoria entre 26
hombres y 18 mujeres, indicando que 16 y 10 respectivamente, preferían la margarina
a la mantequilla. Establezca un límite de confianza del 95% para estas diferencias.

Solución:

96
Apuntes de clase Estadística General

(𝑝1 −𝑝2 )−(𝜋1 −𝜋2 )


t=
𝑝1 𝑞 2 𝑝1 𝑞 2
√ 𝑛 + 𝑛
1 2

𝑝1 𝑞2 𝑝1 𝑞2 𝑝1 𝑞2 𝑝1 𝑞2
{(𝑝1 − 𝑝2 ) − 𝑡√ + ≤ 𝝅𝟏 − 𝝅𝟐 ≤ (𝑝1 − 𝑝2 ) + 𝑡√ + } = 1−∝
𝑛1 𝑛2 𝑛1 𝑛2

16 10
𝑝1 = 26 = 0,62 𝑝2 = 18 = 0,55

0,62 × 0,38 0,55 × 045 0,62 × 0,38 0,55 × 045


{(0,62 − 0,55) − 2,018√ + ≤ 𝝅𝟏 − 𝝅𝟐 ≤ (0,62 − 0,55) − 2,018√ + } = 1−∝
25 17 25 17

{−0,24 ≤ 𝝅𝟏 − 𝝅𝟐 ≤ 0,38} = 0,05

INTERVALOS DE CONFIANZA USANDO LA DISTRIBUCIÓN t

Cuando la población bajo estudio tiene una distribución normal, o aproximadamente normal,
pero no se conoce la desviación estándar de la población, y el tamaño de la muestra es
menor de 30, no podemos usar la distribución normal para determinar intervalos de
confianza para la media de la población. En este caso usaremos la distribución t se Student.

Recordemos que la distribución de t de Student se utiliza cuando se cumple con las


siguientes condiciones.

1.- La muestra es pequeña


2.- desconocida
3.- La población es normal.

CARACTERÍSTICAS DE LA DISTRIBUCIÓN t DE STUDENT


La distribución t de Student fue desarrollada en 1908 por William S. Gossett, un maestro
cervecero de la Guinness Brewey de Irlanda, quien publicó su investigación con el
seudónimo de Student. Gossett desarrolló una nueva teoría estadística sobre muestras
pequeñas al trabajar con muestras pequeñas y en experimentos donde intervenían
temperaturas en esta cerveza. A él le interesaba el comportamiento exacto de la expresión:

𝒙−𝝁
t= 𝑺⁄
√𝒏

Cuando S debía usarse como estimador de . En particular le preocupaba la discrepancia


entre s y cuando se calculaba S a partir de una muestra pequeña.

Al igual que la distribución normal estandarizada, la distribución t tiene forma de campaña y


es simétrica alrededor de la media cero, pero es más achatada que la distribución normal
estandarizada debido a su mayor dispersión.

LA DISTRIBUCIÓN t TIENE LAS SIGUIENTES CARACTERÍSTICAS:

97
Apuntes de clase Estadística General

1.- Al igual que la distribución Z, la distribución t es una distribución de variable continua.

2.- Es acampanada y simétrica

3.- No hay una sola distribución t, sino una familia de distribuciones t.

4.- La distribución t es más extendida y menos aguda en el centro, que la distribución Z. Sin
embargo a medida que “n” aumenta la curva de la distribución t se aproxima a la
distribución normal estandarizada.

El intervalo de confianza para la media poblacional usando la distribución t, está dado por:
{𝑥̂ − 𝑡(𝑛−1) 𝑠𝑋 ≤ 𝜇 ≤ 𝑥 + 𝑡(𝑛−1) 𝑠𝑥 } =1−𝛼

𝑆 𝑆
{𝑥̂ − 𝑡(𝑛−1) ≤ 𝜇 ≤ 𝑥 + 𝑡(𝑛−1) } =1−𝛼
√𝑛 √𝑛

Ejemplo.-

1.- Una tienda está interesada en conocer los gastos en prendas de vestir de los estudiantes
universitarios en el primer mes del ciclo académico. La media y la desviación estándar
de una muestra aleatoria de nueve alumnos fueron de $ 15 782 y $ 3889,
respectivamente. Suponiendo que la población sigue una distribución normal, calcule el
intervalo de confianza del 95% para el gasto medio poblacional
{ – t(n-1) 𝑠𝑥 ≤ μ ≤ x + t(n−1) 𝑠𝑥 }= 1 –∝
𝑆 𝑆
{ – t (n−1) ≤ 𝜇 ≤ 𝑋 +𝑡(𝑛−1) } = 1 –∝
√𝑛 √𝑛

En las tablas 𝑡(9−1) ═ 2.3060

3889 3889
{15782–2.3060 ≤ 𝜇 ≤ 15782+2.3060 }=
√9 √9
1−𝛼
{12792.65554≤ 𝜇 ≤ 188771,3446} = 1 –

2.- Una muestra aleatoria de 26 observaciones tiene una media de 65 y una desviación
estándar de 4,2. Se piden los límites de confianza del 95%

{ – t(n-1) 𝑠𝑥 ≤ μ ≤ x + t(n−1) 𝑠𝑥 }= 1 –∝

98
Apuntes de clase Estadística General

𝑆 𝑆
{ – t (n−1) ≤ 𝜇 ≤ 𝑋 +𝑡(𝑛−1) } = 1 –∝
√𝑛 √𝑛

4,2 4,2
{65 − 2,0595 ≤ 𝜇 ≤ 65 + 2,0595 } = 0,95
√25 √25

{63,27 ≤ 𝜇 ≤ 66,73} = 0,95

3.-Don Favio Barturen, en conversación estudiantil, vende vasos de cerveza de 16 onzas.


Diez estudiantes compran en total 22 vasos, y utilizando su propia taza de medida,
estiman que los contenidos los contenidos promedio. La media muestral es de 15,2 onzas,
con s= 0,86. ¿Con un nivel de confianza del 95%, los estudiantes creen que su dinero lo
vale?

Solución:

𝑠 = 0,86 n= 22 𝑋 = 15,2

𝑆 𝑆
{𝑋 − 𝑡(1 − 𝛼⁄ ≤ 𝝁 ≤ 𝑋 + 𝑡(1 − 𝛼⁄ }=1−𝛼
2)(𝑛−1) √𝑛 2)(𝑛 −1) √𝑛
0,86 0.86
{15,2 − 2,08 ≤ 𝝁 ≤ 15,2 + 2,08 } = 0,95
√22 √22

{15,2 − 0,3814 ≤ 𝝁 ≤ 15,2 + 0,3814 } = 0,95

{14,82 ≤ 𝝁 ≤ 15,58} = 0,95

4.- Una muestra de 25 llamadas a una red de amigos psíquicos revela un costo promedio de
$ 23,87. Si la desviación estándar es $ 9,56 ¿Cuál es la estimación con un intervalo del
98% para su costo promedio de todos los que llaman para conocer su futuro?

Solución:

𝑠 = 9,56 n= 25 𝑋 = 23,87

𝑆 𝑆
{𝑋 − 𝑡(1 − 𝛼⁄ ≤ 𝝁 ≤ 𝑋 + 𝑡(1 − 𝛼⁄ }=1−𝛼
2)(𝑛−1) √𝑛 2)(𝑛 −1) √𝑛

9,56 9,56
{23,87 − 2,492 ≤ 𝝁 ≤ 𝟐𝟑, 𝟖𝟕 + 2,492 } = 0,98
√25 √25

{23,87 − 4,765 ≤ 𝝁 ≤ 23,87 + 4,765} = 0,98

{19,11 ≤ 𝝁 ≤ 28,64} = 0,98

5.- Los pesos de 25 paquetes enviados a través de SERPOST tuvieron una media de 3,7
libras y una desviación estándar de 1,2 libras. Halle el intervalo de confianza del 95% para
estimar el peso promedio de todos los paquetes. Los pesos de los paquetes están
distribuidos normalmente.

Solución:

99
Apuntes de clase Estadística General

𝑠 = 1,2 n= 25 𝑋 = 3,7
𝑆 𝑆
{𝑋 − 𝑡(1 − 𝛼⁄ ≤ 𝝁 ≤ 𝑋 + 𝑡(1 − 𝛼⁄ }=1−𝛼
2)(𝑛−1) √𝑛 2)(𝑛 −1) √𝑛

1,2 1,2
{3,7 − 2,064 ≤ 𝝁 ≤ 𝟐𝟑, 𝟖𝟕 + 2,064 } = 0,95
√25 √25

{3,7 − 0,495 ≤ 𝝁 ≤ 𝟑, 𝟕 + 0,495} = 0,95

{3,205 ≤ 𝜇 ≤ 4,195} = 0,95

PARA DOS MEDIAS POBLACIONALES

(𝒏𝟏 −𝟏)𝑺𝟐 𝟐
𝟏 +(𝒏𝟐 −𝟏)𝑺𝟐 𝟏 𝟏 (𝒏𝟏 −𝟏)𝑺𝟐 𝟐
𝟏 +(𝒏𝟐 −𝟏)𝑺𝟐 𝟏 𝟏
{(𝐱𝟏 − 𝐱𝟐 ) – 𝐭 √ √𝒏 + 𝒏 ≤ 𝝁𝟏 − 𝝁𝟐 ≤ (𝐱𝟏 − 𝐱𝟐 ) + √ √𝒏 + 𝒏 } =1−𝜶
𝒏𝟏 +𝒏𝟐 −𝟐 𝟏 𝟐 𝒏𝟏 +𝒏𝟐 −𝟐 𝟏 𝟐

(𝒏𝑿 −𝟏)𝑺𝟐𝑿 +(𝒏𝒀 −𝟏)𝑺𝟐𝒀 𝟏 𝟏


{(𝑿 − 𝒀) – 𝐭 √ 𝒏𝑿 +𝒏𝒀 −𝟐
√𝒏 + 𝒏 ≤ 𝝁𝟏 − 𝝁𝟐 ≤ (𝐱𝟏 − 𝐱𝟐 ) +
𝑿 𝒀

(𝒏𝑿 −𝟏)𝑺𝟐𝑿 +(𝒏𝒀 −𝟏)𝑺𝟐𝒀 𝟏 𝟏


𝐭√ 𝒏𝑿 +𝒏𝒀 −𝟐
√𝒏 + 𝒏 } =1−𝜶
𝑿 𝒀

Ejemplo

En un experimento llevado a cabo para medir la efectividad de dos abonos en dos parcelas,
de 10 hectáreas cada una cultivada con maíz, se obtuvieron las siguientes medias, para la
primera parcela abonada con el producto A, 81,7 Kg. por hectárea; en la segunda parcela,
88,3 Kg. por hectárea con el B y las desviaciones estándar de 0,7 y 0,8 respectivamente.
¿Cuáles son los límites de confianza para la diferencia de los promedios con una
probabilidad de 95%?

(𝒏𝑿 −𝟏)𝑺𝟐 𝟐
𝑿 +(𝒏𝒀 −𝟏)𝑺𝒀 𝟏 𝟏 (𝒏𝑿 −𝟏)𝑺𝟐 𝟐
𝑿 +(𝒏𝒀 −𝟏)𝑺𝒀 𝟏 𝟏
{(𝑿 − 𝒀) – 𝐭 √ √𝒏 + 𝒏 ≤ 𝝁𝟏 − 𝝁𝟐 ≤ (𝐱𝟏 − 𝐱𝟐 ) + 𝐭√ √𝒏 + 𝒏 } =1−𝜶
𝒏𝑿 +𝒏𝒀 −𝟐 𝑿 𝒀 𝒏𝑿 +𝒏𝒀 −𝟐 𝑿 𝒀

9(0,49)+9(0,64) 9(0,49)+9(0,64)
{(81,7 − 88,3) − 2,10√ 10+10−2
≤ 𝝁𝑿 − 𝝁𝐘 ≤ (81,7 − 88,3) + 2,10√ 10+10−2
} = 1−∝

{−7,31 ≤ 𝝁𝟏 − 𝝁𝟐 ≤ −𝟓, 𝟖𝟗 } = 0, 95

PARA LA DIFERENCIA ENTRE DOS PROPORCIONES

1.- Se desea determinar si hay alguna diferencia significativa, según el sexo, en la


preferencia por margarina o mantequilla. Se realizó una muestra aleatoria entre 26
hombres y 18 mujeres, indicando que 16 y 10 respectivamente, preferían la margarina
a la mantequilla

100
Apuntes de clase Estadística General

𝟏𝟔 10
p1 = 𝟐𝟔 = 0,62 𝑝2 = 18 = 0,55
t (26+18−2)(0,05) = 2,018

𝑝1 𝑞1 𝑝2 𝑞2 𝑝1𝑞1 𝑝2 𝑞2
{(𝑝1 – 𝑝2 )– t√ 𝑛1
+
𝑛2
≤ 𝝅𝟏 − 𝝅𝟐 ≤ (𝑝1 – 𝑝2 ) + t√
𝑛1
+
𝑛2
}=1–∝

0,62(0,38) 0,55(0,45) 0,62(0,38) 0,55(0,45)


{(0,62– 0,55)– 2,018√ 26
+
17
≤ 𝝅𝟏 − 𝝅2 ≤ +2,018√
26
+
17
}= 1–∝

{−0,24 ≤ 𝝅𝟏 − 𝝅2 ≤ 0,38}

2.- Se desea determinar si hay alguna diferencia significativa, según el sexo y en la


preferencia por margarina o mantequilla. Se realizó un muestra aleatoria entre 26
hombres y 18 mujeres, indicando que 16 y 10 respectivamente, preferían la margarina
a la mantequilla. Establezca un límite de confianza del 95% para estas diferencias.

Solución:

(𝑝1 −𝑝2 )−(𝜋1 −𝜋2 )


t=
𝑝1 𝑞 2 𝑝1 𝑞 2
√ 𝑛 + 𝑛
1 2

𝑝1 𝑞2 𝑝1 𝑞2 𝑝1 𝑞2 𝑝1 𝑞2
{(𝑝1 − 𝑝2 ) − 𝑡√ + ≤ 𝝅𝟏 − 𝝅𝟐 ≤ (𝑝1 − 𝑝2 ) + 𝑡√ + } = 1−∝
𝑛1 𝑛2 𝑛1 𝑛2

16 10
𝑝1 = = 0,62 𝑝2 = = 0,55
26 18

0,62 × 0,38 0,55 × 045 0,62 × 0,38 0,55 × 045


{(0,62 − 0,55) − 2,018√ + ≤ 𝝅𝟏 − 𝝅𝟐 ≤ (0,62 − 0,55) − 2,018√ + } = 1−∝
25 17 25 17

{−0,24 ≤ 𝝅𝟏 − 𝝅𝟐 ≤ 0,38} = 0,05

INTERVALO DE CONFIANZA PARA LA VARIANZA DE UNA POBLACIÓN NORMAL.

Cuando una variable aleatoria sigue una distribución de Chi cuadrado con (n-1). Este
resultado es clave para construir un intervalo de confianza para la varianza poblacional
cuando se toman muestras de una población

Supongamos que se dispone de una muestra aleatoria de n observaciones procedentes de


una población con distribución normal con varianza . Si la varianza muestral observada
es , entonces el intervalo de confianza del 100(1- para la varianza poblacional viene
dado por

(𝒏−𝟏)𝑺𝟐
𝑿𝟐 =
𝝈𝟐

101
Apuntes de clase Estadística General

(𝒏 − 𝟏)𝑺𝟐 𝟐
(𝒏 − 𝟏)𝑺𝟐
≤ 𝝈 ≤
𝒙𝟐 (𝒏−𝟏)𝜶⁄ 𝒙𝟐 (𝒏−𝟏)𝟏−𝜶⁄
𝟐 𝟐
Ejemplo

1.- Un fabricante quiere estimar la variabilidad de los niveles de impurezas de los envíos de
materia prima de un determinado proveedor. Extrae para ello una muestra de quince
envíos y comprueba que la desviación estándar muestral en la concentración de los
niveles de impurezas es de 2,36%. Supóngase que la población es normal.

a.- Calcule el intervalo de confianza del 95% para la varianza poblacional.


b.- Sin hacer los cálculos, determine si un intervalo de confianza del 99% tendría una
longitud mayor, menor o igual a la del intervalo calculado anteriormente

Solución

a.- n═ 15 g.l.═ 14
═0.05
(𝒏 −𝟏)𝑺𝟐 (𝒏−𝟏)𝑺𝟐
≤ 𝝈𝟐 ≤
𝒙𝟐 (𝒏−𝟏)𝜶⁄ 𝒙𝟐 (𝒏−𝟏)𝟏−𝜶⁄
𝟐 𝟐

(14)(2,36) (14)(2,36)
≤ 𝜎2 ≤
26,12 5,63

2.99 13.85

Por lo tanto, diremos que el intervalo de confianza del 95% para la variabilidad de
impurezas discurre entre 2.99% y 13.85%
b.- El intervalo de confianza del 99% para la varianza poblacional será más ancho

2.-Calcule un intervalo de confianza con ∝= 0,05 para la variancia de la altura de los


individuos de una ciudad. En principio solo sabemos que la distribución de las alturas es
una variable aleatoria X de distribución normal. Para ello se toma una muestra de 𝑛 = 25
personas y se obtiene 𝑋 = 170 cm y 𝑠 = 10cm
Solución:

(𝑛 −1)𝑆 2 (𝑛 −1)𝑆 2
{𝑋 2 ≤ 𝝈𝟐 ≤ } = 1 –𝛼
𝛼 𝑋 2𝛼
(1 − ,𝑛−1) ( ,𝑛−1)
2 2

(25 −1)102 (25 −1)102


{ 𝑋2 ≤ 𝝈𝟐 ≤ } = 0,95
(0,975 ,24) 𝑋(20,025,24)

(25 −1)102 (25 −1)102


{ ≤ 𝝈𝟐 ≤ } = 0,95
39,364 12,401

{60,97 ≤ 𝝈𝟐 ≤ 193,53} = 0,95

102
Apuntes de clase Estadística General

3.-Un trabajador tiene como objetivo cubrir con una capa de plástico una superficie metálica.
Se extrae una muestra aleatoria de nueve observaciones correspondientes al grosor de
dicha capa de plástico. Los valores obtenidos (en milímetros) son los siguientes:
19,8 21,2 18,6 20,4 21,6 19,8 19,9 20,3 20,8
Suponiendo que la población es normal, halle un intervalo de confianza del 90% para la
varianza poblacional
Solución:

(𝑛 −1)𝑆 2 (𝑛 −1)𝑆 2
{𝑋 2 ≤ 𝝈𝟐 ≤ } = 1 –𝛼
𝛼 𝑋 2𝛼
(1 − ,𝑛−1) ( ,𝑛−1)
2 2

(9 −1)0,7875 (9 −1)0,7875
{ 2 ≤ 𝝈𝟐 ≤ } = 0,90
𝑋(0,975 ,8) 𝑋(20,025,8)

(8)0,7875 (8)0,7875
{ ≤ 𝝈𝟐 ≤ } = 0,90
15,51 2,73

{0,406 ≤ 𝝈𝟐 ≤ 2,308} = 0,90

Problema VARIANCIA

SE CONOCE LA VARIANZA VARIANZA MUESTRAL


POBLACIONAL 𝜎2 𝑆2

No importa el tamaño de
Muestra grande Muestra pequeña
la muestra
n> 30 n< 30

Se utiliza Z
Se utiliza Z Se utiliza t

𝑋−𝜇 𝑋−𝜇 𝑋−𝜇


Z= 𝜎 Z= 𝑆⁄ t=
⁄ 𝑛 𝑆⁄
√ √𝑛 √𝑛

𝑋 −𝑌 𝑿 −𝒀
z= 𝑋 −𝑌 𝑡=
z= 𝟐 𝟐
2 𝜎2 √ 𝑺𝒄 + 𝑺𝒄
√𝜎𝑥 + 𝑦 2 𝑆2 𝒏𝟏 𝒏𝟐
𝑛1 𝑛2 √ 𝑆𝑥 +
𝑦
𝑛1 𝑛2 ∑(𝒙 − 𝒙)𝟐 + ∑(𝒚 − 𝒚)𝟐
UE ES UNA MUESTRA PROBABILISTICA? 𝑺𝟐𝒄 =
𝒏𝟏 + 𝒏𝟐 − 𝟐

103
Apuntes de clase Estadística General

MUESTRA PROBABILÍSTICA.-

Muestra que se selecciona de modo que cada integrante de la población en estudio tenga
una probabilidad conocida (no igual a cero) de ser incluido en la muestra

Al utilizar métodos no probabilístico no todos los integrantes tiene probabilidad de ser


Incluidos en la muestra .En estos casos los resultados pueden estar sesgados, lo que
significa que tales resultados de la muestra pueden no ser representativos de la población.

METODOS DE MUESTREO PROBABILISTICO


MUESTREO ALEATORIO SIMPLE.-
Muestra formulada de manera que cada integrante de la población tenga la misma
probabilidad de quedar incluido.

MUESTREO ALEATORIO SISTEMÁTICO.-


Los integrantes de la población se ordenan alfabéticamente, en un archivo según la fecha
en que se reciben, o por algún otro método. Se selecciona al azar un punto de inicio y
después se elija cada K-ésimo elemento de la población para la muestra.

MUESTREO ALEATORIO ESTRATIFICADO


Una población se divide en subgrupos, denominados estratos y se selecciona una muestra
de cada estrato

MUESTREO POR CONGLOMERADOS:


Se emplea a menudo para reducir el costo de muestrear una población dispersa en un área
geográficamente grande.

CALCULO DEL TAMAÑO DE LA MUESTRA

Cuando se quiere determinar el tamaño de una muestra se debo tomar en cuenta los
siguientes factores: el tipo de muestreo, el parámetro a estimar el error muestral admisible,
la variancia poblacional.

Parámetro.- es una medida de resumen que describe una característica de toda una
población
Estadístico.- es una medida de resumen que se calcula para describir una característica de
la muestra

ERROR DE MUESTREO

Diferencia entre un estadístico de muestra y su parámetro de población correspondiente.

NIVEL DE CONFIANZA

Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información


que queremos recoger está distribuida según una ley de probabilidad

DETERMINACION DEL TAMAÑO DE MUESTRA PARA POBLACIONES INFINITAS


(MÁS DE 100 000 INDIVIDUOS)

104
Apuntes de clase Estadística General

Se pueden presentar dos situaciones:

Para caso de media muestral

𝒁𝟐 𝝈 𝟐 𝒁𝟐 𝝈 𝟐
n═ 𝟐 ═
(𝑿−𝝁) (𝒆)𝟐

Donde:

n = número de elementos que debe tener la muestra

α = Riesgo o nivel de significación

Z = Puntuación de acuerdo a α

𝑥 = Promedio muestral

µ = Promedio de población

𝑥 − 𝜇 = e = error

Ejemplo
1.- El gerente de personal de una empresa grande desea estimar, con una confianza del
95%, el tiempo promedio de capacitación que recibieron los empleados de la compañía y
desea que el error de estimación no rebase la 0,5 media hora (30 minutos): Con base en
resultados de estudios anteriores, estima que la desviación estándar del tiempo de
capacitación de los empleados es de 3 horas .Cual será el tamaño de muestra para el
estudio.
𝑍2 𝜎2
n═ 2
(𝑋−𝜇)

𝑍2𝜎2 1,962 32
n═ (𝑒)2
= = 138,30
0,52

2.-Una famosa cadena de hoteles desea desarrollar un intervalo de confianza del 99% para
estimar el número promedio de habitaciones ocupadas cada noche en sus sucursales
de toda la nación. ‘¿Cuántas noches deben incluirse en la muestra si se puede tolerar
un error de 50 habitaciones y una muestra piloto revela una desviación estándar de 165
habitaciones?

𝑍2𝜎2
n= 2
(𝑋−𝜇)

2,582 𝑥 1652
n= = 73 noches
502

Cuando se incluye el factor de corrección finita

𝑁𝑍 2 𝜎 2
n=
𝑒 2 (𝑁 −1)+ 𝑍 2 𝜎 2
105
Apuntes de clase Estadística General

Ejemplo

Un gerente de personal de una empresa que tiene 3 000 empleados desea estimar el tiempo
promedio que les lleva a sus trabajadores trasladarse entre sus casas y la empresa. Desea
construir un intervalo de confianza de 95% y que la estimación esté dentro de un minuto
alrededor de la media verdadera: a través de una muestra piloto se sabe que la varianza de
los tiempos es de 30 minutos. Determine el tamaño de la muestra que se requiere para la
estimación.

𝑁𝑍 2 𝜎 2
n=
𝑒 2 (𝑁 −1)+ 𝑍 2 𝜎 2

3000(1,96)2 (30)
n= = 111,02
12 (3000 −1)+(1,96)2 (30)

Si deseamos estimar una proporción de una población a partir de una muestra,


puede presentarse dos situaciones

a.- Para caso de estimar una proporción de sujetos que posee una característica a través
de estudios previos
𝒛𝟐 𝒑𝒒
n═
(𝒑−𝑷)𝟐

Donde:

n = número de elementos que debe tener la muestra

α = Riesgo o nivel de significación

Z = Puntuación de acuerdo a α

P = porcentaje estudiado

q = 100 - p

p – P = e = error permitido

Ejemplo:

¿Cuántos sujetos debe tener una muestra si se desea estimar la proporción de sujetos que
opinan de una determinada manera al nivel de confianza del 99% y un error de estimación
del 5% sabiendo que p es el 25%?

z2 pq
n═
(p−P)2

106
Apuntes de clase Estadística General

2,962 (25)(75)
𝑛= = 657,12 = 658
52

b.- Que desconozcamos la proporción de sujetos.-En este caso se asume p= 0,50 y

q= 0,50

EJEMPLO:

¿Qué número de sujetos debe tener una muestra si se desea estimar la proporción de
sujetos que posee una determinada característica al nivel de confianza del 99,7% y error
admitido del 2 %?

z2 pq
n═
(p−P)2

2,962 (50)(50)
n= = 5476
22
DETERMINACION DEL TAMAÑO DE MUESTRA PARA POBLACIONES FINITAS
(MENOS DE 100 000 INDIVIDUOS)

Se pueden presentar dos situaciones

𝑍 2 𝑝𝑞𝑁
n=
(𝑝 −𝑃)2 (𝑁 −1) + 𝑍 2 𝑃𝑄

Donde
N = Es el tamaño de la población

α = Riesgo o nivel de significancia

Z = Puntuación correspondiente a α

P= Porcentaje estudiado

Q= 100 – P

(p – P) =e = Error permitido

.Ejemplo

Se desea calcular el número de sujetos necesarios para realizar una investigación en una
provincia en la que 60 000 alumnos terminaron tercero de secundaria. Se establece un nivel
de confianza del 95,44% y el margen de error es del 3% Estudios anteriores indican que el
50% de los alumnos del tercero de secundaria optan por la Universidad

𝑍 2 𝑝𝑞𝑁
n═
(𝑝 –𝑃)2 (𝑁 −1) + 𝑍 2 𝑃𝑄

107
Apuntes de clase Estadística General

4 𝑥 50 𝑥 50 𝑥 60000
n═
9(60000−1)+4 𝑥50 𝑥 50

n= 1090,93 =1091

Bibliografía:

- Alvarado Pintado Luis y Agurto Mejía Hugo. (2009) Estadística para Administradores
y Economía con aplicaciones en Excel. Editorial San Marcos E.I.R.L. Perú
- Di Rienza Julio Alejandro, Casanoves Fernando, Gonzales Laura Alicia, Tablada
Elena Margot, Diza María del Pilar, Robledo Carlos Walter, Balzarini Mónica Graciela
(2008) Estadística para las ciencias agropecuarias. Séptima edición. Argentina
- Toma Inafuko Jorge (2014) Estadística aplicada segunda parte. Segunda edición.
Universidad del Pacifico. Lima
- Martínez Bencardino Ciro (2013) Estadística y Muestreo. Décima tercera edición.
Bogotá

108

You might also like