Apuntes Estadistica

Capı́tulo 1
Estadı́stica Descriptiva
1.1. Antecedentes
Estadı́stica es un conjunto de métodos y técnicas para recolectar, resumir, clasificar, analizar e inter-
pretar la información con respecto a una caracterı́stica, materia de estudio o investigación. La estadı́stica
es considerada como una de las ciencias de gran utilidad en lo económico, social y natural.La estadı́stica
involucra tres áreas:
Diseño: Planeamiento y desarrollo de la investigación.
Descripción: Resumen y exploración de datos.
Inferencia: Hacer predicciones generalizaciones de caracteristicas de una población en base a la infor-
mación de una muestra de la población.
1.1.1. Definiciones previas

Población: Conjunto de elementos, donde se obtiene la información de un fenómeno o experimento en
estudio.
Muestra: Subconjunto de la población, de menor tamaño, en el cual se recolectan los datos. En general
deberı́a ser representativa de la población en estudio, para esto cada elemento de la muestra debe ser
elegido aleatoriamente (al azar), de tal manera que cada elemento de la población tenga la misma posi-
bilidad de ser elegido.
Paraámetro: Medida de resumen calculada sobre la población.
Estadı́stico: Medida de resumen calculada sobre la muestra.

Ejemplo 1.1.1. Una empresa minera de la Zona Norte de Chile realizó un estudio de la producción
promedio de cobre por dı́a del año 2018. El estudio consideró 60 dı́as laborales elegidos aleatoreamente
del total de dı́as laborales del año 2018. La producción promedio de cobre por dı́a obtenida fue de 560
toneladas.
Población: ...........................................................................................................
Muestra: ..............................................................................................................
Parámetro: ...........................................................................................................
Estadı́stico: ..........................................................................................................
1.1.2. Caracterı́sticas de los conjuntos de Datos

Unidad de análisis: Objeto bajo estudio, el cual puede ser una persona, una familia, un paı́s, una
región, una institución o en general, cualquier objeto.
Variable: Caracterı́stica cualesquiera de la unidad de análisis que interese registrar, la que en el momento
de ser registrada puede ser transformada en un número.
Valor de una variable: Observación o medición, número o termino que describe a la caracteréstica de
interés en una unidad de observación particular.
Caso o registro: Conjunto de mediciones realizadas sobre una unidad de análisis.
1
Ejemplo 1.1.2. En la empresa manufacturera “Papeles” hizo un análisis socieconómico de sus traba-
jadores basado en una muestra de 25 trabajadores. Los datos obtenidso se registraron de la siguiente
forma:
Unidad de análisis: ..........................................

Varibles: ...................................................................................................................................
1.1.3. Tipos de Variable

Variable Caulitativa: Este tipo de variable representa una cualidad o atributo que clasifica a cada caso
en una de varias categorı́as.
Variable Cuantitativa: Este tipo de variable se puede medir, cuantificar o expresar numéricamente.
1.2. Organizació de Datos

Existen datos que pueden ser de mucha utilidad a diferentes profesionales en la toma de decisiones, para
resolver problemas o para mostrar resultados de investigaciones. Una vez que se haya recogido toda la
información, se procede a crear una base de datos, donde se registran todos los datos obtenidos. Algunas
veces, si los datos son muy complicados, se codifican, esto quiere decir que se le coloca una palabra clave
que identifica un tı́tulo muy largo. Cuando ya está elaborada la base de datos se parece a una tabla. Para
presentar de una forma simple, legible y ordenada los datos se puede utilizar tablas o gráficos.
2
1.2.1. Tabla de distribución de frecuencias
La estructura de la tabla de distribución de frecuencias contempla 5 columnas y k + 1 filas, donde k
corresponde al número de categorı́as o número de intervalos de clase de la variable.
Titulo (Aquı́ se debe indicar claramente lo que se está tabulando, considerando toda la imformación
posible)
Variable fi hi Fi Hi
x1 f1 h1 F1 H1
.. .. .. .. ..
. . . . .
xi fi hi Fi Hi
.. .. .. .. ..
. . . . .
xk fk hk Fk Hk
fi : Frecuencia absoluta, corresponde al número de observaciones en la categorı́a i o en el intervalo i.
hi = fni : Frecuencia relativa, n es el tamaño de la muestra.
Fi : Frecuencia absoluta acumulada, corresponde al número de observaciones menores o iguales al
valor observado en la i-ésima categorı́a o menores o iguales al lı́mite superior del i-ésimo intervalo de
clase.
Hi = Fni : Frecuencia relativa acumulada.
Observación 1. Para construir las tablas y los gráficos utilizaremos el Software estadı́stico R.
1.2.2. Gráficos
Gráfico circular o de sectores. Denominado también grÃ¡fico de torta, se utiliza para mostrar por-
centajes y proporciones. El número de elementos comparados dentro de un gráfico circular no deben ser
más de 7. Una manera sencilla de diferenciar los segmentos es sombreándolos con colores contrastantes.
Gráfico de barras. Se emplea cuando la variable independiente es categórica. Cada barra sólida, ya sea
vertical u horizontal representa un tipo de dato. Cuando es necesario representar divisiones de datos se
utiliza un gráfica de barras subdivididas.
Histograma de Frecuancias. Es útil para mostrar la distribución de una única variable de escala.
Los datos se agrupan y se resumen utilizando el estadı́stico de porcentaje o recuento. Una variante del
histograma es el polı́gono de frecuencias, que es similar a un histograma normal pero con la diferencia de
que se utiliza el elemento gráfico de área en vez del elemento gráfico de barra.
Diagrama de caja. Es un tipo de gráfico que nos permite interpretar los datos para las variables, a
través de cuál podemos observar cuartiles, valores mı́nimo y máximo, mediana y los valores atı́picos. Se
presenta como una caja con 2 prolongaciones y unos puntos y estrellas - valores atı́picos y extremos.
Gráfico de puntos y lı́neas. Este tipo de gráfico se emplean generalmente para resumir el comporta-
miento de las categorı́as de una o más variables. Su principal ventaja radica en que tienden a enfatizar
el flujo o los movimientos de los datos, por lo que se suelen utilizar para representar datos a lo largo del
tiempo y por tanto, pueden usarse para observar tendencias; a su vez estos gráficos nos permiten exaltar
los valores de la función de resumen empleada como el Recuento, Porcentaje, Media, etc.
Diagrama de dispersión. Es útil para representar datos multivariantes. Pueden ayudar a determinar
posibles relaciones entre las variables de escala. Un diagrama de dispersión simple utiliza un sistema de
coordenadas 2-D para representar dos variables. Un diagrama de dispersión 3-D utiliza un sistema de
coordenadas 3-D para representar tres variables.
Ejemplo 1.2.1. La empresa de rentas de automóviles “Car7&Aut” a nivel nacional decide realizar un
estudio sobre: el rendimiento, el número de reparaciones anuales y el consumo mensual de combustible
de sus autos. Para esto se eligió una m.a de 78 automóviles, , obteniendo los resultados proporcionados
en Datosclase.txt o Datosclase.xlsx.
3
Tabla 1.1: Rendimiento de 78 automóviles de la empresa de rentas “Car7&Aut”
Rendimiento Número de automóviles Porcetaje de automóviles Número acum. de automóviles Porcetaje acum. de automóviles
Malo 22 0.2820 22 02820
t Regular 23 0.2949 45 0.5769
Bueno 19 0.2436 64 0.8205
Excelente 14 0.1795 78 1
Figura 1.1: Rendimiento de 78 automóviles de la empresa de rentas “Car7&Aut”
Tabla 1.2: Número de reparaciones de 78 automóviles de la empresa de rentas “Car7&Aut”

Número de reparaciones Número de automóviles Porcentaje de automóviles Número acum. de automóviles Porcentaje acum.de automóviles
0 11 0.1410 11 0.1410
1 18 0.2308 29 0.3718
2 23 0.2949 52 0.6667
3 15 0.1923 67 0.8590
4 7 0.0897 74 0.9487
5 4 0.0513 78 1
Figura 1.2: Número de reparaciones de 78 automóviles de la empresa de rentas “Car7&Aut”
Tabla 1.3: Consumo mensual de combustible de 78 automóviles de la empresa de rentas “Car7&Aut”

Consumo Número de automóviles Porcentaje de automóviles Número acum.de automóviles Porcentaje acum. de automóviles
20.8 - 25.4 7 0.0897 7 0.0897
25.4 - 30.0 11 0.1410 18 0.2308
30.0 - 34.6 10 0.1282 28 0.3590
34.6 - 39.2 16 0.2051 44 0.5641
39.2 - 43.8 10 0.1282 54 0.6923
43.8 - 48.4 13 0.1667 67 0.8590
48.4 - 53.0 6 0.0769 73 0.9359
53.0 - 57.6 5 0.0641 78 1
4
Figura 1.3: Consumo mensual de combustible de 78 automóviles de la empresa de rentas “Car7&Aut”
Figura 1.4: Gráfico de caja del consumo mensual de combustible de 78 automóviles de la empresa de
rentas “Car7&Aut”
1.3. Medidas de Resumen o estadı́grafos

Las medidas de resumen o estadı́grafos son valores que resumen el comportamiento de las observaciones
de una variable, describen la distribución de la variable con respecto a posición, dispersión, simetrı́a y
apuntamiento.
1.3.1. Medidas de resumen de posición

Las medidas de resumen de posición sirven para observar en que parte de la escala de medición tienden
a agruparse las observaciones de una variable.
Estadı́grafo Notación
Pn Definición
Media o x = n1 i=1 xi Es el valor promedio de los valores observados en la muestra. Se
promedio obtiene sumando todos los valores y dividiendo por el número
aritmético total de datos.
Moda Md Es el valor de la variable que más se repite en un grupo de
observaciones de una variable. (Pueden existir una, dos,, ...
modas)
Mediana Me Es el valor que cumple que la mitad de valores están por encima
y la otra mitad por debajo. Para calcular la mediana debemos
ordenar los valores de menor a mayor. El valor de la mediana en
el valor de la observación central, en el caso que se tengan dos
observaciones centrales, el valor de la mediana es el promedio
de estos valores.
Percentil Pk En un grupo de observaciones ordenadas de menor a mayor, el
percentil k, es el valor de la variable que satisface las siguien-
tes condiciones: “No más del k % de las observaciones de la
variable son inferiores a él” o “No más del (100 − k) % de las
observaciones de la variable son superiores a él”. (P5 0 = M e).
5
1.3.2. Medidas de resumen de dispersión
Describen un grupo de observaciones de una variable en función de la dispersión de los ı́tems incluidos
dentro de ese grupo. Es decir describen cuan dispersas o variables son las observaciones de una variable.
Estadı́grafo Notación Definición

1
Pn 2
Varianza Sx2 = n−1 i=1 (xi − x) Es una medida que representa la variabilidad de una
serie de datos respecto a su media
Desviación Sx Es un ı́ndice numérico de la dispersión de un conjunto
estándar de datos (o población). Mientras mayor es la desviación
estándar, mayor es la dispersión de la muestra (pobla-
ción). La desviación estándar mide el grado de disper-
sión o variabilidad.
Sx
Coeficiente C.Vx = |x| Es una medida estadı́stica que nos informa acerca de la
de Variación dispersin relativa de un conjunto de datos. Por lo general
se expresa en porcentaje para su mejor comprensión.
xo −x
Puntaje tı́pi- Z(xo ) = Sx Es el valor que indica la posición relativa de una obser-
co vación respecto al promedio.
• Z(xo ) = 0, se tiene xo = x.
• Z(xo ) < 0, el valor observado de la variable, estarı́a
bajo el promedio en |Z(xo )| desviaciones estándares.
• Z(xo ) > 0, el valor observado de la variable, estarı́a
sobre el promedio en Z(xo ) desviaciones estándares.
Rango R Es el intervalo entre el valor máximo y el valor mı́nimo;

por ello, comparte unidades con los datos. Permite obte-
ner una idea de la dispersión de los datos, cuanto mayor
es el rango, más dispersos están los datos (sin considerar
el efecto de los valores extremos).
Recorrido in- R.Ix = P75 − P25 Mide la variabilidad del 50 % de las observaciones de
tercuartil una variable, ubicadas en la franja central de todas las
observaciones ordenadas de menor a mayor.
1.3.3. Medidas de resumen de simetrı́a

Las medidas de resumen de simetrı́a o asimetrı́a describen como se distribuye la variable en torno a un eje
de simetrı́a. Este eje de simetrı́a se fija en una recta que pase por la media aritmética de la distribución. La
asimetrı́a también se utiliza para comparar distribuciones por que se pretende que estas medidas carezcan
de unidades. Por medio del coeficiente de asimetrı́a de Fisher (γ1 ), que se basa en las desviaciones de los
valores observados respecto a la media podemos determinar el tipo de asimetrı́a de la distribución de los
datos. Pn 3
i=1 (xi −x)
n
γ1 =
Sx3
• γ1 < 0, indican asimetrı́a negativa, por lo que • γ1 > 0, por lo que los valores se tienden a reunir
los valores se tienden a reunir más en la parte más en la parte derecha que en la izquierda de la
izquierda que en la derecha de la media. media.
• γ1 = 0, existe aproximadamente la misma canti-

dad de valores a los dos lados de la media. Este
valor es difı́cil de conseguir por lo que se tien-
de a tomar los valores que son cercanos ya sean
positivos o negativos (±0,5).
6
1.3.4. Medidas de resumen de apuntamiento
Las medidas de resumen de apuntamiento o curtosis muestran como se distribuyen los valores centrales de
una variable. Para ello se compara la distribución que se esté analizando con la distribución normal. Estas
medidas indican si la distribución tiene una forma de campana más o menos apuntada que la distribución
normal. Por medio del coeficiente de curtosis (K1 ), podemos identificar si existe una gran concentración de
valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
Pn 4
i=1 (xi −x)
n
K1 = −3
Sx4
• K1 < 0, la distribución se llama platicúrtica y • K1 > 0, la distribución se llama leptocúrtica y
muestra que hay una menor concentración de da- muestra que las observaciones se concentran más
tos en torno a la media y las observaciones se en torna a la media y presentan colas más largas.
agrupan menos y presentan colas más cortas. La La curva serı́a más apuntada que la curva normal.
curva serı́a más achatada que la curva normal.
• K1 = 0, la distribución es mesocúrtica. Al igual

que en la asimetrı́a es bastante difı́cil encontrar
un coeficiente de curtosis de cero (0), por lo que se
suelen aceptar los valores cercanos (±0,5 aprox.).
Ejemplo 1.3.1. Considerando los datos del Ejemplo 1.2.1, determinaremos las medidas de resumen para
las variables cuantitativas.
Número de reparaciones Consumo mensual de combustible

x = 2,013. El número promedio de reparaciones de y = 38,17. ...............................................................
los 78 automóviles es de 2 reparaciones. ................................................................................
M dx = 2. ................................................................. M dy = 35,1. El consumo mensual de combustible
................................................................................. más freceunte de los automóviles de la muestra es
de 35.1 litros.
M ex = 2. El 50 % de los automóviles de la muestra M ey = 37,6. .............................................................
tiene 0, 1 o 2 reparaciones .................................................................................
P3 5 = 1. ................................................................. P6 8 = 43,12. El 68 % de los automóviles de la mues-
............................................................................... tra consumen entre 21.2 y 43.12 litros de combus-
Sx = 1,35. La variabilidad absoluta del número de tible mensualmente.
reparaciones de los aitomóviles de la muestra es de Sy = 9,4. ..................................................................
una reparación. .................................................................................
C.Vx = 0,6723. ......................................................... C.Vy = 0,2463. La variabilidad relativa de los au-
................................................................................. tomóviles de la muestra es del 24.63 %.
Z(4) = 1,47. El automóvil que tiene 4 reparaciones Z(23,9) = −1,52. .......................................................
está sobre el número promedio de reparaciones en ...................................................................................
1.47 unidades de desviación estándar. R.Iy = 46,23 − 30,50 = 15,73. El 50 % de los au-
R.I = 3−1 = 2. ........................................................ tomóviles de la muestra consume entre 30.5 y 46.23
................................................................................. litros de combustible mensualmente.
γ3 = 0,35. La distribución del número de reparacio- γ3 = 0,11. ................................................................
nes de los automóviles de la muestra es asimétrico ................................................................................
positiva. K1 = −0,93. La distribución del consumo de com-
K1 = −0,55. ................................................................bustible de los automóviles de la muestra es pla-
................................................................................. ticúrtica.
Observación 2. Debido a que las variables número de reparaciones y consumo mensual de combustible
fueron observadas en las mismas unidades de análisis, es posible elaborar una conclusión respecto a la
homogeneidad o heterogeneidad de estas unidades de análisis, en base a los coeficientes de variación
obtenidos.
En este caso tenemos
CVx = 0,6723 > CVy = 0,2463,
7
luego la conclusión es: “Los automóviles de la muestra son más homogeneos respecto al con-
sumo mensual de combustible que al número de reparaciones”.
Observación 3. En el caso de una ya variable agrupada en k categorias o k intervalos de clase, donde
se cuanta sólo con la información de la frecuencia o porcentaje asociado a cada categorı́a o intervalo de
clase se cuenta con un procedimiento o una formaula para obtener las medidas de resumen de posición,
dispersión, simetrı́a y curtosis.
k k Pk Pn
1X 1 X 1 i=1 (mi − x)3 1 i=1 (mi − x)4
x= m i fi , Sx2 = (mi − x)2 fi , γ3 = , k1 = − 3,
n i=1 n − 1 i=1 n Sx3 n Sx4
mi , es el valor de la categoria i o el punto medio del i-ésimo intervalo de clase.

fi , es la frecuencia absoluta asociasa a la la categosia i o al i-ésimo intervalo de clase.

fj − fj−1
M dx = xj−1 + cj ,
fj − fj−1 + fj − fj+1
xj−1 , es el lı́mite inferior del intervalo de clase asociado a la máxima frecuencia absoluta fj .
cj , es la amplitud del j-ésimo intervalo de clase. fj−1 , es la frecuencia absoluta ubicada en la (j −1)-ésima
fila.
fj+1 , es la frecuencia absoluta ubicada en la (j + 1)-ésima fila.
Percentil k
Variable agrupada en categorı́as Variable agrupada en intervalos de clase

Paso 1. y Paso 2 Idem. variable agrupada en cate-
Procedimiento gorı́as.
nk
Paso 3.
1. Se calcula 100 . !
nk
2. Selccionar la frecuancia absoluta acumulada que 100 − Fj
Pk = xj−1 + cj
sobrepasa inmediatamente a 100nk
(Fj ). Fj − Fj−1
3. El valor de la categorı́a asociada a (Fj ) es el va- Fj−1 , es la frecuencia absoluta acumulada ubicada
lor del percentil k. en la (j − 1)-ésima fila.
1.4. Procesamiento de datos de una variable bidimensional

Si en cada elemento de la muestra (o población) se observan dos caracterı́sticas (variables), se obtiene n
pares de observaciones de la forma (xi ; yi ), donde:
xi , valor observado de la variable X en el elemento i.
yi , valor observado de la variable Y en el elemento i. Para describir la información de la variable bidi-
mensional (X, Y ), se utiliza una tabla de doble entrada, llamada tabla de asociación o contingencia. La
estructura de la tabla es la siguiente.
Titulo (Aquı́ se debe indicar claramente lo que se está tabulando, considerando toda la imformación
posible)
Y
X Total
y1 ··· yj ··· yr
x1 f11 ··· f1j ··· f1r f1.
.. .. .. .. .. .. ..
. . . . . . .
xi fi1 ··· fij ··· fir fi.
.. .. .. .. .. .. ..
. . . . . . .
xk fk1 ··· fkj ··· fkr fk.
Total f.1 ··· f.j ··· f.r f.. = n
8
fij , frecuencia absoluta, corresponde al número de elementos de la muestra en los que se observa el valor
xi junto con el valor yj .
fi. , frecuencia marginal fila, corresponde al número de elementos de la muestra en los que se observa el
valor xi .
f.j , frecuencia marginal columna, corresponde al número de elementos de la muestra en los que se observa
el valor yj .
1.4.1. Diagrama de dispesión

El gráafico de dispersión es útil para representar datos bivariantes. Pueden ayudar a determinar po-
sibles relaciones entre las variables de escala. Un diagrama de dispersión simple utiliza un sistema de
coordenadas 2-D para representar dos variables observadas en las mismas unidades de análisis.
Ejemplo 1.4.1. Una industria manufacturera realiza un estudio sobre el número de horas extraordinarias
trabajas mensualmente y el número de unidades mensuales producidas por los operarios de una empresa
manufacturera. El estudio se realizo en base a una m.a de 44 operarios. Los resultados obtenidos son
proporcionados en Datosclase2.txt.o en ”Datosclase2.xlsx.
Figura 1.5: Producción mensual v/s número de horas extraordinarias trabajada mensualmente, para una
muetra de 44 operario de una industria manufacturrera
Tabla 1.4: Núumero de horas extraordinaria trabajadas v/s Producción mensual de 44 operarios de una
empresa manufacturera
Número de Producción, en cientos de unidades
Total
horas 1.5-1.7 1.7-1.9 1.9-2.1 2.1-2.3 2.3-2.5
3 4 3 0 0 0 7
4 3 5 3 0 0 11
6 0 3 4 4 1 12
7 1 1 2 1 2 7
8 0 0 0 1 6 7
Total 8 12 9 6 9 44
1.4.2. Distribuciones Marginales

Al considerar el comportamiento (o distribución) de la variable X, independientemente de la variable Y ,
se está hablando de la distribución marginal de X. Análogamente si se considera el comportamiento de
la variable Y independientemente de la variable X, se está hablando de la distribución marginal de Y .
Ejemplo 1.4.2. Las distribuciones marginales pcorrespondientes a los datos del ejemplo 1.4.1 son las
siguientes.
1.4.3. Distribuciones condicionales

Al considerar la distribución de la variable X, para algún (o algunos) valor(es) particular(es) yp , de la
variable Y , se está hablando de la distribución condicional de X dado Y = yp , denotada por X/Y = yp .
9
Tabla 1.5: Distribución marginal del núumero de horas extraordinaria trabajadas
Horas Operarios
3 7
4 11
6 12
7 7
8 7
Tabla 1.6: Distribución marginal de la producción

Producción Operarios
1.5- 1.7 8
1.7 - 1.9 12
1.9 - 2.1 9
2.1 - 2.3 6
2.3 - 2.5 9
Análogamente si se considera el comportamiento de la variable Y , para algún (o algunos) valor(es)

particular(es) xp de la variable X, se está hablando de la distribución condicional de Y dado X = xp ,
denotada por Y /X = xp .
Ejemplo 1.4.3. Para las variables dadas en el ejemplo 1.4.1, podemos dar como ejemplo las siguientes
distribuciones condicionales
Tabla 1.7: Distribución Condicional de X/Y ∈ (1,7, 2,3]

Horas Operarios
3 3
4 8
6 11
7 4
8 1
Tabla 1.8: Distribución condicional de Y /X = 4 o 6

Producción Operarios
1.5- 1.7 3
1.7 - 1.9 8
1.9 - 2.1 7
2.1 - 2.3 4
2.3 - 2.5 1
Observación 4. Las distribuciones marginales y/o condicionales son del tipo unidimensional, por tanto
usando estas distribuciones se pueden construir los gráficos vistos anteriormente y determinar las medidas
de resumen vistas anteriormente.
10
Capı́tulo 2
Probabilidad
2.1. Antecedentes
La probabilidad es una medida de la certidumbre de un suceso o evento futuro y suele expresarse como
un número entre 0 y 1 (o entre 0 % y 100 %).
Una forma tradicional de estimar algunas probabilidades es obtener la frecuencia de un acontecimiento
determinado mediante la realización de experimentos aleatorios, de los que se conocen todos los resultados
posibles, bajo condiciones suficientemente estables. Un suceso puede ser improbable (con probabilidad
cercana a cero), probable (probabilidad intermedia) o seguro (con probabilidad uno).
La teorı́a de la probabilidad es usada en áreas como: estadı́stica, fı́sica, matemática, ciencias, adminis-
tración, contabilidad, economı́a y filosofı́a.
Espacio Muestral. Conjunto de todos los resultados posibles de un experimento o fenómeno en estudio.
Se denota por Ω.
Suceso o evento. Subconjunto del espacio muestral, que contiene a los resultados favorables. En general
los sucesos se denotan por: A, B, ...
Ejemplo 2.1.1. Experimento: “Lanzar un moneda tres veces y observar la cara que da hacia arriba”.
En este caso el espacio muestral es
Ω = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Algunos sucesos asociados a este experimento son:

A: “Que se obtengan tres caras al lanzar la moneda tres veces”.
A = {CCC}
B: “Que se obtenga al menos dos caras al lanzar la moneda tres veces”.
B = {CCS, CSC, SCC, CCC}

C: “Que al lanzar la modena tres veces se obtenga cara en el primer lanzamiento”.
C = {CSS, CSC, CCC}
Observación 2.1.1. Como Ω y φ son subconjuntos de Ω, entonces también son sucesos, llamados:
Ω: Suceso seguro o cierto
φ: Suceso imposible o improbable.
Probabilidad. Es la medida de la ocurrencia de un suceso. Luego si un suceso A ocurre de m1 maneras
y falla de m2 maneras, entonces la probabilidad de la ocurrencia de A, se define por:
m1
P(A) =
m1 + m2
11
Observación 2.1.2. la definición anterior es analoga a la siguiente definición
número de casos favorables #A

P(A) = =
número de casos posibles #Ω
Ejemplo 2.1.2. Usando está definición obtenemos las probabilidades de los sucesos definidos en el ejem-
plo 2.1.1.
1 4 3
P (A) = = 0,125 P (B) = = 0,5 P (C) = = 0,375
8 8 8
Para Ω y φ, tenemos
P (Ω) = 1 P (φ) = 0
2.2. Operatoria entre sucesos

Como los sucesos son conjuntos, se pueden operar entre ellos, usando la operatoria de la teorı́a de con-
juntos. Por tanto si A y B son sucesos asociados a un experimento, entonces se definen los siguientes
sucesos:
1. Ac , “Complemento de A”, es el suceso que ocurre si y solamente si (ssi) no ocurre A.
2. A ∩ B, “A interceptado con B”, es el suceso que ocurre ssi A y B ocurren simultáneamente.
3. A ∪ B, “A unión B”, es el suceso que ocurre ssi ocurre A o ocurre B o ocurren ambos (al menos uno
de ellos ocurre).
4. A − B = A ∩ B c , es el suceso que ocurre ssi ocurre A pero no ocurre B (sólo ocurre A).
5. A ◦ B = (A ∩ B c ) ∪ (B ∩ Ac ), es el suceso que ocurre ssi sólo ocurre A o sólo ocurre B (solamente

ocurre uno de ellos).
Ejemplo 2.2.1. Se extrae una carta de un juego de 52 cartas y se observa si la carta extraida es:
a. Un as b. De la pinta diamantes
Luego los sucesos son:
A: “que la carta extraida sea un as”. (Los elementos del conjunto A, son los cuatro ases).
4
P (A) = 52 = 0,0769
B: “que la carta extraida sea de la pinta diamantes”. (Los elementos del conjunto B, son las 13 cartas
de la pinta diamantes).
13
P (B) = 52 = 0,25
Para estos sucesos tenemos los siguientes sucesos compuestos.
48
Ac : “que la carta extraida no sea un as”, P (Ac ) = 54 = 0,9231.
1
A ∩ B: “que la carta extraida sea un as de diamantes”, P (A ∩ B)= 52 = 0,0192.
12
16
A ∪ B: “que la carta extraida sea un as o de la pinta de diamantes”, P (A ∪ B) = 52 = 0,3077.
15
A ◦ B: “que la carta extraida sea sólo un as o sólo de la pinta de diamantes”, P (A ◦ B) = 52 = 0,2885.
Sucesos mutuamente excluyentes. Dos sucesos A y B se dicen mutuamente excluyentes (m.e) ssi
A ∩ B = φ.
Ejemplo 2.2.2. Si se lanzamos un dado una vez y observamos el número de puntos obtenidos, tenemos
el siguiente espacio muestral:
Ω = {1, 2, 3, 4, 5, 6}
Supongamos que nos interesa determinar la probabilidad de:
1. Obtener un número par de puntos.
2. Obtener un número impar de puntos.

3. Obtener más de 4 puntos.
En este caso los sucesos simples son:
A : que el número de puntos obtenidos sea par, A = {2, 3, 4}

B : que el número de puntos obtenidos sea impar, B = {1, 3, 5}
C : que el número de puntos obtenidos sea mayos que 4, C = {5, 6}
En este caso los sucesos A y B son m.e, ya que A ∩ B = φ. Por otro lado A ∩ C 6= φ y B ∩ C 6= φ,
entonces A y C; B y C no son mutuamente excluyentes.
Observación 2.2.1. La definición de sucesos mutuamente se puede extendar a más de dos sucesos.
2.3. Axiomas y propiedades de probabilidad

Sea Ω el espacio muestral asociado a un experimento y sea P : ζ(Ω) → R, una función, llamada función
de probabilidad, la que satisface los siguientes axiomas:
Axioma 1. P (A) ≥ O, ∀A ⊆ Ω.
Axioma 2. P (Ω) = 1.
Axioma 3. A y B sucesos m.e, entonces P (A ∪ B) = P (A) + P (B).
A partir de estos axiomas podemos demostrar las siguientes propiedades de probabilidad. Propiedades
que permitirán determinar la probabilidad de sucesos “compuestos”(que impliquen alguna operatoria de
sucesos).
Propiedad 1. P (φ) = 0.
Propiedad 2. 0 ≤ P (A) ≤ 1, ∀A ⊆ Ω.
Propiedad 3. P (Ac ) = 1 − P (A), ∀A ⊆ Ω.
Propiedad 4. P (A ∩ B c ) = P (A) − P (A ∩ B).
Propiedad 5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B), ∀A, B ⊆ Ω.
Ejemplo 2.3.1. Sabemos que, la probabilidad que una constructora gane una licitación de fondos para
realizar un gran proyecto inmobiliario es igual a 0,45. La probabilidad que la constructora realice exitosa-
mente el proyecto es igual a 0,72. La probabilidad que al menos se logre uno de los dos objetivos es 0,85.
Calcularemos la probabilidad que:
13
1. La constructora no realice exitosamente el pro-
yecto.
2. La constructora logre ambos objetivos.
3. La constructora gane la licitación pero no realice

exitosamente el proyecto.
4. La constructora sólo logre uno de los dos objeti-

vos.
Primero definimos los sucesos simples:

A: que la constructora gane la licitación, P (A) = 0, 45.
B: que la construtora realice exitosamente el proyecto, P (B) = 0, 72.
P (A ∪ B) = 0, 85.
Luego con está información, podemos determinar las probabilidades.
1. 2.
P (B c ) = 1 − P (B) P (A ∩ B) = P (A) + P (B) − P (A ∪ B)
= 1 − 0, 72 = 0, 45 + 0, 72 − 0, 85
= 0, 28. = 0, 32.
3. 4.
P (A ∩ B c ) = P (A) − P (A ∩ B) P (A o B) = P (A) + P (B) − 2P (A ∩ B)
= 0, 45 − 032 = 0, 45 + 0, 72 − 2(0, 32)
= 0, 13. = 0, 53.
2.4. Dependencia e independencia entre sucesos

Probabilidad Condicional. Sean A y B dos sucesos, tales que P (A) 6= 0. Entonces la probabilidad de
que ocurra B, una vez que ya ocurrió A. Es decir la probabilidad condicional de B dado A, se define por:
P (A ∩ B)
P (B/A) = , (2.4.1)
P (A)
donde B, es llamado el sucesso de interes y A el suceso condición.
Ejemplo 2.4.1. Usando la información dada en el Ejemplo 2.3.1.

1. Calcularemos la probabilidad que la constructora realice exitosamente el proyecto, dado que ganó la
licitación.
2. En el caso que la empresa constructora no realice exitozamente el proyecto, ¿cuál es la probabilidad
que haya ganado la licitación?
Resolución
1.
P (A ∩ B)
P (B/A) =
P (A)
0, 32
=
0, 45
= 0, 7111.
14
2.
P (A ∩ B c )
P (A/B c ) =
P (B c )
0, 13
=
0, 28
= 0, 4643.
Ley del producto. Si en la ecuación 2.4.1 se despeja P (A ∩ B), se obtiene:
P (A ∩ B) = P (A)P (B/A), Ley del producto para dos sucesos dependientes.
Observación 2.4.1. La ley del producto se puede extender para 3 o más sucesos. Por tanto si tenemos
A1 , A2 , . . . , An , n sucesos dependientes, entonces:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 /A1 ) · · · P (An /A1 ∩ A2 ∩ . . . ∩ An−1 ) (2.4.2)
Observación 2.4.2. Cuando realizamos un experimento sin reposición (sin reemplazo), se generan su-
cesos dependientes.
Ejemplo 2.4.2. En una urna hay 5 fichas rojas, 4 fichas azules y 3 fichas verdes. De la urna se extraen
una a una sin reposición 4 fichas. Calcularemos la probabilidad que:
1. La primera y segunda ficha extraı́das sean rojas, la tercera sea verde y la cuarta sea azul.
2. Se extraigan dos fichas rojas, una ficha verde y una ficha azul.
3. Se extraiga a lo menos 2 fichas verdes.
Resolución
1.
R1 : que la primera ficha extraı́da sea roja. V3 : que tercera ficha extraı́da sea verde.
R2 : que la segunda ficha extraı́da sea roja. A4 : que la cuarta ficha extriı́da sea azul.
P (R1 ∩ R2 ∩ V3 ∩ A4 ) = P (R1 )P (R2 /R1 )P (V3 /R1 ∩ R2 )P (A4 /R1 ∩ R2 ∩ V3 )

5 4 3 4
=
12 11 10 9
2
=
99
= 0, 0202.
2.
X: número de fichas rojas extraı́das.
Y : número de fichas verdes extraı́das.
Z: número de fichas azules extraı́das.

5 3 4
2 1 1
P (X = 2, Y = 1, Z = 1) =
12
4
10· 3· 4
=
220
6
=
11
= 0, 5455
15
3.
P (Y ≥ 2) = P (Y = 2) + P (Y = 3)

3 9 3 9
2 2 3 1
= +
12 12
4 4
3· 36 1· 9
= +
220 220
108 + 9
=
220
117
=
220
= 0, 5318
Independencia entre sucesos. Sean A y B dos sucesos, si la probabilidad de ocurrencia del suceso A,
no afecta la probabilidad de ocurrencia del suceso B, se dice que B es independiente de A. Luego,
P (B/A) = P (A)
Por lo tanto, ahora tenemos que

P (A ∩ B) = P (A)P (B) (2.4.3)
Consecuentemente podemos concluir:
I. A y B son sucesos mutuamente independientes (m.i) ⇔ P (A ∩ B) = P (A)P (B).
II. P (A ∩ B) 6= P (A)P (B) ⇒ A y B no son m.i, es decir son sucesos dependientes.
Observación 2.4.3. Para A1 , A2 , . . . , An , n sucesos independientes, entonces:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 ) · · · P (An ) (2.4.4)
Observación 2.4.4. Cuando realizamos un experimento con reposición (con reemplazo), se generan
sucesos independientes.
Ejemplo 2.4.3. A cuatro alumnos de Cálculo II, José, Marı́a, Luis y Carlos se les pide resolver un
problema de cálculo de área, en forma independiente. La probabilidad que José resuelva el problema es
igual a 0,6. La probabilidad que Marı́a resuelva el problema es igual a 0,7. La probabilidad que Luis
resuelva el problema es igual a 0,55 y la probabilidad que Carlos resuelva el problema es igual a 0,68.
Calcularemos la probabilidad que
1. Sólo Marı́a resulva el problema.
2. A lo más tres de los cuatro alumnos resulvan el problema.
3. El problema sea resuelto.
Primeros definimos los sucesos simples involucrados.
A: que José resulva el problema. P (A) = 0, 6.
B: que Marı́a resulba el problema. P (B) = 0, 7.
C: que Luis resuelva el problema. P (C) = 0, 55.
D: que Carlos resuelva el problema. P (D) = 0, 68.
1.
P (Ac ∩ B ∩ C c ∩ Dc ) = P (Ac )P (B)P (C c )P (Dc )

= 0, 4· 0, 7· 0, 45· 0, 32
= 0, 0403
16
2.
X: número de alumnos que resuelve el problema.
P (X ≤ 3) = 1 − P (X > 3)
= 1 − P (x = 4)
= 1 − P (A ∩ B ∩ C ∩ D)
= 1 − P (A)P (B)P (C)P (D)
= 1 − 0, 6· 0, 7· 0, 55· 0, 68
= 1 − 0, 1571
= 0, 8429
Ejercicio 2.4.1. Sean A y B dos sucesso m.i, demuestre que
1. A y B c son m.i.
2. Ac y B c son m.i.
2.5. Teorema de probabilidad Total y Teorema de Bayes

Sean A1 , A2 , . . . , An ; n−sucesos mutuamente excluyentes, tales que A1 ∪ A2 ∪ . . . ∪ An = Ω.
Luego P (A1 ∪ A2 ∪ . . . An ) = P (Ω)
P (A1 ) + P (A2 ) + · · · P (An ) = 1

Xn
P (Ai ) = 1
i=1
Sea B otro suceso que depende de cada uno de los sucesos Ai . Entonces
n
X
P (B) = P (Ai )P (B/Ai ) Ley de probabilidad total
i=1
Por otro lado

(P (Aj )P (B/Aj )/
P (Aj /B) = Ley de Bayes
P (B)
Ejemplo 2.5.1. En la Industria Automotriz “Fast”, el número de funcionarios de la secciones: Produc-

ción, Ventas, Administración está en la razón de 8:5:3. Además se sabe que 10,4 % de los funcionarios
de la sección Producción llevan más de 10 años en la Industria “Fast”, mientras que el 8,5 % y el 12,7 %
de los funcionarios de las secciones Ventas y Administración respectivamente, llevan más de 10 años en
la Industria “Fast”.
Primero definiremos claramente los sucesos simples involucrados en el problema.
8
A1 : que el funcionario sea de la sección Producción. P (A1 ) = 16 = 0, 5.
5
A2 : que el funcionario sea de la sección Ventas. P (A2 ) = 16 = 0, 3125.
3
A3 : que el funcionario sea de la sección Administración. P (A3 ) = 16 = 0, 1875.
B: que el funcionario lleve máa de 10 años en la industria “Fast”.
P (B/A1 ) = 0, 104, P (B/A2 ) = 0, 085 y P (B/A3 ) = 0, 127.
Luego
P (B) = P (A1 )P (B/A1 ) + P (A2 )P (B2 ) + P (A3 )P (B/A3 )

= 0, 5· 0, 104 + 0, 3125· 0, 085 + 0, 1875· 0, 127
= 0, 1024.
17
Por otro lado si un funcionario lleva más de 10 años en la Industria “Fast”, ¿cuál es la probabilidad que
sea de la sección Ventas?
P (A2 )P (B/A2 )
P (A2 /B) =
P (B)
0, 3125· 0, 085
=
0, 1024
= 0, 2594.
18
Capı́tulo 3
Variable Aleatoria y Distribución de

Probabilidad
3.1. Antecedentes
En Teorı́a de Probabildiad y Estadı́stica, la distribución de probabilidad de una variable aleatoria es una
función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra.
La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los
sucesos es el rango de valores de la variable aleatoria.
En este capitulo trataremos de formalizar numéricamente los resultados de un fenómeno aleatorio. Por
tanto, una variable aleatoria es un valor numérico que corresponde a un resultado de un experimento
aleatorio. Algunos ejemplos son: número de caras obtenidas al lanzar seis veces una moneda, número de
llamadas que recibe un celular durante una hora, tiempo de fallo de una componente eléctrica, etc.
El estudio que realizaremos es análogo al que se hace con las variables estadı́sticas en Estadı́stica Descrip-
tiva. Po tanto, retomaremos el concepto de distribución y las caracterı́sticas numéricas, como la media y
varianza. El rol que realiza la frecuencia relativa ahora lo realiza la probabilidad. Esto nos proporcionará
aspectos y propiedades referentes a fenómenos aleatorios que permiten modelos estudiados frecuentemente
en la actualidad.
3.2. Variable Aletoria

La variable aleatoria (v.a) es una función definida de ζ(Ω) sobre el conjunto de números reales, de tal
manera que la imagen inversa de un conjunto de números reales es un suceso. Es decir:
X : ζ(Ω) ⇒ R
A X(A) = x
Una variable aleatoria X se dice que es discreta (v.a.d.), si los números asignados a los sucesos elementales
deΩ son puntos aislados. Sus posibles valores constituyen un conjunto finito o infinito numerable. En
cambio la variable aleatoria X será continua (v.a.c.), si los valores asignados pueden ser cualesquiera,
dentro de ciertos intervalos, es decir, puede tomar cualquier valor de R.
Ejemplo 3.2.1. Se lanza una moneda cuatro veces y se observa el número de caras obtenidas en los
cuatro lanzamientos.
En este caso el espacio muestral asociado a este experimento es:
Ω ={CCCC, CCCS, CCSC, CSCC, SCCC, CCSS, CSSC, SSCC,

CSCS, SCSC, SCCS, CSSS, SCSS, SSCS, SSSC, SSSS}
La variable aleatoria es
X: número de caras obtenidos al lanzar la moneda cuatro veces, luego X = 0, 1, 2, 3, 4. Es decir X es una
19
v.a.d. Las probabilidades asociadas a los valores de X son:
1 3 6
P (X = 0) = = 0, 0625 P (X = 1) = = 0, 1875 P (X = 2) = = 0, 375
16 16 16
3 1
P (X = 3) = = 0, 1875 P (X = 4) = = 0, 0625
16 16
En la siguiente tabla resuminos estas probabilidades.
x 0 1 2 3 4
P(X=x) 0,0625 0,1875 0,375 0,1875 0,0625
3.3. Función Dsitribución de Probabilidad

La función distribución de probabilidad (f.d.p.) es una función que a cada valor de la v.a. X le asigna
una probabilidad, ya sea mediante su inclusión en una tabla de valores o mediante una función real. Es
decir:
f :RecX → [0, 1]
x f (x) = P (X = x)
La función f es una función distribución de probabilidad ssi satisface las siguientes condiciones:
i. f (x) ≥ 0; ∀x. (3.3.1)

 Pn
 i=1 f (xi ) = 1; si X es una v.a.d.
ii. (3.3.2)
 R∞
−∞
f (x)dx = 1 si X es una v.a.c.
Ejemplo 3.3.1. En el ejemplo 3.2.1, podemos observar que los valores de las probabilidades asociadas a
cada valor de la v.a.d. X, cumplen las condicionae dadas anteriormente luego la función dada en la tabla
es una función distribución de probabilidad.
Observación 3.3.1. Si X es una v.a.d., su f.d.p. es llamada función de cuantı́a. En cambio si X es
v.a.c. su f.d.p. es llamada función de densidad.
Observación 3.3.2. Si X es v.a.c., entonces la probabilidad que x ∈ [a, b] es igual al área bajo la gráfica
de f (x), entre a y b, es decir
Ejemplo 3.3.2. La venta diaria de un artı́culo se comporta según la siguiente función de cuantı́a,
f (x) = C(6 − x); con x = 0, 1, 2, 3, 4, 5
1. Determinar el valor de la constante C.

2. Calcular la probabilidad que la venta diaria del artı́culo sea de a lo más 3 unidades, sabiendo que esta
venta es de por lo menos un artı́culo.
20
Resolución
1. X: número de artı́culos vendidos diariamente.
Como f (x) es función de cuantı́a, entonces:
f (0) + f (1) + f (2) + f (3) + f (4) + f (5) = 1

6C + 5C + 4C + 3C + 2C + C = 1
21C = 1
1
C=
21
Por lo tanto
x 0 1 2 3 4 5
6 5 4 3 2 1
f (x) 21 21 21 21 21 21
2.
P (X ≤ 3 ∩ X ≥ 1)
P (X ≤ 3/X ≥ 1) =
P (X ≥ 1)
P (1 ≤ X ≤ 3)
=
1 − P (X < 1)
f (1) + f (2) + f (3)
=
1 − f (0)
12
21
= 15
21
12
=
15
= 0, 8
Ejemplo 3.3.3. En una industria quı́mica, la venta mensual de cierto producto, en millones de pesos,
se distribuye de acuerdo a la siguiente función de densidad.

 AX; 0≤x<2
f (x) = 1 − Bx; 2 ≤ x < 4
0; e.o.c

1. Determine las constantes A y B, sabiendo que la probabilidad que la venta mensual del producto sea
superior a $3.000.000 es igual a 0,125.
2. Determine la probabilidad que la venta mensual sea superior a $1.500.000, pero inferior a $3.500.000.
Resolución
1. X: venta mensual de cierto producto, en millones de pesos.
i. f (x) es función de densidad entonces: ii. Por otro lado:

Z ∞
P (x > 3) = 0, 125
f (x)dx = 1
−∞
Z 4
Z 2 Z 4 (1 − Bx)dx = 0, 125
Axdx + (1 − Bx)dx = 1 3
4
x2
0 2

x 2 2

x2
4 x−B = 0, 125
A + x−B =1 2 3
2 0 2 2 4 − 8B − 3 + 4, 5B = 0, 125
2A + 2 − 6B = 1 0, 875 = 3, 5B
2A − 6B = −1 (I) B = 0, 25 (II)
21
Reemplazando (II) en (I), obtenemos:
2A − 6(0, 25) = −1
2A = −1 + 1, 5
2A = 0, 5
A = 0, 25
2.
Z 2 Z 3,5
P (1, 5 ≤ x ≤ 3, 5) = 0, 25xdx + (1 − 0, 25x) dx
1,5 2
2 3,5
= 0, 125x2 1,5 + x − 0, 125x2 2

= 0, 125(4 − 2, 25) + 3, 5 − 2 − 0, 125(12, 25 − 4)

= 0, 21875 + 1, 5 − 1, 03125
= 0, 6875
3.3.1. Función Distribución Acumulada

Sea X una v.a. con función distribución de probabilidad f , entonces se define la función distribución
acumulada o acumulativa (F.D.A.) de f , por:
 P
 xi ≤x f (xi ); si X es v.a.d.
F (x) = P (X ≤ x) = (3.3.3)
 Rx
−∞
f (t)dt; si X es v.a.c.
Ejemplo 3.3.4. La duración de un artı́culo, en miles de horas, se comporta según la función de densidad:
1
f (x) = 10 (6 − x); 0 ≤ x ≤ 2
0; e.o.c.
1. Determinar la F.D.A. de la v.a. X.
2. Usando la F.D.A., calcular la probabilidad que un artı́culo dure:
a. A lo más 1000 horas.
b. Al menos 1570 horas.
c. Entre 1500 y 1700 horas.
Resolución
1. X: duración de un artı́culo, en miles de horas. i. Si x < 0, F (x) = 0.
ii. Si 0 ≤ x < 2, tenemos:
Z x
1
F (x) = (6 − t)dt
0 10
x
t2

1
= 6t −
10 2 0
x2

1
= 6x −
10 2
1
= (12x − x2 ).
20
ii. Si x ≥ 2, F (x) = 1.
Por lo tanto 

 0; x < 0.



1
F (x) = P (X ≤ x) = 20 (12x − x2 ); 0≤x<2




1; x ≥ 2.

2.
22
a. b.
P (X ≤ 1) = F (1) P (X ≥ 1, 57) = 1 − F (1, 57)
1 1
= (12 − 1) = 1 − (18, 84 − 2, 4649)
20 20
11 16, 3751
= =1−
20 20
= 0, 55 = 0, 1812
c.
P (1, 5 ≤ x ≤ 1, 7) = F (1, 7) − F (1, 5)

1 1
= (20, 4 − 2, 89) − (18 − 2, 25)
20 20
1, 76
=
20
= 0, 088
3.3.2. Esperanza y Varianza

Esperanza de una v.a.
La esperanza o valor esperado de una v.a. X, es el promedio de todos los valores observados de la variable
aleatoria. Se denota por E[X] y se define por:
 Pn
 i=1 xi · f (xi ), si X es v.a.d.
E[X] = (3.3.4)
 R∞
−∞
xf (x)dx, si X es v.a.c.
Propiedades de la esperanza de una v.a.

1. E[a] = a
2. E[X + a] = E[X] + a
3. E[aX] = aE[X]
4. E[X + Y ] = E[X] + E[Y ]
Varianza de una v.a.

La varianza de una v.a. es el promedio de todas las desviaciones cuadráticas entre los valores observados
de la v.a. y la esperanza de la v.a. Se denota por V (X) y se define por:
2
V (X) = E[X 2 ] − (E[X]) ,
donde  Pn 2
 i=1 xi · f (xi ), si X es v.a.d.
2
E[X ] =
 R∞
−∞
x2 f (x)dx, si X es v.a.c.
Propiedades de la varianza de una v.a.

1. V (X) ≥ 0
2. V (a) = 0
3. V (X + a) = V (X)
4. V (aX) = a2 V (X)
23
5. V (X + Y ) = V (X) + V (Y ) ⇔ X, Y son variables aleatorias independientes
Ejemplo 3.3.5. La proporción de impurezas, en las muestras de mineral de cobre, es una variable que
se comporta según el siguiente modelo probabilı́stico.
12x2 (1 − x), 0 ≤ x ≤ 1

f (x) =
0, e.o.c.
1 Determinar la proporción promedio de impurezas por muestra de mineral de cobre.

2 Determinar la desviación estándar de la proporción de impurezas por muestra de mineral de cobre.
3 El costo de elaboración de cobre fino, por tonelada. En este mineral, es de $550.000, si la proporción de
impurezas es inferior a 0,30; es de $600.000, si la proporción de impurezas varı́a entre 0,30 y 0,60; y es
de $630.000, si la proporción de impurezas es superior a 0,60. Calcule el costo esperado de elaboración,
por tonelada de cobre fino, junto con la desviación estándar del costo de elaboración de cobre fino.
Resolución
1. X: proporción de impurezas por muestra de mineral de cobre.
Z 1
E[X] = x· 12x2 (1 − x)dx
0
Z 1
= 12 (x3 − x4 )dx
0
1
x4 x5

= 12 −
4 5 0

1 1
= 12 −
4 5
3
=
5
= 0, 6
La proporción promedio de impurezas por muestra de mineral de cobre es del 60 %.
2.
Z 1
E[X 2 ] = x2 · 12x2 (1 − x)dx
0
Z 1
= 12 (x4 − x5 )dx
0
1
x5 x6

= 12 −
5 6 0

1 1
= 12 −
5 6
2
=
5
= 0, 4
Luego,
V (x) = 0, 4 − (0, 6)2

= 0, 4 − 0, 36
= 0, 04
Como desviación estándar es la raı́z cuadrada de la varianza, entonces σX = 0, 2, es decir la desviación

estándar de la proporción de impurezas es del 2 %.
24
3. C: costo de elaboración de cobre fino, por tonelada, en miles de pesos.
C = 550, si X < 0, 3
C = 600, si 0, 3 ≤ X ≤ 0, 6
C = 630, si X > 0, 6.
i. Primero calculamos la función de cuantı́a asociada a la v.a.d. C.
P (C = 550) = P (X < 0, 3)
Z 0,3
= 12(x2 − x3 )dx
0
0,3
x3 x4

= 12 −
3 4 0
= 12 [(0, 009 − 0, 002025) − 0]
= 0, 0837
P (C = 630) = P (X > 0, 6)
Z 1
= 12(x2 − x3 )dx
0,6
1
x3 x4

= 12 −
3 4 0,6

1 1 0, 216 0, 1296
= 12 − − −
3 4 3 4
= 0, 5248
Para la función de cuantı́a de la v.a.d. C tenemos que P (C = 550) + P (C = 600) + P (C = 630) = 1,

entonces:
P (C = 600) = 1 − P (C = 550) − P (C = 630)

= 1 − 0, 0837 − 0, 5248
= 0, 3915
Por lo tanto la función de cuntı́a de la v.a.d. C, esta dada por:

C 550 600 630
g(c)=P(C=c) 0,0837 0,3915 0,5248
ii. Ahora determinamos el costo esperado de elaboración de cobre fino.
E[C] = 550(0, 0837) + 600(0, 3915) + 630(0, 5248)

= 611, 559
El costo esperado de elaboración de cobre fino es de $611.559.

iii.
E[C 2 ] = (550)2 0, 0837 + (600)2 0, 3915 + (630)2 0, 5248

= 374552, 37
Luego,
V (C) = 374552, 37 − (611, 559)2

= 547, 959519
√
Por lo tanto σC = 547, 959519 = 23, 409, es decir la desviación estándar del costo de elaboración de
cobre fino es de $23.409.
25
Capı́tulo 4
Distribuciones de Probabilidad
4.1. Antecedentes
Existen funciones distribución de probabilidad que modelan el comportamiento probabilı́stico de muchas
variables aleatorias, que aunque son distintas tienen un comportamiento probabilı́stico similar. Algunas
de estas funciones que se utilizan frecuentemente son la distribución binomial, la distribución de Poisson,
la distribución exponencial y la distribución normal.
4.2. Distribuciones para variables aleatorias discretas

4.2.1. Distribución de Bernoulli
Una v.a.d X, se distribuye según un modelo Bernoulli de parámetro p, si su función de cuantı́a es la
siguiente:
p, x=1
f (x) = (4.2.1)
1 − p, x = 0
En este caso la v.a.d X está asociada a un experimento que admite sólo dos resultados posibles: éxito,
fracaso. Es decir:
Ω = {éxito, fracaso}
X(éxito) = 1, X(fracaso) = 0, luego: P (éxito) = P (X = 1) = p, y P (fracaso) = P (X = 0) = 1 − p.
Ejemplo 4.2.1. Se extrae una carta de un juego de 52 cartas y se observa si la carta extraı́da es un as.
En este caso los sucesos éxito y fracaso son:
éxito: que la carta extraı́da sea un as, fracaso: que la carta extraı́da no sea un as
Luego
4 1 48 12
P (éxito) = = P (fracaso) = =
52 13 52 13
 1
 13 , x=1
f (x) =
12
13 , x=0

4.2.2. Distribución Binomial

La distribución binomial se origina al repetir n−veces un experimento Bernoulli, de tal manera que en
cada una de las n−repeticiones o ensayos, la probabilidad de éxito sea constante. Esto significa que las
n−repeticiones son independientes entre sı́. Además el número de repeticiones puede ser finito o infinito
numerable.
Una v.a.d. X sigue un modelo binomial de parámetros n y p, si su función de cuantı́a está dada por:

n x
f (x) = p (1 − p)n−x , x = 0, 1, . . . , n, (4.2.2)
x
26
donde X: número de éxitos en n−repeticiones y p: probabilidad de éxito en una repetición.
Notación. X ∼ B(n, p), “se lee X se distribuye binomial de parámetros n y p”.

Ejemplo 4.2.2. Se extraen 12 cartas con reposición de un juego de 52 cartas y se observa el número de
ases extraı́dos.
1
En este caso, X: número de ases extraı́dos en 11 cartas y p = 13 : probabilidad de extraer un as. Luego

1
X ∼ B n = 11, p =
13
x 11−x
11 1 12
f (x) = , x = 0, 1, . . . 11.
x 13 13
Usando está función podemos determinar la probabilidad que:

1. Exactamente 2 de las cartas extraı́das sean ases.
2. A lo más dos de las cartas extraı́das sean ases.

3. Entre 1 y 4 de las cartas extraidas sean ases.
Resolución
1.
P (X = 2) = f (2)
2 9
11 1 12
=
2 13 13
= 0, 1583
2.
0 11
11 1 12
P (X ≤ 2) = f (0) + f (1) + f (2) f (0) = = 0, 4146
0 13 13
1 10
11 1 12
= 0, 4146 + 0, 3800 + 0, 1583 f (1) = = 0, 3800
1 13 13
= 0, 9529 f (2) = 0, 1583
3.
P (1 ≤ X ≤ 4) = f (1) + f (2) + f (3) + f (4) f (1) = 0, 3800, f (2) = 0, 1583

3 8
11 1 12
= 0, 3800 + 0, 1583 + 0, 0396 + 0, 0066 f (3) = = 0, 0396
3 13 13
4 7
11 1 12
= 0, 5845 f (4) = = 0, 0066
4 13 13
Observación 4.2.1. Si la v.a.d. X ∼ B(n, p), entonces podemos demostrar que:

p
E[X] = np, V (X) = np(1 − p) ⇒ σX = np(1 − p). (4.2.3)
4.2.3. Distribución de Poisson

Una v.a.d. X, se distribuye de acuerdo a un modelo Poisson de parámetro λ, si su función de cuantı́a
está dada por:
e−λ λx
f (x) = , x = 0, 1, . . . (4.2.4)
x!
Notación X ∼ p(λ).
27
Observación 4.2.2. En este caso la v.a.d. X está asociada a un experimento o fenómeno que ocurre en
un determinado tiempo, lugar o espacio, por ejemplo:
• Número de accidentes automovilı́sticos que ocurren a fin de año en las carreteras del paı́s.
• Número de personas en la fila de un Banco el primer Lunes del mes.
• Número de alumnos que llegan a la clase durante los 10 primeros minutos.

Observación 4.2.3. Si X es una v.a.d. que se comporta de acuerdo a un modelo de Poisson de parámetro
λ, se puede demostrar que:
√
E[X] = λ V (X) = λ ⇒ σX = λ. (4.2.5)
Observación 4.2.4. La distribución de Poisson se puede utilizar como aproximación de la distribución
binomial, cuando p es pequeño o (np < 5 o n(1 − p) < 5).
Ejemplo 4.2.3. En una empresa electrónica se observa que el número de componentes que fallan antes
de cumplir 100 horas de funcionamiento es una variable aleatoria de Poisson. Si el nómero promedio de
estos fallos es ocho. Calcular la probabilidad que falle:
1. Exactamente un componente antes de cumplir 100 horas de funcionamiento continuo.
2. Más de 3 componentes antes de cumplir 100 horas de funcionamiento continuo.
Resolución
X: número de componentes que falla antes de cumplir 100 horas de funcionamiento continuo.
e−8 8x
X ∼ p(λ = 8), f (x) = , x = 0, 1, . . .
x!
1.
P (X = 1) = f (1)
e−8 81
=
1!
= 0, 0027
2.
e−8 80
P (X > 3) = 1 − P (X ≤ 3) f (0) = = 0, 0003
0!
= 1 − (f (0) + f (1) + f (2) + f (3)) f (1) = 0, 0027
e−8 82
= 1 − (0, 0003 + 0, 0027 + 0, 0107 + 0, 0286) f (2) = = 0, 0107
2!
e−8 83
= 1 − 0, 0423 f (3) = = 0, 0286
3!
= 0, 9577
4.3. Distribuciones para variables aleatorias continuas

4.3.1. Distribución Exponencial
La distribución de probabilidad exponencail pertenece a la familia de distribuciones de vida o de super-
vivencia. generalmente está asociada a la duración, vida util, etc. de un artı́culo o proceso.
Una v.a.c. X se distribuye segn un modelo exponencial de parámetro α si su función de densidad está
dada por:
αe−αx , x > 0

f (x) = (4.3.1)
0, e.o.c
Notación: X ∼ exp(α).
28
Observación 4.3.1. Si X ∼ exp(α)
1. Podemos demostrar que la F.D.A. está dada por

0, x<0
F (x) = (4.3.2)
1 − e−αx , x≥0
2. También podemos demostrar que:

1 1 1
E[X] = V (X) = 2
⇒ σX = . (4.3.3)
α α α
Figura 4.1: Gráfico de función distribución de probabilidad exponencial y de su función distribución

acumulada para distintos valores del parámetro α
Ejemplo 4.3.1. La vida útil en años de un interruptor eléctrico tiene una distribución exponencial con
un promedio de falla de 2,3 años.
1. Si el 35,8 % de los interruptores son consideraros de excelente calidad por tener una vida útil superior
a la norma establecida entre productor y cliente. Determinar esta norma.
2. La utilidad obtenida por el productor por la venta de uno de estos interruptures depende de la vida útil.
La utilidad será $1250, cuando el interruptor tenga una vida útil inferior a 6 meses. Está utilidad se
incrementa en un 10 %, cuando la vida útil es mayor o igual a 6 meses pero menor a un año y medio.
La utilidad de $1250 se incrementara en un 15 %, cuando la vida útil sea mayor o igual a un año y
medio pero inferior a dos años y medio. Finalmente la utilidad de $1250 se incrementa en un 25 %
cuando la vida útil es de al menos dos años y medio.
De acuerdo a está información, calcular la utilidad esperada por el productor.
Resolución.
1
1. X: vida útil de un interruptor eléctrico, en años. X ∼ exp α = 2,3 , luego su F.D.A. está dada por:

0, x<0
F (x) = 1
1 − e− 2,3 x , x≥0
29
1.
P (X > xn ) = 0, 358
1 − F (xn ) = 0, 358
1
e− 2,3 xn = 0, 358 / ln
1
− xn = ln(0, 358)
2, 3
xn = 2, 363
La norma establecida entre productor y cliente es de 2,4 años aproximadamente.
2. U: Utilidad obtenida por el productor, en miles de pesos.
1 ·0,5
− 2,3
u1 = 1, 25 ⇔ x < 0, 5. g(u1 ) = F (0, 5) = 1 − e = 0, 1954
1 ·0,5
− 2,3 1 ·1,5
− 2,3
u2 = 1, 25 + 0, 1(1, 25) = 1, 375 ⇔ 0, 5 ≤ x < 1, 5. g(u2 ) = F (1, 5) − F (0, 5) = e −e = 0, 2837
1 ·1,5
− 2,3 1 ·2,5
− 2,3
u3 = 1, 25 + 0, 15(1, 25) = 1, 438 ⇔ 1, 5 ≤ x < 2, 5. g(u3 ) = F (2, 5) − F (1, 5) = e −e = 0, 1837
1 ·2,5
− 2,3
u4 = 1, 25 + 0, 25(1, 25) = 1, 563 ⇔ x ≥ 2, 5. g(u4 ) = 1 − F (2, 5) = −e = 0, 3372
Luego
E[U ] = 1, 25(0, 1954) + 1, 375(0, 2837) + 1, 438(0, 1837) + 1, 563(0, 3372)
= 1, 426
La utilidad esperada por el productor por la venta de un interruptor es de $1426.
4.3.2. Distribución Normal

En teorı́a de estadı́stica y probabilidad se llama distribución normal, distribución de Gauss, distribución
gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable alea-
toria continua que aparece con más frecuencia.
La distribución normal es muy importante en inferencia estadı́stica por las siguientes razones.
1. Muchas de las variables resultantes en experimento o fenómenos en estudio siguen el modelo normal.
2. La distribución normal, se puede utilizar para aproximar probabilidades asociadas a otras distribucio-
nes, tales como la binomial, etc.
3. La distribución de la media muestral y de la proporción tiende a ser normal, a medida que n crece.
Independientemente de la distribución de la población.
Una v.a.c. X se distribuye en forma normal con parámetros µ y σ cuando su función de densidad es la
siguiente:
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) ∀x ∈ R (4.3.4)
2πσ 2
Notación. X ∼ N(µ, σ), se lee “X se distribuye en forma normal con media µ y desviación estándar σ”.
Observación 4.3.2. Generalmente debido a la gran variedad de valores para µ y σ y con el próposito de
facilitar los cálculos de las integrales asociadas a probabilidades, consideramos una distribución normal
con media igual 0 y desviación estándar igual 1, llamada distribución normal estándar o tı́pica, la cual
se obtiene realizando la siguiente sustitución:
X −µ
Z= ∼ N(µ = 0, σ = 1) (4.3.5)
σ
La función distribución acumulada para la normal estándar está dada por
Z z
1 1 2
P (Z ≤ z) = Φ(z) = √ e− 2 t dt, (4.3.6)
−∞ 2π
Para esta distribución existe una tabla de probabilidades acumuladas asociada a valores de la variable
aleatoria Z.
30
Figura 4.2: Gráfico de función distribución de probabilidad normal y de su función distribución acumulada
para distintos valores de los parámetros µ y σ
Ejemplo 4.3.2. En una ciudad se estima que la temperatura máxima en el mes de Junio sigue una
distribución normal, con media 23◦ y desviación estándar 5◦ . Calcular el número de dı́as del mes de
Junio en los que se espera alcanzar máximas
1. De por lo menos 25◦ .
2. Entre 21◦ y 27◦ .
Resolución
X: temperatura máxima en el mes de Junio.
X ∼ N (µ = 23, σ = 5) ⇒ Z = X−23
5 ∼ N (µ = 0, σ = 1)
1.

X − 23 25 − 23
P (X ≥ 25) = P ≥
5 5
= P (Z ≥ 0, 4)
= 1 − Φ(0,4)
= 1 − 0, 6564
= 0, 3446
Luego determinamos el número de dı́as: 30 ∗ 0, 3446 = 10, 338 ≈ 10
Por lo tanto, aproximadamente durante 10 dı́as del mes de Junio se espera alcanzar una temperatura
máxima de por lo menos 23◦ .
2.

21 − 23 X − 23 27 − 23
P (21 ≤ X ≤ 27) = P ≤ ≤
5 5 5
= P (−0, 4 ≤ Z ≤ 0,8)
= Φ(0, 8) − Φ(−0, 4)
= 0, 7881 − 0, 3446
= 0, 4435
Luego determinamos el número de dı́as: 30 ∗ 0, 4435 = 13, 305 ≈ 13
Por lo tanto, aproximadamente durante 13 dı́as del mes de Junio se espera alcanzar una temperatura
entre 21◦ y 27◦ .
31
Aproximación Normal de la binomial
Cuando n, es grande (n ≥ 20 o np ≥ 5 o n(1−p) ≥ 5) se puede usar la distribución normal para aproximar
probabilidades binomiales. Como la distribución normal es una f.d.p. para v.a.c. y la distribución binomial
es una f.d.p. para v.a.d. es necesario realizar una corrección por continuidad, llamada corrección de Yates,
la cual consiste en lo siguiente. p
Si X ∼ B(n, p) ⇒ X 0 = X ± 0, 5 ∼ N (µX 0 = np; σX 0 = np(1 − p)) tal que:
P (X ≤ a) = P (X 0 ≤ a + 0, 5)
P (X ≥ b) = P (X 0 ≥ b − 0, 5)
P (a ≤ X ≤ b) = P (a − 0, 5 ≤ X 0 ≤ b + 0, 5)
P (X = c) = P (c − 0, 5 ≤ X 0 ≤ c + 0, 5)
Ejemplo 4.3.3. El porcentaje de piezas defectuosas producidas por una máquina es del 10,3 %. Sema-
nalmente la máquina produce 450 piezas, calcular la probabilidad que
1. Entre 40 y 50 de ellas sean defectuosas.

2. Menos de 35 de ellas sean defectuosas.
Resolución
X: número de piezas defectuosas
p producidas√ por una máquina, en 450. X ∼ B(n = 450; p = 0, 103).
np = 450 ∗ 0, 103 = 46, 35 y np(1 − p) = 450 ∗ 0, 103 ∗ 0, 897 = 6, 45, luego
X 0 − 46, 35
X 0 = X ± 0, 5 ∼ N (µX 0 = 46, 35; σX 0 = 6, 45) ⇒ Z = ∼ N (µ = 0, σ = 1).
6, 45
1.
P (40 ≤ X ≤ 50) = P (39, 5 ≤ X 0 ≤ 50, 5)

X 0 − 46, 35

39, 5 − 46, 35 50, 5 − 46, 35
=P ≤ ≤
6, 45 6, 45 6, 45
= P (−1, 06 ≤ Z ≤ 0, 64)
= Φ(0, 64) − Φ(−1, 06)
= 0, 7389 − 0, 1446
= 0, 5943
2.
P (X < 35) = P (X ≤ 34)

= P (X 0 ≤ 34, 5)
0
X − 46, 35 34, 5 − 46, 35
=P ≤
6, 45 6, 45
= P (Z ≤ −1, 84)
= Φ(−1, 84)
= 0, 0329
Teorema del Lı́mite Central

Si de una población se extraen muestras aleatorias de tamaño
q n, la distribución de las medias muestrales
tiende a ser normal con media E[X] y desviación estándar V (X)
n , a medida que n crece e independien-
temente de como se distribuya la población.
r !
V (X)
X ∼ f ⇒ X → N µX = E[X]; σX = (4.3.7)
n
32
Observación 4.3.3. Cuando la población es finita (se conoce su tamaño) la desviasión estándar del
promedio es: r r
V (X) N − n
σX = , (4.3.8)
n N −1
q
−n
donde N N −1 se denomina factor de correción para poblaciones finitas.
Ejemplo 4.3.4. La duración de una pila para calculadora se distribuye en forma exponencial con media
de 17500 horas. Un cliente compra un lote de 6000 de estas pilas y elige para su revisión 150 de pilas del
lote. Calcular la probabilidad que la duración promedio por pila sea:
1. Inferior a 15000 horas.
2. De por lo menos 20000 horas.

Resolución
X: Duración deuna pila
para calculadoras, en miles de horas.
1
Como X ∼ exp α = 17,5 , E[X] = 17, 5 y V (X) = (17, 5)2 , entonces:
r !
17, 5 5850 X − 17, 5
X∼N µX = 17, 5; σX =√ = 1, 41 ⇒ Z = ∼ N (µ = 0, σ = 1),
150 5999 1, 41
donde X: duración promedio por pila, en miles de horas.

1.

X − 17, 5 15 − 17
P (X < 15) = P <
1, 41 1, 41
= P (Z < −1, 42)
= Φ(−1, 42)
= 0, 0778
2.

X − 17, 5 20 − 17, 5
P (X ≥ 20) = P ≥
1, 41 1, 41
= P (Z ≥ 1, 77)
= 1 − Φ(1, 77)
= 1 − 0, 9616
= 0, 0384
33
Probabilidad
Probabilidad
El valor de la tabla para z El valor de la tabla para z

es el área bajo la curva es el área bajo la curva
de la normal estándar z de la normal estándar z
a la izquierda de z a la izquierda de z
TABLA A: Probabilidades de la normal estándar TABLA A: Probabilidades de la normal estándar (cont. )

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
⫺3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002 0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
⫺3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003 0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
⫺3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005 0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
⫺3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007 0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
⫺3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010 0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
⫺2.9 .0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014 0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
⫺2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019 0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
⫺2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026 0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
⫺2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036 0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
⫺2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048 0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
⫺2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
⫺2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
⫺2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
⫺2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
⫺2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
⫺1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
⫺1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
⫺1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
⫺1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
⫺1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
⫺1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
⫺1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
⫺1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985 2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
⫺1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
⫺1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
⫺0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
⫺0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
⫺0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
⫺0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
⫺0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
⫺0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
⫺0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
⫺0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
⫺0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
⫺0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641 3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
Capı́tulo 5
Inferencia Estadı́stica
5.1. Antecedentes
La inferencia estadı́stica consiste básicamente en estudiar una población, para una variable en estudio,
en base a una muestra aleatoria de ella. Teóricamente, la población tiene un comportamiento que está
descrito por su función de probabilidad fx , que puede ser de cuantı́a, si la variable es discreta, o de
densidad, si la variable es continua. Por otra parte, la población está caracterizada por la E[X] que
llamamos µ, y la V (X), que llamamos σ 2 , que nos permiten medir la tendencia y la variabilidad en el
comportamiento de la población, para la variable en estudio. En general, cuando se estudia una población,
desconocemos fx , o los parámetros µ y σ 2 . Sin embargo, es posible hacer una estimación de ellos, usando
una muestra aleatoria, elegida en la población. Esto es, “hacer inferencias”acerca de la población que nos
interesa estudiar, mediante los resultados observados en la muestra elegida en ella. Es decir, el objetivo
del investigador es proyectar estos resultados, obtenidos en la muestra aleatoria, hacia toda la población
de donde proviene la muestra. Esto implica un “error de estimación”o “error de muestreo”, el cual se
puede cuantificar, considerando que en dicho error influyen la “confiabilidad”, que se da a la investigación,
la variabilidad, el tamaño de la muestra, y el tamaño de la población (si se conoce).
En particular nosotros realizaremos inferencias relacionadas con los parámetros de poblaciones que se
suponen se comportan, ya sea en forma normal, o en forma binomial. Por lo tanto, los parámetros a
estimar son µ y σ 2 , de una población normal, y, p de una población binomial.
5.2. Método de Estimación Puntual

El método de estimación puntual Consiste en asignar un valor particular al parámetro que se desea
estimar. En general a estos valores se les llama estimadores puntuales, los cuales en lo posible deben
tener ciertas caracterı́sticas, por ejemplo: ser insesgados, máximo verosı́miles, de varianza mı́nima, etc.
Los estimadores puntuales de los parámetros mencionados anteriormente que tienen estas caracterı́sticas
se presentan en la Tabla 5.1.
Observación 5.2.1. Los estimadores puntuales para la media y la desviación estándar se pueden ob-
tener utilizando el modo estadı́stico de una calculadora cientifica. También podemos utilizar el software
estadı́stico R, el cual nos permitira obtener el estimador puntual de los tres parámetros mencionados
anteriormente.
Ejemplo 5.2.1. En una empresa minera se realiza un estudio sobre la estatura de sus trabajadores, para
esto considera una m.a de 26 trabajadores, las estaturas (en cm) obtenidas en la m.a fueron las siguientes:
168 180 170 175 171 173 169 184 176 170 178 172 177
169 175 182 178 171 176 174 176 170 169 175 177 172
Determinaremos los estimadores puntuales de:
1. La media
2. La desviación estándar.
34
Tabla 5.1: Parámetros y sus estimadores puntuales
Parámetro Estimador puntual
n
1 X
µ̂ = x = xi
Media o promedio aritmético µ n i=1
v
u n
u 1 X
Desviación estándar o tı́pica σ σ̂ = s = t (xi − x)2
n − 1 i=1
Proporción
p número de casos favorables en la m.a
p̂ =
n
3. La proporción de trabajadores con estatura superior a 175 cm.
Resolución
10
1. x = 174, 12. 2. s = 4, 25. 3. p̂ = 26 = 0, 3846 ≡ 38, 46 %.
5.3. Método de Estimación por Intervalos de Confianza

Este método consiste en construir intervalos de números reales, de tal manera que se pueda asegurar con
un cierto nivel (grado) de confianza (certeza) que los verdaderos valores de los parámetros pertenecen a
dichos intervalos.
En general si θ es el parámetro a estimar y θ̂ su estimador puntual el intervalo del (1 − α) por ciento de
confianza para este parámetro esta dado en la siguiente igualdad.
P (θ̂ − ε ≤ θ ≤ θ̂ + ε) = 1 − α, (5.3.1)
donde ε es el error de muestreo o error de estimación.
5.3.1. Intervalos de confianza para los parámetros de la Distribución Normal

Intervalo de confianza para la media

Por el Teorema del Lı́mite Central tenemos que si X ∼ N (µ, σ) entonces x ∼ N µx = µ, σx = √σ .
n
x−µ
Consecuentemente Z = √σ ∼ N (µ = 0, σ = 1). De este modo podemos escribir
n
!
x−µ
P −Z1− α2 ≤ ≤ Z1− α2 = 1 − α, (5.3.2)
√σ
n
donde Z1− α2 es el cuantil 1 − α2 × 100 de la distribución normal estándar.

Al despejar µ en la desigualdad obtenemos

σ σ
P x − Z1− α2 √ ≤ µ ≤ x + Z1− α2 √ = 1 − α. (5.3.3)
n n
De esta igualdad podemos inferir que el intervalo del (1 − α) × 100 % de confianza para µ, cuando σ es
conocida, está dado por
σ
IC[µ] : x ∓ Z1− α2 √ , (5.3.4)
n
35
donde Z1− α2 √σn = ε. De la misma forma se construyen los otros intervalos de confianza para la media, en
el caso de σ desconocido.
 σ
 x ∓ Z1− α2 √n ,
 σ conocida
s
IC[µ] : x ∓ Z1− 2 n ,
α √ σ desconocida y n > 30 ,
 x ∓ t1− α ,n−1 √s , σ desconocida y n ≤ 30

2 n
donde t1− α2 ,n−1 es el quantil 1 − α2 × 100 de la distribución t-student con n − 1 grados de libertad. El

cual podemos obtener de una tabla o utilizando el software R. En R debemos escribir el siguiente codigo.
α
qt 1 − , n − 1 .
2
Observación 5.3.1. Cuando la población es finita (se conoce su tamaño) se debe multiplicar el error de
estimación por el factor de corrección para poblaciones finitas dado por:
r
N −n
, (5.3.5)
N −1
donde N es el tamaño de la población.
Intervalo de confianza para la varianza

" #
2 (n − 1)s2 (n − 1)s2
IC[σ ] = ; , (5.3.6)
χ21− α ,n−1 χ2α ,n−1
2 2
donde χ2α ,n−1 y χ21− α ,n−1 , son los cuantiles α2 ∗ 100 y 1 − α2 ∗ 100 respectivamente, de la distribución

2 2
Chi-cuadrado (o Ji-cuadrado) con n − 1 grados de libertad. Estos valores se pueden obtener utilizando el
software estadı́stico R, en este caso los codigos respectivos son:
α α
qchisq ,n − 1 , qchisq 1 − , n − 1 .
2 2
Observación 5.3.2. Como la desviación estándar es la raı́z cuadrada positiva de la varianza, entonces
el intervalo del (1 − α) × 100 % para la desviación estándar está dado por
"s s #
(n − 1)s2 (n − 1)s2
IC[σ] = ; .
χ21− α ,n−1 χ2α ,n−1
2 2
Ejemplo 5.3.1. Construiremos un intervalo del 95 % de confianza para la media y un intervalo del 98 %
de confianza para la desviación estándar de la estatura de los trabajadores de la empresa minera.
Resolución
1. Intervalo de confianza para la media. En este caso σ es desconacida y n = 26 < 30 luego el
intervalo del 95 % para µ esta dado por:
s
IC[µ] : x ∓ t0,975,25 √
26
En el ejemplo 5.2.1, obtuvimos x = 172, 12 y s = 4, 25. Por otro lado t0,975,25 = 2,06. Luego el
intervalo del 95 % de confianza para la estatura media de los trabajadores de la empresa minera es
IC[µ] = [170, 40; 173, 84].
2. Intervalo de confianza para la desviación estándar. Como 1 − α = 0, 98 entonces α2 = 0, 01 y

1 − α2 = 0, 99. Luego χ20,01;25 = 11, 52 y χ20,99;25 = 44, 31. Luego el intervalo del 98 % de confianza para la
desviación estándar de la estatura de los trabajadores de la empresa minera es Ic[σ] = [3, 39; 6, 26].
36
Intervalo de confianza para la diferencia de medias
Ahora consideramos dos poblaciones sobre las que una variable determinada sigue una distribución Nor-
mal. En este caso, suponemos que en la población 1 la variable aleatoria se distribuye en forma normal
con media µ1 desconocida y desviación estándar σ1 (conocida o desconocida), y en la población 2 la
media es µ2 desconocida y la desviación estándar es σ2 (conocida odesconocida). Bajo estos supuestos
y conciderando dos muestras aleatorias de tamaño n1 y n2 de las poblaciones 1 y 2 respectivamente,
tenemos que el intervalo de confianza del (1 − α) × 100 % está dado por
 r
2
σ1 σ2
− ∓ + n2 ,


 x1 x 2 Z α
1− 2 n1
σ1 , σ2 conocidas
2



 r
IC[µ1 − µ2 ] : x1 − x2 ∓ Z1− α s2p n1 + n1 , σ1 , σ2 desconocidas supestas iguales, n1 + n − 2 > 30 ,
 2 1 2

 r

 x1 − x2 ∓ t1− α ,n1 +n2 −2 s2p n1 + 1
σ1 , σ2 desconocidas supestas iguales, n1 + n − 2 ≤ 30.


n2
,
2 1
(n1 −1)s21 +(n2 −1)s22

donde s2p = n1 +n2 −2 , es el estimador de la varianza común de ambas poblaciones.
Observación 5.3.3. Frecuentemente el intervalo de confianza para la difrencia de medias se utiliza para
determinar si existe diferencia significativa entre las medias poblacionales. Luego si
• O ∈ IC[µ1 − µ2 ], no existe diferencia significativa entre las medias pblacionales.
• 0∈
/ IC[µ1 − µ2 ], existe diferencia significativa entre las medias poblacionales.
Intervalo de confianza para el cuociente la varianza

Generalmente este intervalo se utiliza para verificar el supuesto de igualdad de varianzas poblacionales.
s21
2 2
s1 s21

σ1 1
> 1 ⇒ IC 2 = a 2 ; b 2 ; a= ; b = F1− α2 ,n2 −1,n1 −1 (5.3.7)
s22 σ2 s2 s2 F1− α2 ,n1 −1,n2 −1
s22 σ22 s22 s22

1
2 > 1 ⇒ IC 2 = a 2 ;b 2 ; a= ; b = F1− α2 ,n1 −1,n2 −1 (5.3.8)
s1 σ1 s1 s1 F1− 2 ,n2 −1,n1 −1
α
Observación 5.3.4. Si 1 pertenece a este intervalo se verifica el supuesto de igualdad de desviaciones

estándar (o varianzas). En caso contrario no se verifica.
Ejemplo 5.3.2. El gerente de Cerámicas “Buena Loza”tiene que escoger entre dos máquinas para la
planta de producción, cuenta con la oferta de dos tipos de marca A y B. Para tomar una decisión el pide
que realicen un estudio sobre el tiempo de producción por pieza (en min), para ello se elige una muestra
de 12 piezas producidas por la máquina de marca A y 13 piezas producidas por la máquina de marca B.
Los tiempos de producción de cada pieza fueron los siguientes.
Máquina A: 40 49 47 42 48 38 44 49 50 45 43 47.
Máquina B: 40 41 39 40 38 42 43 37 38 41 37 39 40.
Suponiendo que el tiempo de producción por pieza sigue un modelo normal, construiremos: Un intervalo
del 99 % de confianza para la diferencia entre los tiempos medios de producción por pieza de la máquina
A y de la máquina B. Previamente verificaremos el supuesto de igualdad de varianzas.
Resolución
i. X: tiempo de producción, en minutos
Población 1: piezas producidas por la máquina A.
Población 2: piezas producidas por la máquina B.
n1 = 12, x1 = 45, 17, s1 = 3, 83, n2 = 13 , x2 = 39, 62, s2 = 1, 85.
ii. Como
s21 (3, 83)2
2 2
s1 s21

σ1 1 1
= = 4, 286 > 1 ⇒ IC = a ; b ; a= = ; b = F0,995,12,11 = 5, 24
s22 (1, 85)2 σ22 s22 s22 F0,995;11,12 4, 99
h 2i
σ
Luego, IC σ12 = [0, 86; 22, 46] con un 99 % de confianza.
h 2i 2
σ
1 ∈ IC σ12 entonces se puede suponer que las varianzas poblacionales son iguales.
2
37
iii. s
1 1
IC[µ1 − µ2 ] : x1 − x2 ∓ t1− α2 ,n1 +n2 −2 s2p +
n1 n2
t1− α2 ,n1 +n2 −2 = t0,9995,23 = 2, 81
s
11(3, 83)2 + 12(1, 85)2

1 1
IC[µ1 − µ2 ] : 45, 17 − 39, 62 ∓ 2, 81 +
23 12 13
Finalmente obtenemos que el intervalo del 99 % de confianza para la diferencia de medias esta dado por:
IC[µ1 − µ2 ] = [2, 22; 8, 89]
0∈/ IC[µ1 − µ2 ], entonces existe diferencia significativa entre los tiempos promedios de producción de la
máquina A y de la máquina B. Además como ambos lı́mites del intervalo son positivos podemos concluir
que el tiempo de producción promedio de la máquina a es mayor que el de la máquina B, por lo tanto la
máquina B, es más eficiente en la producción de las cerámicas.
Intervalo de confianza para proporciones

Una muestra. Dada una m.a proveniente de una población que se distribuye en forma binomial con
parámetros n y p (desconocido), entonces el intervalo del (1 − α) × 100 % de confianza para la proporción
está dado por: r
p̂(1 − p̂)
IC[p] : p̂ ∓ z1− α2 . (5.3.9)
n
En el caso de una población finita se debe multiplicar el error de estimación por el factor de corrección
para poblaciones finitas.
Dos muestras. Dadas dos m.a provenientes de dos una población que se distribuyen en forma binomial
con parámetros (n1 , p1 (desconocido)) y (n2 , p2 (desconocido)), entonces el intervalo del (1 − α) ∗ 100 %
de confianza para la diferencia de proporciones está dado por:
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
IC[p1 − p2 ] : p̂1 − p̂2 ∓ z1− α2 + (5.3.10)
n1 n2
Ejemplo 5.3.3. Una tienda de informática está interesada en estimar la proporción de usuarios de
ordenadores personales que utilizan WINDOWS 10, en dos áreas urbanas: área Norte y área Sur. En el
área norte se encuestan a 150 usuarios de ordenadores personales, de ellos 65 utilizan WINDOWS 10.
En cambio en el área Sur fueron 120 los encuestados, de los cuales 42 dijeron utilizar WINDOWS 10.
1. Construir un intervalo del 96,4 % de confianza para la proporción de usuarios de ordenadores personales
del área norte que utilizan WINDOWS 10.
2. Construir un intervalo del 94,3 % de confianza para la diferencia entre las proporciones. De acuerdo
a este intervalo elabore una conclusión.
Resolución
1. X: número de usuarios de ordenadores personales del área norte que utiliza WINDOWS 10.
X ∼ B(n, p)
65
n1 = 150, p̂1 = 150 = 0, 4333, 1 − α = 0, 964 ⇒ 1 − α2 = 0, 982, luego Z0,982 = 2, 10.
r
0, 4333(0, 5667)
IC[p1 ] : 0, 4333 ∓ 2, 10
150
IC[p1 ] = [0, 3483; 0, 5182]
Por lo tanto se puede asegurar con un 96,4 % de confianza que entre un 34,83 % y un 51,82 % de los
usuarios de ordenadores personales del área norte utilizan WINDOWS 10.
38
42
2. n2 = 120, p̂2 = 120 = 0, 35, 1 − α = 0, 943 ⇒ 1 − α2 = 0, 9715, luego Z0,9715 = 1, 90.
r
0, 4333(0, 5667) 0, 35(0, 65)
IC[p1 − p2 ] : 0, 4333 − 0, 35 ∓ 1, 90 +
150 120
IC[p1 − p2 ] = [−0, 0296; 0, 1962]
0 ∈ IC[p1 − p2 ], entonces no existe diferencia significativa entre las proporciones de usuarios de ordena-
dores del área norte y del área sur que utilizan WINDoWS 10.
5.4. Método de Prueba de Hipótesis Paramétricas

El método de prueba de hipótesis paramétricas consiste en plantear afirmaciones o hipótesis acerca de
los parámetros de la población en estudio. Luego en base a los resultados obtenidos en una m.a. de la
población, se determina si tales hipótesis son correctas o incorrectas (verdaderas o falsas). Los pasos a
seguir para probar una hipótesis son los siguientes:
1. Planteo de Hipótesis.
H0 : hipótesis nula v/s H1 : hipótesis alternativa (opuesta a la hipótesis nula)
2. Estadı́stico de prueba y Región crı́tica. El estadı́stico de prueba depende de los resultados ob-
tenidos en la muestra y la región crı́tica depende de la distribución del estadı́stico de prueba y de la
hipótesis alternativa.
3. Decisión. Cuando el estadı́stico de prueba pertenece a la región crı́tica o región de rechazo de H0
(RRH0 ), se rechaza H0 , con un nivel de significación del α ∗ 100 %, en caso contrario no se rechaza.
4. Conclusión.
Observación 5.4.1. La gran mayoria de software estadı́sticos cuentan con diversos test para realizar la
prueba de hipótesis, ya se paramétrica o no paramétrica. En su gran mayoria estos software entregan el
estadı́stico de prueba y un valor denominado p-value.
Una interpretación correcta de p-value es visualizarlo como la probabilidad de obtener resultados tan o
más extremos como el resultado observado cuando la hipótesis nula es cierta. Un p-value pequeño significa
que resultados tan extremos como el resultado observado son improbables si la hipótesis nula es cierta.
Si p-value es 0,68, la probabilidad de obtener resultados tan o más extremos como el resultado observado
cuando la hipótesis nula es cierta es 0,68 (68 % de todas las posibles muestras producirán resultados al
menos tan extremos como el resultado observado cuando la hipótesis nula es cierta).Por lo tanto cuando
este valor es pequeño (menor al nivel de significación dado por el investigador), se rechaza H0 en caso
contrario no se rechaza H0 .
5.4.1. Prueba de Hipótesis para los parámetros de la Distribución Normal

Prueba de Hipótesis para la Media
1. Planteo de Hipótesis
 
 µ = µ0  µ 6= µ0
H0 : µ ≤ µ0 v/s H0 : µ > µ0
µ ≥ µ0 µ < µ0
 
2. Estadı́stico de prueba y región crı́tica
σ conocida, σ desconocida y n > 30, σ desconocida y n ≤ 30,

x − µ0 x − µ0 x − µ0
Z= ∼ N (µ = 0, σ = 1) Z= ∼ N (µ = 0, σ = 1) T = ∼ tn−1
√σ √s √s
n n n
 
 (−∞, −Z1− α2 ) ∪ (Z1− α2 , ∞)  (−∞, −t1− α2 ,n−1 ) ∪ (t1− α2 ,n−1 , ∞)
RRH0 : (Z1−α , ∞) v/s RRH0 : (t , ∞)
 1−α,n−1
(−∞, −Z1−α ) (−∞, −t1−α,n−1 )

39
Prueba de Hipótesis para la Varianza
 2  2
 σ = σ02  σ =6 σ02
H0 : σ 2 < σ02 v/s H0 : σ ≥ σ02
2
 2
σ > σ02
 2
σ ≤ σ02
2. Estadı́stico de prueba y Región Crı́tica
(0, χ2α ,n−1 ) ∪ (χ21− α ,n−1 , ∞)



 2 2



RRH0 : (χ21−α,n−1 , ∞)
(n − 1)s2


χ2 =


σ02 (0, χ2α,n−1 )

Prueba de Hipótesis para Diferencia de Medias

Dadas dos muestras aleatorias provenientes de dos poblaciones normalmente distribuidas e independien-
tes. Las posibles hipótesis a probar, los estadı́sticos de prueba y regiones crı́ticas correspondientes se
indican a continuación.
 
 µ1 − µ2 = 0  µ1 − µ2 6= 0
H0 : µ1 − µ2 < 0 v/s H0 : µ1 − µ2 ≥ 0
µ2 − µ2 > 0 µ1 − µ2 ≤ 0
 
σ1 , σ2 conocidas
x1 − x2
Z=q 2 ∼ N (µ = 0, σ = 1)
σ1 σ22
n1 + n2
σ : 1, σ2 desconocidas supuestas iguales y n1 + n2 > 30,

x − x2
Z=r ∼ N (µ = 0, σ = 1)
s2p n11 + 1
n2
σ1 , σ2 desconocidas supuestas iguales y n1 + n2 ≤ 30,

x − x2
T =r ∼ tn1 +n2 −2
s2p n11 + 1
n2
 
 |(−∞, −Z1− α2 ) ∪ (Z1− α2 , ∞)  (−∞, −t1− α2 ,n1 +n2 −2 ) ∪ (t1− α2 ,n1 +n2 −2 , ∞)
RRH0 : (Z1−α , ∞) o RRH0 : (t , ∞)
 1−α,n1 +n2 −2
(−∞, −Z1−α ) (−∞, −t1−α,n1 +n2 −2 )

Ejemplo 5.4.1. Una empresa de taxis requiere comprar automóviles, una de las caracterı́sticas a consi-
derar es la eficiencia de los frenos, la empresa recibe ofertas de dos marcas de automóviles “Rayo Veloz”y
“Velocidad Luz”. Para tomar la decisión decide realizar un estudio sobre la distancia, en metros necesaria
para detener los automóviles al aplicarse los frenos cuando la velocidad era de 40km/h. Las distancias
medidas en una m.a 10 automóviles de la marca “Rayo Veloz”y en una m.a de 13 automóviles de marca
“Velocidad Luz”fueron las siguientes:
“Rayo Veloz”: 1,18 1,10 1,19 1,20 1,21 1,17 1,16 1,24 1,22 1,23
“Velocidad Luz”: 1,02 1,08 1,00 0,95 0,98 1,11 1,10 1,13 0,97 0,99 1,06 1,03 1,12
Suponiendo que la distancia necesaria para detener los autos, se distribuye en forma normal
1. Defina la variable y las poblaciones en estudio. Además determine los promedios y las desviaciones
tı́picas muestrales.
40
2. Los dueños de la marca “Rayo Veloz”aseguran que la distancia promedio necesaria para detener sus
automóviles es de a lo sumo un metro. Con un nivel de significación del 5 %, ¿esta aseveración es
correcta?.
3. Históricamente se ha dado que la variabilidad absoluta de la distancia necesaria para detener los au-
tomóviles “Velocidad Luz”es inferior a 0,09 m. Usar un nivel de significación del 10 % para determinar
si este resultado se mantiene.
4. De acuerdo a los resultados obtenidos y usando un nivel de significación del 1 %, ¿cuál de las marcas
de automóvil debe comprar la empresa de taxis?
Resolución
1. X: distancia necesaria para detenerse, en metros. X ∼ N (µ, σ).
Población 1: autómoviles de la marca “Rayo Veloz”.
Población 2: autómoviles de la marca “Velocidad Luz”.
n1 = 10, x1 = 1, 19, s1 = 0, 04. n2 = 13, x2 = 1, 04, s2 = 0, 06.
2. Los dueños de la marca aseguran que µ1 ≤ 1, luego las hipótesis a contrastar son:
H0 : µ1 ≤ 1 v/s H1 : µ1 > 1
Como σ1 es desconocida y n1 = 10 < 30, el estadı́stico de prueba es
x1 − µ0 1, 19 − 1
T = = = 15, 02
√s1 0,04
√
n1 10
α = 0, 05, entonces t0,95,10 = 1, 83, de está forma la región crı́tica es RRH0 = (1, 83, ∞). Como
1, 83 ∈
/ RRH0 , entonces rechazamos H0 con un nivel de significación del 5 %.
Conclusión: La evidencia estadı́stica indica que la distancia promedio necesaria para detenerse de los
automóviles de marca “Rayo Veloz”es superior a un metro. Por lo tanto lo que asegura el dueño de la
marca no es correcto.
3. El resultado histórico indica que σ22 < (0, 09)2 , luego las hipótesis a probar son:
H0 : σ22 ≥ (0, 09)2 v/s H1 : σ22 < (0,09)2
En este caso el estadı́stico de prueba será
(n2 − 1)s22 12(0, 06)2
χ2 = = = 5, 33
σ02 (0, 09)2
α = 0, 1, entonces χ20,1;12 = 6, 30. De acuerdo a este valor la región crı́tica es RRH0 = (0; 6, 39), luego
5, 33 ∈
/ RRH0 , en consecuencia no rechazamos H0 .
conclusión: De acuerdo a la evidencia estadı́stica la variabilidad absoluta de la distancia necesaria para
detener los automóviles “Velocidad Luz”no es inferior a 0,09 m. Por lo tanto no se mantiene el resultado
dado historicamente.
4. En las muestras tenemos que x1 = 1, 19 > x2 = 1, 04, entonces suponemos que este resultado se replica
en al población y planteamos las hipótesis de prueba.
H0 : µ1 − µ2 ≤ 0 v/s H1 : µ1 − µ2 > 0
Como σ1 y σ2 son desconocidas y las supondremos iguales y n1 +n2 = 23 < 30, el estadı́stico de prueba
es,
x − x2 1, 19 − 1, 04
T =r = q 9(0,04)2 +12(0,06)2 1 = 6, 81
1
s2p 1 + 1 ( 21 10 + 13
n1 n2
Tenemos que α = 0, 01, luego t0,99,21 = 2, 52 y la región crı́tica es RRH0 = (2, 52; ∞), de este modo
6, 81 ∈
/ RRH0 , en consecuencia rechazamos H0 , con un nivel de significación del 1 %.
Conclusión: Existe evidencia estadı́stica para afirmar que la distancia promedio necesaria para detenerse
de los automóviles de marca “Velocidad Luz”es inferior a la de los automóviles de marca “Rayo Veloz”. por
lo tanto la la empresa de taxis deberı́a comprar los automoviles de la marca “Velocidad Luz”, asumiendo
un riesgo del 1 %.
41
5.4.2. Prueba de Hipótesis para la diferencia de Medias. Poblaciones Nor-
males Dependientes
Generalmente hablamos de poblaciones normales dependientes, cuando se consideran datos pareados o
pares de datos que se observan en los elementos de una misma muestra o en dos muestras de iguales
caracterı́sticas.
En el caso de observar datos en los elementos la misma muestra, la variable observada puede ser medida:
• Antes y después de cierto tiempo de aplicar un tratamiento.

• Por dos observadores distintos.
En el caso de observar una variable en dos muestras de iguales caracterı́sticas, generalmente se eligen los
sujetos de estudio, los que conforman el grupo experimental, donde se aplica un determinado tratamiento.
Luego para cada sujeto de este grupo se busca en la población un par, con las mismas caracterı́sticas,
excepto la caracterı́stica que se quiere observar. Estos sujetos forman el grupo control, donde no se aplica
ningún tratamiento o se aplica otro tratamiento. En ambos casos se obtienen n pares de observaciones
de la misma variable de la forma (x1i , x2i ), donde:
x1i : valor de la variable X, observada en la muestra 1, en el i-ésimo elemento.
x2i : valor de la variable X, observada en la muestra 2, en el i-ésimo elemento.
Se define di = x1i −x2i , posteriormente se calcula el promedio de las difrencia (d) y la desviación estándar
de estas diferencias (sd ), los cuales están involucradas en el estadı́stico de prueba.
 
 D = d0  D=6 d0
H0 : D ≤ d0 v/s H0 : D > d0
D ≥ d0 D < d0
 
2. Estadı́stico de prueba y región crı́tica.
n > 30, n ≤ 30,
d − d0 d − d0
Z= σd ∼ N (µ = 0, σ = 1) T = sd ∼ tn−1
√ √
n n
 
 (−∞, −Z1− α2 ) ∪ (Z1− α2 , ∞)  (−∞, −t1− α2 ,n−1 ) ∪ (t1− α2 ,n−1 , ∞)
RRH0 : (Z1−α , ∞) RRH0 : (t , ∞)
 1−α,n−1
(−∞, −Z1−α ) (−∞, −t1−α,n−1 )

Ejemplo 5.4.2. Un estudiante deIngenierı́a quiere comparar los precios que calculan los tasadores 1 y 2
para automóviles usados. Selecciono una muestra de 10 autos y pidió que ambos tasadores los valuaran.
Los siguientes son los precios (en cientos de dólares).
Automóvil 1 2 3 4 5 6 7 8 9 10
Tasador 1 54 52 28 48 35 26 54 48 56 48
Tasador 2 49 47 30 43 27 31 52 41 57 38
Suponiendo que los precios tienen distribución normal y con un nivel de significación del 5 %, ¿se puede
afirmar que el precio promedio del tasador 1 es mayor que el precio promedio del tasador 2?
Resolución. Primero determinamos las diferencias entre el precio del tasador 1 y el precio del tasador 2.
Tasador 1 54 52 28 48 35 26 54 48 56 48
Tasador 2 49 47 30 43 27 31 52 41 57 38
di 5 5 -2 5 8 -5 2 7 -1 10
42
Posteriormente determinamos el promedio y la desviaicón estándar de las diferencias.
n = 10, d = 3, 4, sd = 4, 79
Las hipótesis a probar son
H0 : D ≤ 0 v/s H1 : D > 0
Estadı́stico de prueba
d − d0 3, 4
T = sd = 4,79 = 2, 24
√ √
n 10
Región crı́tica
α = 0, 05 ⇒ t0,95;9 = 1, 83, luego RRH0 = (1, 83; ∞)
Decisión
Como 2, 24 > 1, 83 se rechaza H0 , a un nivel de significación del 5 %.
Conclusión
La evidencia estadı́stica indica que podemos afirmar que el precio promedio dado por el tasador 1 es
superior al precio promedio dado por el tasador 2. Asumiendo un riesgo del 5 %.
5.4.3. Prueba de Hipótesis para proporciones

Prueba de Hipotesis para la proporción
 
 p = p0  p 6= p0
H0 : p ≤ p0 v/s H0 : p > p0
p ≥ p0 p < p0
 
p̂ − p0
Z=q ∼ N (µ = 0, σ = 1)
p0 (1−p0 )
n

 (−∞, −Z1− α2 ) ∪ (Z1− α2 , ∞)
RRH0 : (Z1−α , ∞)
(−∞, −Z1−α )

Prueba de Hipóotesis para la diferencia de proporciones

 
 p1 − p2 = 0  p1 − p2 =
6 0
H0 : p1 − p2 ≤ 0 v/s H0 : p1 − p2 > 0
p1 − p2 ≥ 0 p1 − p2 < 0
 

p̂1 − p̂2 n1 p̂1 + n2 p̂2
Z=r ∼ N (µ = 0, σ = 1), p̂ =
n1 + n2
p̂(1 − p̂) n11 + 1
n2

 (−∞, −Z1− α2 ) ∪ (Z1− α2 , ∞)
RRH0 : (Z1−α , ∞)
(−∞, −Z1−α )

43
Ejemplo 5.4.3. Una empresa importa un producto de dos plantas productoras, ubicadas en dos paı́ses
del Asia. La calidad del producto depende del porcentaje de productos defectuosos que llega a destino.
Para un determinado envı́o de estos paı́ses se determino lo siguiente:
Paı́s Total de productos Productos defectuosos

Korea 150 10
Japón 165 16
1. En Korea se afirma que no más del 8 % de sus productos que llega a destino es producto defectuoso.
Usando un nivel de significación del 6,7 % determinar si esta afirmación es verdadera.
2. De acuerdo a os resultados obtenidos y usando un nivel de significación del 4,2 %, ¿cuál de las plantas
productoras produce un producto de mayor calidad?
Resolución
X: número de productos defectuosos.
Población 1: Productos producidos en la planta de Korea.
Población 2: Productos producidos en la planta de Japón.
10 16
n1 = 150, p̂1 = 150 = 0, 0667, n2 = 165, p̂2 = 165 = 0, 0970.
Planteo de hipótesis
H0 : p − 1 ≤ 0, 08 v/s H1 : p1 > 0, 08
p̂1 − p0 0, 0667 − 0, 08
Z=q = q = −0, 60
p0 (1−p0 ) 0,08(0,92)
n1 150
Región crı́tica
α = 0, 067 ⇒ Z0,933 = 1, 50, luego RRH0 = (1, 50; ∞)
Decisión
Como −0, 60 ∈ RRH0 no se rechaza H0 .
Conclusión
De acuerdo a la evidencia estadı́stica la porporción de productos defectuosos provenientes de la fabrica de
Korea no es de más del 8 %. Por l otanto la afirmación es correcta.
2.
Planteo de hipótesis
H0 : p1 − p2 ≥ 0 v/s H1 : p1 − p2 < 0
n1 p̂1 + n2 p̂2 10 + 16 26
p̂ = = = = 0, 0825
n1 + n2 150 + 165 315
p̂1 − p̂2 0, 0667 − 0, 0970
Z=r =q 1 1
= −0, 97
p̂(1 − p̂) n11 + 1 0, 0825(0, 9175) 150 + 165
n2
Región crı́tica
α = 0, 042, luego RRH0 = (∞; −1, 73).
Decisión
−0, 97 ∈
/ RRH0 , entonces no se rechaza H0 .
Conclusión: La evidencia estadı́stica muestra que no existe diferencia significativa entre las proporciones
de productos defectuoros de las plantas de Korea y de Japón. Por lo tanto la calidad del producto es la
misma, no importando si propiene de Korea o de Japón.
44

Apuntes Estadistica

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apuntes Estadistica

Uploaded by

Copyright:

Available Formats

Capı́tulo 1

1.1.1. Definiciones previas

Paraámetro: Medida de resumen calculada sobre la población.

Estadı́stico: Medida de resumen calculada sobre la muestra.

1.1.2. Caracterı́sticas de los conjuntos de Datos

Unidad de análisis: ..........................................

1.1.3. Tipos de Variable

1.2. Organizació de Datos

Figura 1.1: Rendimiento de 78 automóviles de la empresa de rentas “Car7&Aut”

Tabla 1.2: Número de reparaciones de 78 automóviles de la empresa de rentas “Car7&Aut”

Figura 1.2: Número de reparaciones de 78 automóviles de la empresa de rentas “Car7&Aut”

Tabla 1.3: Consumo mensual de combustible de 78 automóviles de la empresa de rentas “Car7&Aut”

1.3. Medidas de Resumen o estadı́grafos

1.3.1. Medidas de resumen de posición

Estadı́grafo Notación Definición

Rango R Es el intervalo entre el valor máximo y el valor mı́nimo;

1.3.3. Medidas de resumen de simetrı́a

• γ1 = 0, existe aproximadamente la misma canti-

• K1 = 0, la distribución es mesocúrtica. Al igual

Número de reparaciones Consumo mensual de combustible

mi , es el valor de la categoria i o el punto medio del i-ésimo intervalo de clase.

Variable agrupada en categorı́as Variable agrupada en intervalos de clase

1.4. Procesamiento de datos de una variable bidimensional

1.4.1. Diagrama de dispesión

1.4.2. Distribuciones Marginales

1.4.3. Distribuciones condicionales

Tabla 1.6: Distribución marginal de la producción

Análogamente si se considera el comportamiento de la variable Y , para algún (o algunos) valor(es)

Tabla 1.7: Distribución Condicional de X/Y ∈ (1,7, 2,3]

Tabla 1.8: Distribución condicional de Y /X = 4 o 6

En este caso el espacio muestral es

Ω = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}

Algunos sucesos asociados a este experimento son:

B: “Que se obtenga al menos dos caras al lanzar la moneda tres veces”.

B = {CCS, CSC, SCC, CCC}

C = {CSS, CSC, CCC}

número de casos favorables #A

2.2. Operatoria entre sucesos

1. Ac , “Complemento de A”, es el suceso que ocurre si y solamente si (ssi) no ocurre A.

2. A ∩ B, “A interceptado con B”, es el suceso que ocurre ssi A y B ocurren simultáneamente.

5. A ◦ B = (A ∩ B c ) ∪ (B ∩ Ac ), es el suceso que ocurre ssi sólo ocurre A o sólo ocurre B (solamente

Luego los sucesos son:

Para estos sucesos tenemos los siguientes sucesos compuestos.

2. Obtener un número impar de puntos.

A : que el número de puntos obtenidos sea par, A = {2, 3, 4}

2.3. Axiomas y propiedades de probabilidad

2. La constructora logre ambos objetivos.

3. La constructora gane la licitación pero no realice

4. La constructora sólo logre uno de los dos objeti-

Primero definimos los sucesos simples:

2.4. Dependencia e independencia entre sucesos

donde B, es llamado el sucesso de interes y A el suceso condición.

Ejemplo 2.4.1. Usando la información dada en el Ejemplo 2.3.1.

Ley del producto. Si en la ecuación 2.4.1 se despeja P (A ∩ B), se obtiene:

P (A ∩ B) = P (A)P (B/A), Ley del producto para dos sucesos dependientes.

P (R1 ∩ R2 ∩ V3 ∩ A4 ) = P (R1 )P (R2 /R1 )P (V3 /R1 ∩ R2 )P (A4 /R1 ∩ R2 ∩ V3 )

Y : número de fichas verdes extraı́das.

Z: número de fichas azules extraı́das.

Por lo tanto, ahora tenemos que

P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 ) · · · P (An ) (2.4.4)

P (Ac ∩ B ∩ C c ∩ Dc ) = P (Ac )P (B)P (C c )P (Dc )

Ejercicio 2.4.1. Sean A y B dos sucesso m.i, demuestre que

2.5. Teorema de probabilidad Total y Teorema de Bayes