You are on page 1of 9

UNIDAD II: ESTADSTICA APLICADA.

2.1 INFERENCIA ESTADSTICA.



2.1.1 Concepto.

Es evidente que un conocimiento previo por parte del investigador de las caractersticas de la
realidad de la poblacin mejora o debe mejorar los resultados inferenciales que se pueden obtener
de la obtencin de una muestra; parece claro que si bien el mtodo de seleccin aleatoria conlleva
los mejores resultados, quiz el adecuar la manera de extraer la muestra a las posibles distintas
naturalezas de las poblaciones puede mejorar el rendimiento, aunque slo fuere a nivel de costos.
No es por tanto lo mismo intentar conocer la altura media de los habitantes de un pas, que el
nmero de errores en una gran contabilidad, dado que la naturaleza de su universo y por tanto el
comportamiento poblacional son distintos. Es por ello, que para distintas "naturalezas" del
problema han de plantearse distintas soluciones, si bien todas, o casi todas, pasan por la
aleatoriedad; de ah que se establezcan diversas "tcnicas" o "mtodos" de muestreo, de los que
brevemente enumeramos algunos.

El objetivo de la estadstica inferencial es obtener la informacin acerca de una poblacin,
partiendo de la informacin que contiene una muestra. El proceso que se sigue para seleccionar
una muestra se denomina Muestreo.

Las ventajas que nos brinde el muestreo son:
- Los operativos son menores.
- Posibilita analizar un mayor nmero de variables.
- Permite controlar las variables en estudio.

TIPOS DE MUESTREO

- Muestreo Probabilstico: Cuando el muestreo o proceso para seleccionar una muestra es
aleatorio. As definimos una muestra probabilstica a una muestra extrada de una poblacin de
tal manera que todo elemento de la poblacin conocida pueda ser incluida en la muestra. Puede
ser a su vez:

A. MUESTREO ALEATORIO SIMPLE: (M.A.S.): Es aquel muestreo aleatorio en el que la
probabilidad de que un elemento resulte seleccionado se mantiene constante a lo largo de
todo el proceso de obtencin de la misma. La tcnica del muestreo puede asimilarse a un
modelo de extraccin de bolas de una urna con devolucin (reemplazamiento) de la bola
extrada. Un mismo dato puede, en consecuencia, resultar muestreado ms de una vez. Cada
eleccin no depender de las anteriores y, por tanto, los datos muestrales sern
estocsticamente independientes.

B. MUESTREO ALEATORIO SISTEMTICO. Esta tcnica consiste en extraer elementos de la
poblacin mediante una regla sistematizadora que previamente hemos creado (sencillamente
cada K elementos). As; numerada la poblacin, se elige (aleatoriamente) un primer elemento
base, partiendo de ste se aplica la regla para conseguir los dems hasta conseguir el tamao
muestral adecuado. Este procedimiento conlleva el riesgo de dar resultados sesgados si en la
poblacin se dan periodicidades o rachas.

C. MUESTREO ALEATORIO ESTRATIFICADO: Consiste en considerar categoras tpicas
diferentes entre s (estratos) que poseen una gran homogeneidad interna (poca varianza
interna) y no obstante son heterogneos entre s (mucha varianza entre estratos). La muestra
se distribuye (se extrae de) entre los estratos predeterminados segn la naturaleza de la
poblacin (ejemplo: sexo, lugar geogrfico, etc.). Dicha distribucin-reparto de la muestra se
denomina afijacin ; que puede ser de varias formas :
- Afijacin simple: a cada estrato le corresponde igual nmero de elementos (extracciones)
muestrales.
- Afijacin proporcional: La distribucin se hace de acuerdo con el peso (tamao) relativo de
cada estrato.
- Afijacin ptima: Se tiene en cuenta la previsible dispersin de los resultados, de modo
que se considera la proporcin y la desviacin tpica.

D. MUESTREO POR CONGLOMERADOS: La unidad muestral es un grupo de elementos de la
poblacin que forman previsiblemente una unidad de comportamiento representativo. Dicha
unidad es el conglomerado cuyo comportamiento interno puede ser muy disperso (varianza
grande) pero que presumiblemente poseer un comportamiento prximo a otros
conglomerados (varianza entre conglomerados, pequea). Los conglomerados se estudian en
profundidad hasta conseguir el tamao muestral adecuado.

E. OTROS TIPOS DE MUESTREO. Es evidente que los planteados no son las nicas tcnicas
de muestreo. Existen otras como las no aleatorias: Cuotas, Intencional, Incidental, bola de
nieve, etc., y otras aleatorias y complicadas como el muestreo por superpoblaciones.

2.1.2 ESTIMACIN.

Cuando queremos estimar el valor de un parmetro, disponemos de dos aproximaciones: La
estimacin puntual y la estimacin por intervalos.

Estimacin puntual. La estimacin puntual asigna directamente al parmetro el valor obtenido
para el estadstico.

La estimacin puntual constituye la inferencia ms simple que podemos realizar: asignar al
parmetro el valor del estadstico que mejor sirva para estimarlo. Pero para que un estadstico sea
considerado un buen estimador ha de cumplir ciertas condiciones. Si usamos los smbolos para
un parmetro cualquiera, y

, para un posible estimador de , podemos enunciar las propiedades


de la siguiente forma:

- Carencia de sesgo: Un estimador,

, ser insesgado si su valor esperado coincide con el


del parmetro a estimar, .
E(

) =

- Consistencia: Un estimador,

, ser consistente si, conforme aumenta el tamao muestral,


n, su valor se va aproximando a . Expresado ms formalmente, indica que dada una
cantidad arbitrariamente pequea, , cuando n tiende a infinito,
P(|

|< ) 1

- Eficiencia: Dados dos posibles estimadores

1
y

2
, diremos que

1
es un estimador ms
eficiente que

2
si se cumple que

<



- Suficiencia: Un estimador,

, ser suficiente si utiliza toda la informacin muestral


disponible.

La tabla a continuacin muestra los estimadores de algunos parmetros:

Estimadores Parmetros
Insesgados Consistentes Eficientes


P P P

Y el siguiente grfico puede ilustrar el significado de esas propiedades:





Distribucin muestral de la media.

La distribucin muestral (de la media o de cualquier otro estadstico) es fundamental: si la
conocemos podemos saber con qu probabilidad puede adoptar determinados valores. Eso nos
permitir responder a ciertas cuestiones, por ejemplo, obtener el intervalo de confianza para la
media, hacer un contraste de hiptesis o calcular la potencia de una prueba de hiptesis.

Conocer la distribucin muestral de un estadstico (de aqu en adelante, la media) implica conocer
su forma y sus parmetros. Por ejemplo, saber si su forma es la de la distribucin normal, y saber
que los parmetros son: media, 30 y desviacin tpica, 6.5. A fin de cuentas, lo que nos interesa
es que la distribucin muestral coincida con alguna conocida, de la que dispongamos de tablas.

La forma en que la estadstica nos permitir conocer la DMM es a travs de condiciones o
supuestos: Si nuestros datos cumplen lo que pide un procedimiento estadstico, entonces ese
procedimiento estadstico nos da alguna informacin til. Por ejemplo,

Si entonces

1
tenemos un muestreo aleatorio,
y las observaciones son
independientes,
y el tamao de la muestra es n,
los parmetros de la DMM son





2
tenemos un muestreo aleatorio,
y las observaciones son
independientes,
y la distribucin de la variable X es
normal,
la DMM es normal, con independencia del
tamao de la muestra, n
y con parmetros






3
tenemos un muestreo aleatorio,
y las observaciones son
independientes,
y no conocemos la distribucin de
la variable X,
la DMM se aproximar a la normal, conforme
aumenta el tamao de la muestra, n
y con parmetros



estamos en cualquiera de los casos
anteriores,
y desconocemos ,
la DMM se aproximar a la distribucin t con n
1 grados de libertad,

y con parmetros


De (1) obtenemos los parmetros de la DMM: la media y la desviacin tpica, que suele
denominarse error tpico de la media.

De (2) podemos deducir que, si nuestra variable de inters es normal en la poblacin, tambin lo
ser nuestra DMM.

De (3) extraemos que, aunque la distribucin de la variable X en la poblacin no sea normal o, lo
ms frecuente, si no sabemos si es o no normal, la DMM s ser normal si el tamao de la
muestra, n, es lo suficientemente grande (aproximadamente mayor que 30).

Gracias a (4) solucionamos un problema bastante comn: el no conocer la desviacin tpica
poblacional de la variable X. En este caso usamos como estimador S
n1
, pero entonces la DMM
sigue la forma de la distribucin t. Las distribuciones normal y t se diferencian visiblemente slo
cuando los grados de libertad son pequeos, como se observa en las grficas siguientes. Cuando
aumenta n, y S
n1
se van pareciendo ms y ms, y las distribuciones normal y t tambin. Es por
esto que, a un nivel prctico, a partir de un n mayor que 30 suelen usarse indistintamente. En las
dos grficas que siguen se pueden ver las distribuciones normal (azul) y t (rojo) para dos tamaos
de muestra distinto: n igual a 5 (arriba) y n igual a 30 (debajo). Para ambas se calcula los lmites
que abarcan un 95% del rea total de cada curva. Las discrepancias son evidentes con n igual a
5, pero inapreciables para n = 30.


con n = 5.


con n = 30.

A efectos prcticos, todo lo visto supone lo que detallamos a continuacin. Considrese siempre
que el muestreo es aleatorio (los datos proceden de elementos representativos) e independiente
(es decir, que el haber elegido un elemento no afecta a la probabilidad de elegir otros). En estas
condiciones, puede ocurrir lo siguiente:

- Como es difcil conocer , consideraremos siempre de partida que la DMM se distribuir
segn t
n1
, ya sea cuando sepamos que la variable X se distribuye normalmente o cuando
n sea igual o mayor que 30 o ambas cosas. Como las tablas de la distribucin t aparecen
tipificadas (con media = 0 y desviacin tpica = 1), para hacer cualquier uso de ella
deberemos tipificar el valor de inters, X:



- Si, en el caso anterior, conocemos adems la desviacin tpica poblacional, entonces la
DMM se distribuir segn la distribucin normal: Por la misma razn de antes, para usar
las tablas previamente debemos tipificar:



Pero si no conocemos la forma de la distribucin de la variable X, ni el n es lo suficientemente
grande como para hacer uso del punto (3), entonces no podemos utilizar esta informacin. [Pero
no todo est perdido: En ese caso habra que estudiar la forma de la distribucin de la variable X,
transformar las puntuaciones hasta que adopten una forma normal o, en ltima instancia, usar
pruebas no paramtricas, que no imponen supuestos sobre la forma de la distribucin. Todo esto
son conceptos que se vern ms adelante.]

Como regla general utilizaremos siempre la distribucin t (rara vez conoceremos ), aunque
podremos usar la tabla de la distribucin normal (siempre que n sea suficientemente grande) para
localizar valores que no aparezcan en la tabla de la distribucin t.

Qu obtenemos de todo esto?
Lo que afirmbamos anteriormente: que conociendo cmo se comportan las medias (sus
distribuciones muestral o distribucin de probabilidad), podemos usar estas probabilidades
siempre que sea necesario. Una de ellas, que veremos ahora, es la obtencin de intervalos de
confianza. Otra aplicacin, ms adelante, ser utilizada en el contraste de hiptesis.

Estimacin por intervalos. La "estimacin por intervalo o intervalos de confianza" consiste en
determinar un par de valores a y b, tales que constituidos en intervalo [a, b]; y para una
probabilidad 1 - o prefijada (nivel de confianza) se verifique en relacin al parmetro u a estimar
que se cumpla:

o 0 = e 1 ]) , [ ( b a P en otros trminos: o 0 = s s 1 ) ( b a P .

Podemos considerar el nivel de confianza (1-o) que hemos prefijado para la expresin anterior
como la probabilidad que existe (antes de tomar la muestra) de que el intervalo a construir a partir
de la muestra incluya el verdadero valor del parmetro a estimar. Refleja la "confianza" en la
"construccin" del intervalo y de que ste, tras concretar la muestra contendr el valor a estimar.
De ah que en trminos numricos dicho nivel o probabilidad haya de tomar un valor alto (0.9,
0.95, 0.99).

Evidentemente el complementario al nivel de confianza; es decir o, nivel de significacin,
supondr las probabilidades de cometer el error de no dar por incluido el verdadero valor del
parmetro a estimar en un intervalo en el que realmente si est. De ah y dado que se trata de un
error posible a cometer, su cuantificacin en trminos de probabilidad sea muy pequea (0.1,
0.05, 0.005,..).

En relacin a lo anterior. Obviamente, cuanto mayor sea el nivel de confianza prefijado la amplitud
del intervalo de estimacin ser tambin mayor y por tanto la estimacin ser menos precisa.

La siguiente tabla presenta las diferentes frmulas que ayudaran a crear los intervalos.



Para la distribucin Normal utilice la siguiente tabla:

Nivel de confianza o o/2
2
o
Z
90% 0.1 0.05 1.645
95% 0.05 0.025 1.96
99% 0.01 0.005 2.576


Ejemplo 1.

En una poblacin cuya distribucin se desconoce se obtiene una muestra (M.A.S.) de 2000
valores de la que resulta una media de 225 y una desviacin tpica de 10. Suponiendo que la
varianza muestral coincide con la poblacional, estimar un intervalo para la media de la poblacin
con un nivel de confianza del 95%.

Tendramos 1-o =0.95 luego o =0.05; S=10=o (muestra grande n>30); n=2000, para una
poblacin normal.
95 . 0 ) (
2 2
= + s s
n
Z x u
n
Z x P
o o
o o


el resultado sera : e [224.56 , 225.44] con el 95 % de confianza.

Ejemplo 2.

Las ventas diarias de cierta oficina comercial se supone que siguen una distribucin normal. Para
estimar el volumen medio de ventas por da se realiza una muestra de 10 das escogidos al azar,
resultando que la media de las ventas de esos 10 das es 100 con una desviacin tpica de 4. Dar
un intervalo de estimacin para el volumen medio de ventas por da con una confianza del 95 %.

Conocemos que segn la informacin que poseemos, estamos ante: Distribucin normal; n=10
(muestra pequea); S=4(poblacin desconocida); media muestral=100;
Para 1-o =0.95, luego o =0.05 con lo que 26 . 2 ) 9 (
2
= gl t
o
(segn tabla T)
95 . 0 )
1 1
(
2 2
=

+ s s

n
S
t x u
n
S
t x P
o o

El resultado sera: e [96.98 ; 103.02] con el 95 % de confianza.


Ejemplo 3.

Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se
producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas
que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias
por hora = 4000, y varianza de dicha muestra S
2 =
4000. Obtener dicho intervalo con un nivel de
confianza del 95 %.

Queremos construir un intervalo para la media con las siguientes caractersticas:

Tamao muestral=n=1000, con muestreo aleatorio simple, la poblacin no es normal ni
conocemos su varianza.
El resultado de la muestra es 4000 = x , S
2
=4000.

Si bien se trata de un intervalo para la media con varianza desconocida y poblacin no normal,
dado que el tamao muestral es grande podemos suponer normalidad y tomar como varianza
poblacional a la muestral as:
95 . 0 ) (
2 2
= + s s
n
z x u
n
z x P
o o
o o


El resultado sera: e [3996.08; 4003.92] con el 95 % de confianza.

Ejemplo 4. Una muestra aleatoria de tamao n = 100 se extrae de una poblacin con = 5.1.
Dado que la media muestral es =21.6, constryase un intervalo de confianza del 95% para la
media de la poblacin.
Ejemplo 5. Considrese 80 mediciones de la emisin diaria (en toneladas) de xido de azufre de
una planta industrial, las cuales tienen una media de 18.85 y una varianza de 30.77. Constryase
un intervalo de confianza del 99% para la media real de la emisin diaria de xido de azufre de la
planta.
Ejemplo 6. La prdida promedio en el peso de 16 aspas despus de cierto intervalo de tiempo de
un molino de aspas es de 3.42 gramos, con una desviacin estndar de 0.68 gramos.
Constryase un intervalo de confianza del 99% para la prdida promedio real de peso de las
aspas en las condiciones establecidas.
Determinacin del tamao de la muestra.

Cuando se necesita informacin para realizar estudios con datos estadsticos y no se puede
contar un censo, porque es muy caro, o porque demora mucho o no se cuenta con el personal
adecuado; entonces ser necesario obtener una muestra, ahora. Pero viene la pregunta: cul
ser el nmero adecuado mnimo del tamao de la muestra? En principio existe todo un proceso
para obtener una muestra representativa de la poblacin. Si el mtodo es aleatorio o
probabilstico, entonces el nmero adecuado de los elementos de la muestra, se pueden calcular
usando las siguientes frmulas.

1. CUANDO EL ESTUDIO ES DE CARCTER CUALITATIVO.

a. Cuando se supone que N es muy grande o cuando el muestreo es con reposicin:
2
2
E
PQ Z
n
o
=


b. Cuando la poblacin es finita (se conoce N) o el muestro es sin reposicin.
PQ Z E N
PQ NZ
n
2 2
2
) 1 (
o
o
+
=

Donde:
P=Proporcin de xito; que se conoce por estudios anteriores o similares.
Q=(1-P). Proporcin de fracaso.
Zo=Valor que se obtiene de la distribucin normal, para un nivel de significacin a.
Generalmente se toma:
Z=1.96 para un nivel de significancia del 5%.
Z=2.576 para un nivel de significancia del 1%.
E=Error de estimacin. Valor que lo determina el investigador. Se sugiere valores en torno
al 5%.
N= Nmero de los elementos de la poblacin.


Nota:
Si no se conoce P, se puede adoptar las siguientes decisiones:
i) Tomar una muestra piloto y calcular el valor de P.
ii) Considerar el valor de P=0.5, lo cual dar el nmero de elementos de la muestra el
mayor posible.

2. CUANDO EL ESTUDIO ES DE CARCTER CUANTITATIVO.

a) Cuando no se conoce el tamao N de la poblacin o ste es infinito:
2
2 2
E
Z
n
o
o
=

b) Cuando el tamao N de la poblacin es finito:
2 2 2
2 2
) 1 ( o
o
o
o
Z E N
NZ
n
+
=

Ejemplo 7.

Se van a realizar un gran y desconocido nmero de ensayos para calibrar la resistencia media a la
rotura de un determinado azulejo en una partida de 10 000,000 unidades. Si deseamos cometer
un error inferior a 10 kg/cm
2
, y por ensayos anteriores conocemos que la varianza en la rotura ha
sido de 40 (kg/cm
2
)
2
, Qu nmero de ensayos hemos de realizar si hemos decidido trabajar con
un nivel de confianza del 95%?

Si suponemos un gran nmero de ensayos, suponemos, tambin, que el tamao muestral es
grande, por lo que podemos establecer normalidad. Los datos serian los siguientes: o=95%,
E
2
=10 kg/cm
2
, o
2
=40(kg/cm
2
)
2
.
Utilizando la frmula siguiente:
2
2 2
E
Z
n
o
o
= , tenemos:
15 36 . 15
10
) 40 )( 96 . 1 (
2
~ = = n muestras de azulejos.

Ejemplo 8.

Para conocer la valoracin en forma de porcentaje de aceptacin hacia un determinado profesor
decidimos encuestar a un determinado nmero de sus 100 alumnos. Calcular dicho nmero, si el
error que estamos dispuestos a admitir es del ms menos 3% y trabajamos con un nivel de
confianza del 95%.

Tenemos los siguientes datos:
N=100, E=3%, o=95%, p=0.5. q=1-p=0.5

Utilizando la frmula tenemos:
91 51 . 91
) 5 . 0 )( 5 . 0 ( ) 96 . 1 ( ) 03 . 0 )( 1 100 (
) 5 . 0 )( 5 . 0 ( ) 96 . 1 )( 100 (
) 1 (
2 2
2
2 2
2
=
+
=
+
=
PQ Z E N
PQ NZ
n
o
o
alumnos.

You might also like