You are on page 1of 18

INVESTIGACIN Y EXPERIMENTACIN

APUNTES DE ESTADSTICA
PARA INVESTIGACIN





I ng. Oscar Tinoco Gmez

Agosto del 2012

Otg Pg . 1
ESTADSTICA DESCRIPTIVA

En trminos generales, la investigacin cientfica est dirigida al estudio de una
determinada poblacin. Poblacin que habitualmente la componen personas, animales u
objetos con ciertas caractersticas o alguna cualidad de inters particular para el
investigador.

No siempre es posible estudiar toda una poblacin, es necesario tomar una
muestra de sta, estudiarla e inferir que los resultados que se obtienen a
partir de ella para observar si son representativos de lo que se podra haber
obtenido en la poblacin, si se la hubiese estudiado.

Este proceso requiere el uso de la estadstica en dos etapas:
primero, obtener una estadstica descriptiva de los datos muestrales;
segundo, hacer inferencias a la poblacin mediante estadstica analtica.

Ambas etapas requieren seguir pasos en forma rigurosa, de modo que los resultados
tengan validez.


El propsito general de esta rama de la estadstica es describir un conjunto de datos,
resumiendo sus principales caractersticas y permitindonos tomar decisiones de diversa
ndole.










Otg Pg . 2
CONCEPTOS BSICOS

Poblacin y Muestra
Generalmente las inquietudes de investigacin nacen del desconocimiento que se tiene
de alguna poblacin de inters: personas que mueren a causa de un infarto, poblacin
que sufre de analfabetismo, productos de calidad deficiente, nios con bajo peso de
nacimiento, nios que desertan la escuela, etc.

Poblacin: "Es el Conjunto total de objetos o de personas, con algo en comn, de
inters en un estudio".

Por qu no estudiar la poblacin completa?

- Problemas presupuestarios. Es de un alto costo hacer un censo.
- Limitaciones de tiempo. Adems de que un estudio prolongado
necesariamente debe considerar cambios que se produzcan en las variables
importantes a causa del tiempo.
- Dificultad de acceso. No necesariamente dificultad geogrfica, sino de
identificacin de los individuos que componen la poblacin (ejemplo:
poblacin de portadores de VIH).

Debido a estos y otros problemas semejantes, debemos conformarnos con trabajar con
una muestra de la poblacin de inters.

Muestra: "Es un subconjunto de la poblacin en estudio. Ser el subconjunto que es
realmente observado".

El objetivo, entonces, es trabajar con una muestra de la poblacin de inters, pero a la
vez queremos ganar informacin sobre la poblacin de la cual proviene. Es decir,
deseamos que las caractersticas de la poblacin se vean reflejadas en la muestra que
obtengamos.

Para cumplir con lo anterior, la muestra seleccionada debe cumplir con ciertos
requisitos.
La muestra debe ser:

- Aleatoria. (Seleccionada al azar, cada elemento debe tener la misma
posibilidad de ser seleccionado)
- De un tamao mnimo.
- Representativa de la poblacin. (debe ser un reflejo de ella)

Una muestra es aleatoria cuando todas las personas u objetos de la poblacin tienen la
misma probabilidad de ser elegidos en la muestra.

Una muestra es de tamao mnimo adecuado cuando las inferencias que se puedan
hacer en base a sta tienen un error de estimacin acotado (generalmente, el error
mximo aceptado es de 5%).

Una muestra es representativa de una poblacin cuando la(s) caracterstica(s) ms
importantes de la poblacin est(n) presente(s) en la misma proporcin o promedio en la

Otg Pg . 3
muestra. Es decir, si una poblacin tiene 40% de hombres y 60% de mujeres, esta
proporcin se debe mantener en la muestra. Si la edad promedio de la poblacin es 50
aos, en la muestra se observa ms o menos lo mismo.

Si una muestra es aleatoria y de tamao adecuado, entonces esta suele ser adems
representativa de la poblacin de inters. Esto implica que la aleatoriedad y el tamao
mnimo son elementos controlables (existen mtodos de seleccin aleatoria de los datos
y podemos calcular el tamao mnimo adecuado). En cambio, la representatividad es
una cualidad de la muestra obtenida.


TIPOS DE VARIABLE.
Una vez tomada la muestra, cada sujeto que la compone ser caracterizado segn ciertas
cualidades o cantidades de inters. Por ejemplo, en el estudio social de un conjunto de
personas, caractersticas como la edad, sexo, estado civil, peso, etc., son denominadas
variables.

Caracterstica: Objeto de inters de nuestro estudio (de la muestra)
Variable: Expresin de la "caracterstica que puede tomar uno o ms
valores (aleatorios) en los elementos de la poblacin.

Escalas de Medicin

Todas las variables, con la sola excepcin de las usadas como variables de
identificacin (nombre, nmero de ficha clnica, caso, etc.), se pueden clasificar en uno
de los grupos siguientes:

Escalas Descripcin Ejemplo
Nominal Sus valores se clasifican en categoras o clases, entre
las cuales no se puede establecer ningn ordenamiento
sugerido por la magnitud de sus valores. Relacin de
igualdad
Sexo
Estado civil
Regin
Ordinal Sus valores se pueden clasificar en categoras y se
pueden ordenar. Relacin de mayor o menor. Relacin
de igualdad
Clase social
Orden mrito

Intervalo Diferencia de los objetos en cantidad. Relacin de
distancia. Relacin de orden. Relacin de igualdad. El
cero es arbitrario y no denota ausencia de la propiedad
Temperatura
Razn Existencia de un cero real (ausencia de propiedad).
Relacin de distancia. Relacin de orden. Relacin de
igualdad
Nro de hijos
Sueldo

Observacin: Una variable intercalar o de razn puede transformarse en ordinal o
nominal construyendo rangos para sta. Por ejemplo, el peso del recin nacido puede
expresarse tambin como:
Ordinal: Hasta 2000 grs, 2001-3000, 3001-4000, 4001-Ms.
Nominal: Bajo Peso (<3000 grs), No Bajo Peso (>=3000 grs).




Otg Pg . 4
Esto mismo puede representarse de manera esquemtica:

Razn 0 absoluto
Intervalo Distancia
Ordinal Relacin de orden
Nominal Relacin de identidad


Tipos de Variables a describir

Un paso importante en el estudio del comportamiento de una o ms poblaciones, luego
de tomar una muestra aleatoria de cada una, consiste en describir adecuadamente estas
muestras, de modo que las medidas resumen que obtengamos reflejen bien el
comportamiento poblacional.
La forma de describir las variables muestrales depende del TIPO al que pertenezca cada
variable, y para efecto de simplificar esta descripcin basta con considerar dos grandes
tipos:

1. Variables Categricas. Incluye a todas las variables para las cuales no es posible
(y no tiene sentido) obtener su promedio. Incluye a las nominales (sexo,
profesin, etc.), las ordinales que slo tienen categoras ordenadas (Nivel
socioeconmico, grado de dolor, etc.) y las intervalares o de razn expresadas en
rangos (como los niveles de ingresos en rangos).


2. Variables Numricas. Incluye a todas las variables para las cuales tiene sentido
obtener su promedio. Incluye a todas las intervalares y de razn (edad, peso,
talla, temperatura) y las ordinales promediables (puntaje, etc.).

Esta clasificacin nos permitir ms adelante precisar las formas de representacin de
las variables.
Otra clasificacin genrica de las variables es aquella las divide en cualitativas y
cuantitativas.
- Una variable es cualitativa cuando ella describe o categoriza a una cualidad
del elemento muestral. Por ejemplo, sexo, color de ojos, etc.
- Decimos que una variable es cuantitativa cuando ella puede asumir valores
numricos enteros (discretos) valores numricos continuos (reales)

- Una variable es discreta cuando ella puede tomar valores puntuales de
un determinado rango numrico. Por ejemplo, el nmero de hijos.
- Una variable es continua cuando ella puede tomar todos los valores
posibles en un determinado rango numrico. Por ejemplo, el peso, la
distancia entre dos ciudades, edad, etc.



VARIABLES



V. Cualitativas
(atributos)
V. Cuantitativas
(Numricas)
Discretas o enteras
Continuas reales

Otg Pg . 5
Diferencias que se derivan de la eleccin de una escala de medicin para las
variables?

Del texto Investigacin cuantitativa en Psicologia (David Clark, 2002) hemos
adaptado el siguiente ejemplo, que ilustra los diferentes niveles de informacin que
pueden obtenerse luego de elegir una escala de medicin para una misma variable.

Si se pregunta:
Fuma?
(Si / No)
se obtendrn datos nominales
Si la pregunta se formula
Fuma?
Nada en absoluto
Entre uno y 10 cigarrilos al da
Ms de 10 cigarrillos al da
se obtendrn datos ordinales, que luego nos permitiran distinguir entre los
fumadores, a aquellos que fuman bastante o aquellos que fuman poco
En cambio, si la interrogante es de la forma:
Cuntos cigarros fuma al da?
Los datos recopilados sern datos de razn, los mismos que proporcionarn un
indicador mucho ms preciso respecto al hbito de fumar, pudindose obtener
los correspondientes estadsticos (media, desviacin estndar, entre otros)

RECOLECCIN Y ORGANIZACIN DE LOS DATOS

Ambos aspectos son parte fundamental de la Estadstica Descriptiva.
Recoleccin de datos
La recoleccin de datos comprende:
- Definicin precisa del objetivo (determinacin del problema a investigar)
- Definicin de las variables y de la poblacin de inters.
- Mtodos para obtener los datos. Puede ser mediante mtodos experimentales,
encuestas por muestreo, entrevistas, cuestionarios, etc. En el caso de los
cuestionarios se pueden recabar por entrevista directa, correo postal o
electrnico o por sitios web. Si el marco muestral fuese finito y de tamao
moderado puede realizarse el estudio a nivel de censo, de lo contrario debe
elegirse una muestra aleatoria.
Representacin de los datos
Un primer paso en el anlisis estadstico es la presentacin adecuada de los mismos,
habiendo para ello diversas formas:
- Representacin tabular: tablas de frecuencias, tablas cruzadas, etc
- Representacin Tallo-Hojas
- Representacin grfica:
o Diagrama de cajas y brazos
o Histogramas
o Polgonos de frecuencias
o Grficos de barras, circulares, lineales, etc.
Ejemplo:
Se muestra a continuacin la edad de los alumnos de Estadstica del V Ciclo en una
universidad capitalina

Otg Pg . 6
EDAD (en aos)
Varn 19 20 18 24 21 19 22 20 18 22 23
Mujer 21 20 19 18 20 19 21 22 21 23 23

Esta representacin muestra la edad de los alumnos segn su gnero.

Tablas de Frecuencias
Estas tablas sirven para resumir en forma ordenada el nmero de casos y porcentaje
obtenido para cada categora de una variable. Aunque hay muchas formas de tabular
resultados, la presentacin habitual de la tabla es la siguiente:

Variable Edad
Valor fi % relativo % acumulado
18 3 13.6 13.6
19 4 18.2 31.8
20 4 18.2 50.0
21 4 18.2 68.2
22 3 13.6 81.8
23 3 13.6 95.5
24 1 4.5 100.0
Total (n) 22 100.0
En donde: fi representa la Frecuencia absoluta y n el nmero total de casos.

Variable Sexo
Valor fi % relativo % acumulado
Masculino 11 50 50
Femenino 11 50 100
Total (n) 22 100.0

Diagrama de Tallos y Hojas

Tallo Hojas
1 8889999
2 000011112223334

Hojas (varones) Tallo Hojas (mujeres)
8899 1 899
0012234 2 00111233

En estos dos casos el ancho del tallo es de 10. As tenemos que los alumnos en base 1
son siete, mientras que en base 2 son quince.

Tablas de Frecuencias para datos agrupados
A menudo es ms conveniente agrupar los valores de una variable en intervalos o
rangos, denominados en el argot estadstico como clases.
Para ello puede seguirse la siguiente secuencia:
1. Determinar la amplitud o rango (A), la misma que se halla por la diferencia entre
la observacin mayor y la menor. En nuestro ejemplo, la variable Edad tiene una
amplitud de 6 (24 18)

Otg Pg . 7
2. Calcular el nmero de clases (K), esto a veces depende de la experiencia del
investigador; en general, se recomienda que no sea menor de 5 ni mayor de 20.
En forma mucho ms analtica se puede calcular K mediante la Regla de
Sturgess:
K ~ 1 + 3.3 Log (n), en donde n es el nmero de datos

3. Determinacin del tamao del intervalo de clase (TIC), viene dado por el
cociente entre la amplitud y el nmero de clases a ser tomadas en cuenta y debe
ser igual, en la mayora de los casos, para todas las clases. El TIC siempre debe
aproximarse a un nmero decimal entero superior.
4. Definir la marca de clase (m), la misma que se halla con la semisuma de los
extremos de cada intervalo de clase.

Ejemplo:
Los siguientes son los registros del gasto semanal en pasajes de un grupo de empleados
del sector privado.
46 26 60 33 35 55 16 42 39 30
45 12 37 40 42 32 23 38 47 53

Nmero de datos (n) 20
Amplitud 48 (=60 12)
Nmero de clases 5 (= 1 + 3.3 Log (20))
TIC 10 (= 48/5)

La tabla de distribucin de frecuencias se muestra a continuacin.


Clase
Intervalo de
clase
Marca de clase
(m)
Frecuencia
absoluta
Frecuencia
relativa
1
2
3
4
5
[11 21)
[21 31)
[31 41)
[41 51)
[51 61)
16
26
36
46
56
2
3
7
5
3
0.10
0.15
0.35
0.25
0.15
Total 20 1.00

ESTADISTICOS PRINCIPALES

Los estadsticos de uso ms frecuente son los referidos a la estadstica univariante, los
cuales pueden clasificarse en:
- Medidas de tendencia central
- Medidas de dispersin
- Medidas de posicin
- Medidas de distribucin (forma)


Otg Pg . 8





















La obtencin de estos estadsticos est asociada estrechamente al tipo de variables que
uno analiza, tal como habamos sealado anteriormente. No tiene sentido, por ejemplo,
obtener el promedio de la variable Sexo.

DESCRIPCIN DE VARIABLES CATEGORICAS (NO PROMEDIABLES)
En este caso, las medidas resmenes ms adecuadas son el nmero de casos y el
porcentaje en que se presenta cada categora de la variable. Generalmente se presentan
en una tabla de frecuencias. Eventualmente puede utilizarse la moda.
DESCRIPCIN DE VARIABLES NUMERICAS (PROMEDIABLES)

Si la variable es intervalar u ordinal promediable, la mejor forma de describirla es
mediante medidas que resuman la posicin y dispersin de los datos.
Es decir, ahora necesitamos medidas que indiquen el centro u otras posiciones
importantes de la distribucin de la variable, adems del grado de variabilidad respecto
al valor central.

MEDIDAS DE POSICIN
Las medidas de posicin tienen como objetivo resumir en un solo valor las mediciones
obtenidas de una variable.
Las ms importantes son las medidas de tendencia central, que tratan de ubicar el
centro de la distribucin, destacando el promedio aritmtico (o simplemente media),
la mediana y la moda.

Promedio Aritmtico
Este es el promedio de uso general en toda investigacin. Se simboliza X y se calcula
como la suma de las mediciones de la variable dividido por el nmero de observaciones.
Simblicamente se escribe como:



Otg Pg . 9
_ Ex x
1
+x
2
+...+x
n

X = ----- = ----------------
n n


Mediana
La mediana es la observacin justo al centro de la muestra, cuando sta es ordenada en
forma ascendente. Se simboliza generalmente como Md y su forma de clculo es la
siguiente:

1. Ordene los datos de menor a mayor.
2. Si el tamao muestral n es impar, ubique la observacin n/2 en la muestra
ordenada. Este valor corresponde a la mediana.
3. Si n es par, promedie las dos observaciones al centro de la muestra ordenada.
Este valor corresponde a la mediana.

La interpretacin de la mediana de una variable es que el 50% de los casos muestrales
tienen valores inferiores a la mediana y el otro 50% tiene valores superiores a sta.
Una importante caracterstica de la mediana es su poca sensibilidad ante valores
extremos u "outliers". En cambio, el promedio puede sufrir cambios de importancia que
la alejen del centro de los datos.



Moda o Modo
La moda es el valor observado con mayor frecuencia en una variable y es utilizada
generalmente cuando se tiene un gran conjunto de datos. Esta medida no es muy
prctica cuando la variable es intervalar, dado lo difcil que ocurran al menos dos casos
con un mismo valor.

MEDIDAS DE DISPERSIN
Las medidas de posicin no son suficientes por s solas para describir el
comportamiento de una variable, ya que no nos dicen nada acerca de la variabilidad de
los datos.

Las medidas de dispersin de uso habitual en investigaciones son el rango, la varianza,
la desviacin estndar y el error estndar.

Rango
Es la diferencia entre el valor mximo y mnimo de la variable. Por ejemplo, el peso de
un recin nacido tiene un rango de 3500-2500=1000 gr. Es decir, la diferencia entre el
mnimo y el mximo es de 1000 gramos.
En ocasiones se opta por presentar los valores mnimo y mximo en vez del rango, ya
que aportan ms informacin sobre la dispersin de los datos.
El rango es muy sensible a outliers, ya que se construye justamente con los valores
extremos. Adems, el rango muestral siempre subestima al rango poblacional.

Varianza
Aunque no es la medida de dispersin ms usada, es necesario calcularla para obtener la
desviacin estndar.

Otg Pg . 10
Si x1, x2,...,xn son las n observaciones muestrales de la variable X, la varianza,
simbolizada S
2
, se define como:

E(x
i
- X )
2

S
2
= ---------
n-1
Es decir, la varianza es una especie de promedio de las desviaciones cuadrticas de los
datos con respecto al promedio. La razn por la que la varianza es poco utilizada es que
el resultado queda expresado en la unidad de medida al cuadrado (por ejemplo, kg
2
,
mts
2
, etc.), mientras que los datos y el promedio estn expresados en la unidad de
medida original.

Desviacin Estndar
Esta es la medida de dispersin de mayor uso en investigacin cientfica y se deriva
directamente de la varianza.

Si x1, x2,...,xn son las n observaciones muestrales de la variable X, la desviacin
estndar, simbolizada s, se define como:

E(x
i
- X )
2

s

= \---------
n-1


Ntese que si la varianza est en la unidad de medida al cuadrado, la desviacin
estndar est en la unidad de medida original de los datos.


En la descripcin de los resultados de un estudio generalmente se mencionan tres
valores:
- el nmero de casos (n),
- la media aritmtica (X) y
- la desviacin estndar (s).

Error Estndar
El error estndar es til como medida de dispersin cuando se quieren presentar los
resultados de una misma variable para diferentes grupos poblacionales, ya que es una
dispersin estandarizada por el nmero de observaciones. El error estndar se calcula a
partir de la desviacin estndar, y se define como:

Error Estndar = e.s. = s/\n

Es decir, el error estndar es igual a la desviacin estndar dividido por la raz cuadrada
del nmero de observaciones.

Se usa generalmente cuando la desviacin estndar es muy grande y se quiere graficar el
comportamiento del promedio de una variable en una o ms poblaciones y sus
respectivas variabilidades.

Otg Pg . 11

MEDIDAS DE POSICIN: PERCENTILES

Para cualquier variable cuantitativa (intervalar o de razn), un percentil de orden p
(0<p<100%) es un valor muestral que:
- deja el p% de los datos bajo ese valor y
- el (100-p)% de los datos restantes sobre l.

El clculo de percentiles requiere tener la muestra ordenada en forma ascendente segn
la variable a describir.
Por ejemplo, el percentil 20% de una variable X corresponde al valor en la muestra que
deja un 20% de los valores observados bajo el percentil y el 80% restante sobre el
percentil.

Algunos Percentiles Especiales
Los percentiles de mayor uso son:
- los cuartiles, correspondientes a los percentiles 25% (Q1), 50% (Q2) y
75% (Q3);
- los deciles, que dividen la muestra en grupos de 10%; y
- la mediana, que corresponde al percentil 50%, al segundo cuartil o al
quinto decil.
- Los quintiles, que dividen la muestra en grupos de 20%


MEDIDAS DE DISTRIBUCIN O FORMA

Asimetra Sesgo
Es posible observar el grado de simetra de los datos, con tres posibilidades:

Simtrica: Los datos se distribuyen en forma similar a ambos lados
del centro. En este caso el promedio aritmtico es igual a
la mediana.
Asimetra a la izquierda: Los datos se concentran en menor proporcin a la
izquierda del punto central. En este caso el promedio es
menor que la mediana.

Asimetra a la derecha: Los datos se concentran en menor proporcin a la
derecha del punto central. En este caso el promedio es
mayor que la mediana.
Curtosis
Es una medida del apuntalamiento de la distribucin de una variable. De acuerdo a este
criterio las distribuciones de frecuencias se clasifican en:
Leptocrtica: si la distribucin de frecuencias es ms apuntada que la normal;
Mesocrtica: cuando la distribucin de frecuencias es tan apuntada como la normal;
Platicrtica: si la distribucin de frecuencias es menos apuntada que la normal;
COEFICIENTE DE VARIABILIDAD (C.V.)
Se le conoce tambin como coeficiente de variacin. Es una medida de variacin
relativa, obtenida del cociente entre la desviacin estndar y la media de una variable,
expresada en trminos porcentuales.

Otg Pg . 12

C.V. = S / X . 100%
El coeficiente de variabilidad permite establecer parmetros de comparacin, de
acuerdo al valor porcentual que tome:
- Si C.V. menor a 20% decimos que la distribucin es homognea
- Si C.V. est entre 20 y 30% decimos que la distribucin es razonablemente
homognea
- Si C.V. es mayor que 30% afirmamos que la distribucin es heterognea
Ejemplo
Se ha resumido informacin sobre las distancias recorridas mensualmente por 4 agentes
viajeros y las ventas obtenidas por los mismos. Compare los coeficientes de variacin
de ambas mediciones.

Distancia (miles km) 2.5 3.4 2.1 2.0
Ventas (miles $) 37.8 63.6 33 30

Resultados:
Desviacin Estndar Media C.V.
Distancia (miles km) 0.55 2.5 22%
Ventas (miles $) 13.28 41.1 32%
De acuerdo a estos resultados la distancia que recorren los agentes viajeros tiene un
comportamiento razonablemente homogneo (22% de C.V.), frente a una
heterogeneidad de las ventas obtenidas por ellos mismos.

Otg Pg . 13

INFERENCIA ESTADSTICA

Es el conjunto de procedimientos que permiten dar conclusiones sobre una poblacin,
en base a la informacin proporcionada por una muestra




Para la poblacin se desconocen los parmetros (, o)
Especficamente, interesa realizar inferencia sobre parmetros, es decir, sobre
caractersticas numricas de la poblacin. Este proceso se esquematiza de la siguiente
manera,







Podemos definir la inferencia estadstica como el procedimiento mediante el
cual se llega a decisiones acerca de grandes volmenes de datos
(poblacin) examinando slo una porcin de ellos (muestra)

Se basa en el uso de estadsticos cuya distribucin en el muestreo se conoce. Los
estadsticos son funciones de los valores observados en la muestra. (Como la media, la
desviacin estndar, percentiles, etc)

Por ser funciones de una variable aleatoria, los estadsticos son tambin variables
aleatorias y por lo tanto a cada uno de ellos se le puede asociar una distribucin de
probabilidad llamada distribucin en el muestreo del estadstico dado.
Segn su finalidad la Inferencia Estadstica se puede dividir en:
Poblacin
Muestra
A partir de los datos
de la muestra se
obtienen los
estadsticos (X , S )

Parmetro de inters
Poblacin
Muestra
Muestreo
Inferencia

Otg Pg . 14







Otra forma de clasificar la estadstica inferencial es mediante los supuestos de la
distribucin que sigue la variable aleatoria objeto de estudio.

Cuando se conoce la forma funcional de la funcin de distribucin
slo tenemos que estimar los parmetros que la determinan, estamos
en un problema de inferencia estadstica paramtrica ; por otro lado
cuando no se conoce la forma funcional de la distribucin que sigue la
variable aleatoria objeto de estudio, estamos ante un problema de
inferencia estadstica no paramtrica.

Pruebas de la Estadstica paramtrica
Correlacin de Pearson
Prueba t de Student para comparar medias
Analisis de varianza
Pruebas de la Estadstica No paramtrica
Correlacin de rangos de Spearman
Prueba Chi Cuadrado
Prueba de Kolmogorov para dos muestras
Prueba de Kruskal Wallis para ms de dos muestras

VERIFICACIN O CONTRASTE DE HIPTESIS
La verificacin de hiptesis es el proceso que lleva a juzgar la credibilidad de
afirmaciones (hiptesis) relativas a las poblaciones (habitualmente a sus parmetros) de
las que fueron extradas las muestras.
Qu es una Hiptesis?
Es una proposicin respecto a uno o varios parmetros de la poblacin. Afirmacin para
la cual pueden calcularse probabilidades asociadas a su veracidad, dentro de un
modelo estadstico, y a partir de datos obtenidos de la realidad. Las hiptesis
estadsticas se establecen de forma tal que puedan ser evaluadas a travs de tcnicas
estadsticas apropiadas.
Lo que el investigador hace a travs de la prueba de hiptesis es determinar si la
hiptesis es consistente con los datos obtenidos en la muestra. Si la hiptesis es
consistente con los datos, sta se considera como un valor aceptable del parmetro; si no
es consistente con los datos, se la rechaza (pero los datos no son descartados)
INFERENCIA
ESTADSTICA
CONTRASTE
DE HIPTESIS

ESTIMACIN

Otg Pg . 15
En toda prueba estadstica hay dos tipos de hiptesis: la Hiptesis Nula (Ho) y la
Hiptesis Alternativa (H1)
La Hiptesis Nula (Ho) es una declaracin tentativa de que un parmetro de la
poblacin es igual a un valor especfico. En general se la formula con el propsito
expreso de ser rechazada.
La Hiptesis Alternativa (H1) es la declaracin tentativa de que el mismo parmetro
de la poblacin tiene un valor diferente del valor especificado en la hiptesis nula.
Viene a ser la hiptesis de trabajo o del investigador.
Una vez formuladas las hiptesis estadsticas se procede a efectuar los clculos que nos
permitirn tomar una decisin respecto a ellas, la cual consiste en rechazar o no
rechazar Ho. Se rechaza si el valor calculado del estadstico de prueba cae en la regin
de rechazo y no se rechaza si cae en la regin de aceptacin.
Es interesante tener en cuenta que la veracidad de una hiptesis no puede ser probada
nunca. Lo que se puede hacer es afirmar que tiene tal o cual probabilidad de ser falsaSi
esa probabilidad es muy alta, 95% o 99% por ejemplo, se concluye que la hiptesis es
poco creble y se califica provisoriamente como falsa. Si no se consigue rechazar la
hiptesis, se acepta provisionalmente como verdadera.

La Hiptesis nula puede ser un parmetro u que tiene un valor k
La Hiptesis alternativa ser su negacin
Ho: u = k
H1: u = k
Si se toma una muestra y en ella se calcula un estadstico
cuya distribucin en el muestreo en el caso de que Ho sea verdadera se
conoce, se puede determinar qu probabilidad (P) hay de que si el
verdadero valor del parmetro es k se obtenga un valor observado del
estadstico , tan alejado ( o ms) de k .



Si P es muy baja la probabilidad de que la muestra no pertenezca a una poblacin
con u = k es muy alta, por lo tanto se rechaza Ho.
Consecuentemente se acepta H
1


Otg Pg . 16

Las pruebas asociadas con las hiptesis pueden ser a una o dos colas, segn las hiptesis
planteadas




Ho: u = k
H1: u = k
Ho: u = k
H1: u < k
Ho: u = k
H1: u > k



Significacin estadstica
Como se ha indicado, si el resultado de un estudio se encuentra en la regin de rechazo,
se afirma que el resultado es estadsticamente significativo; en caso contrario, si su
probailidad se halla fuera de la regin de rechazo, no se considera estadsticamente
significativo.
En el terreno de la investigacin se utiliza el smbolo o (letra griega alfa) para indicar la
probabilidad crtoca o margen de error. Este valor generalmente asume los valores de
5% (0.05) 1% (0.01)
La inferencia consiste en verificar que los resultados obtenidos en una prueba estadstica
determinada no son debidos al azar. Si la probabilidad de que nuestro resultado haya
ocurrido por azar es menor a o resulta estadsticamente significativa y podemos
rechazar Ho. Esta probabilidad de contraste se conoce como el valor p (p-value en
ingls). En el otro caso, si esta probabilidad de contraste es mayor que o no resulta
estadsticamente significativo.
Por convencin, al referirse a la significacin estadstica, se suele eliminar el trmino
estadstica, por lo tanto se suele mencionar que un resultado es significativo o no
significativo.

Otg Pg . 17

PASOS A SEGUIR EN LA VARIFICACIN DE HIPTESIS
1 Definir la hiptesis a contrastar Por ejemplo Ho:u = u o

2 Prueba estadstica a emplear
Por ejemplo la prueba t de Student para
comparacin de dos muestras. Genera un
estadstico (d
o
)
3 Nivel de significacin; valores crticos
Significa fijar una regla para determinar si la
discrepancia es suficientemente grande como para
ser incompatible con Ho
4 Controlar los supuestos
De acuerdo a la prueba se deben cumplir ciertos
supuestos como normalidad, independencia, etc.
stos deben controlarse para poder aplicar la
prueba.

5
Experimento y clculo (de la prueba
estadstica)
Tomar la muestra, estimar u , calcular la discrepancia
d
c
(u ; u o)
6
Comparacin ( valores calculados con
los crticos)
La comparacin de ambos valores calculados (d
c
)y critico (d
t
) gua hacia la decisin a tomar
7 Decisin y Conclusiones
Si : d
c
>d
t
se rechaza la Ho
Si : d
c
<d
t
NO se rechaza la Ho
Al rechazar la Ho se acepta implcitamente que la
Ho es falsa, lo que implica la eleccin de otra
hiptesis H
1

Nota: Cuando se utiliza programas estadsticos
computarizados, el paquete estadstico proporciona
un valor de contraste p que tiene que ser
comparado con el margen de error asumido ( o )
Si : p<

o

se rechaza la Ho
Si : p>

o

NO se rechaza la Ho


Grados de Libertad
Tal como se ha sealado, la inferencia estadstica cuenta con un protocolo, cuyas
variaciones depenedern bsicamente de la naturaleza de la prueba, esto es del
estadstico de prueba.
Los grados de libertad para cualquier estadstico se definen como el nmero de datos
que pueden variar libremente cuando se efecta el clculo de dicho estadstico.

You might also like