Professional Documents
Culture Documents
ESTADÍSTICA
Definición. Nos proporciona un conjunto de métodos, procedimientos o técnicas para recopilar, clasificar,
analizar y presentar datos con el fin de describirlos o de realizar generalizaciones válidas.
El estudio de la estadística puede dividirse en dos áreas principales:
a) Estadística Descriptiva. Comprende las técnicas que se emplean para la recopilación, organización,
resumen y presentación de los datos (o información).
b) Estadística Inferencial. Comprende técnicas que permiten tomar decisiones acerca de una población
a partir del estudio de una muestra (subconjunto de dicha población, sometida a observación o
experimentación).
La inferencia (de muestra a población) no tiene por qué ser cierta en forma absoluta, motivo por el cual es
necesario que ella sea dada con una medida de confiabilidad a la cual se denomina probabilidad.
Población y muestra. Todo estudio estadístico esta siempre referido a un conjunto o colección de
personas o cosas; al cual se le denomina población, la cual puede ser finita o no.
Las personas o cosas que forman la población se denominan unidad elemental o unidad estadística.
Normalmente un estudio estadístico se realiza sobre un subconjunto de la población, al que se le llama
muestra. La muestra debe ser seleccionada adecuadamente de manera que ella sea representativa de la
población, para poder realizar de este modo posibles inferencias..
Variables estadísticas. Al estudiar una población o muestra nos concentramos en una característica
de los individuos u objetos que le conforman; si esta característica tiene variabilidad o variación se
denomina variable estadística y el resultado de las observaciones o mediciones de la característica se
llama dato estadístico.
Cuando la característica o variable en estudio es no numérica o numérica no operable se le denomina
variable cualitativa o atributo. Así por ejemplo: el estado civil de una persona, su nacionalidad, tipo de
automóvil que posee, ciclo en el que se encuentra un alumno, etc. son variables cualitativas.
Cuando la variable de estudio se puede expresar numéricamente y se puede hacer operaciones con
ella, entonces se denomina variable cuantitativa. Así por ejemplo: el saldo de una cuenta bancaria; la
estatura de una persona, el número de hijos en una familia, son variables cuantitativas.
Estas variables cuantitativas pueden ser:
a) Discretas: Cuando se les puede asociar un número entero. Por ejemplo, el número de hijos, número de
empleados de una empresa, número de ruedas de un vehículo, etc; son variables cuantitativas discretas
b) Continuas, Aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable
pueda tomar cualquier valor intermedio, por ejemplo pesos, tiempo de duración de en proceso y estaturas
de personas, etc.)
Organización y presentación de datos
I. Para datos no agrupados. La información que se ha recopilado pero que aún no se organiza se debe
ordenar. Si los datos incluyen valores repetidos se puede organizar una distribución de frecuencias que
es una tabla o lista de los distintos valores de la variable (x).
A continuación damos las siguientes definiciones:
Sean x1,x2, x3,…., xk los distintos valores que puede tomar la variable x.
Frecuencia absoluta (fi): Designa el número de veces que el valor correspondiente aparece en el
conjunto de datos. Por ejemplo, fi indica el número de veces (frecuencia absoluta) que aparece el valor xi
Frecuencia relativa (h i): Indica la fracción o porcentaje del total, con que aparece el valor x i, dentro del
fi
total de datos. Se calcula como: hi , i =1,2,....,n
N
Frecuencia Absoluta Acumulada (Fi) es la suma de todas las frecuencias absolutas hasta k = 1 hasta
k = i, obteniéndose Fi f1 f2 ... fi
Frecuencia Relativa Acumulada (Hi) Es el cociente entre la frecuencia acumulada absoluta
Fi
correspondiente al dato xi y el número total de datos N. Luego Hi o también Hi h1 +h2 +...+hi
N
Ejemplo 1: Se realizó una encuesta entre los 50 empleados de una empresa, consultando sobre el
número de hijos en edad escolar que tenía cada empleado, a fin de estimar el pago de una bonificación
por gastos escolares que proyecta hacer la empresa.
0 2 1 0 3 2 0 1 1 0 0 1 1 2 4 1 0 1 1 0
2 1 0 0 3 0 0 1 2 1 0 0 2 4 1 1 0 1 2 0
1 1 0 3 5 1 2 1 3 2
Organizar los datos en una distribución de frecuencias, enlistando cada valor diferente (x) en una columna,
luego empleamos marcas para contar el número de veces que aparece cada valor de x y al acabar,
anotamos la frecuencia absoluta (f) y luego calculamos la frecuencia relativa (h).
Tabla 1. No de hijos por empleados de una empresa
No de Conteo fi hi Fi Hi
hijos
0 \\\\ \\\\ \\\\ \ 16 16/50 = 0.32 = 32% 16 32%
1 \\\\ \\\\ \\\\ \\\ 18 18/50 = 0.36 = 36% 34 68%
2 \\\\ \\\\ 9 9/50 = 0.18 = 18% 43 86%
3 \\\\ 4 4/50 = 0.08 = 8% 47 94%
4 \\ 2 2/50 = 0.04 = 4% 49 98%
5 \ 1 1/50 = 0.02 = 2% 50 100%
n = 50 Total = 1 = 100%
Se deduce que: El total de frecuencias absolutas debe ser el total de datos y el total de frecuencias
relativas debe ser el 100%.
n n
Propiedad fundamental: f = N = total de datos ; h =100%
i=1
i
i=1
i
II. Para datos agrupados. Cuando los datos consisten en muchos valores en su mayoría no repetidos es
conveniente agrupar los datos y determinar las frecuencias absolutas y relativas de cada grupo que
llamaremos clase.
Necesitamos las definiciones:
a) Rango Recorrido (R). Es la diferencia entre el mayor xmáx y el menor de los datos xmin: R = xmax – xmin
b) Intervalo de Clase a i , b i . Son cada una de las categorías excluyentes (o clases) en los que se
pueden clasificar los datos. Los extremos de un intervalo [ai, bi son ai y bi, donde:
ai = límite inferior del intervalo de clase; bi = límite superior del intervalo de clase
c) Marca de Clase (x’i). Son los puntos medios de cada clase, así en el intervalo a i , b i la marca de
clase x’i será: ai bi
xi
2
d) Número de Intervalos (k). No existen reglas fijas para establecer el valor de k. Una regla sugiere que
sea un número próximo a N y otra dice que el número ideal es 1 + 3,3 logN (Regla de Sturges), siendo
N el total de datos. En muchos casos, desde 5 hasta 20 intervalos puede ser el número adecuado.
e) Amplitud del Intervalo (A). Es la diferencia entre sus extremos. Por lo general todos los intervalos
tienen la misma longitud A por lo que se cumplirá para estos casos que: R
A
k
Es preferible redondear el valor de “A” por exceso para no perder datos.
f) Frecuencia absoluta (fi). Es el número de datos que corresponden al i-ésimo intervalo de clase.
g) Frecuencia absoluta Acumulada (Fi) Se define para cada i-ésimo intervalo de clase, como la suma de
todas las frecuencias absolutas fi desde el primero hasta el i-ésimo intervalo: Fi f1 f2 ... fi
h) Frecuencia relativa (hi). Es el cociente entre la frecuencia absoluta del i-ésimo intervalo y el número
fi
total de datos: hi
N
b) Número de intervalos: k = 40 6
c) Ancho de clase 48 / 6 = 8
c) Ojivas. Son gráficos de frecuencias acumuladas. En el eje vertical se anotan la frecuencias acumuladas
asociadas a cada límite superior de clase (acumula frecuencias “menores que” un valor dado).
En algunos casos se grafican las frecuencias acumuladas de todos los valores mayores o iguales al límite
inferior de cada intervalo (ojivas “mayor que”). Siempre que se mencione una ojiva sin especificar su tipo,
se entenderá que es de tipo “menor que”.
Histograma de la frecuencia absoluta acumulada y la OJIVA (Menor que)
Fi
50
40
30
20
10
0 x
42 50 58 66 74 82 90
Observaciones. Si “f” es la frecuencia en el intervalo de clase [a, b> y se considera que los datos se
distribuyen de manera “uniforme” en ese intervalo, entonces podemos considerar por ejemplo que en el
c -a
intervalo [a, c] contenido en [a, b> existen aproximadamente: f / = ( ).f . Igualmente para una
b-a
c -a
frecuencia relativa h: h/ = ( ).h . Por semejanza:
b-a
f f f'
Esta se rige por una simple regla de tres:
ba c a
f’
a b
c
Ejemplo: En el intervalo [50; 58> la frecuencia es 6, luego en el intervalo [52; 55] habrá
55 - 52 2,25
f = . 6 = 2,25 × 100% = 5,625%
58 - 50 40
Medidas de centralización.
Los números que describen de manera concisa el comportamiento y las características generales de un
conjunto de datos son los parámetros estadísticos.
Los parámetros que miden la tendencia central de los datos se llaman medidas de centralización y son
datos que representan de forma global a toda la población y los más representativos son la media, la
mediana y la moda.
a) Media aritmética. Se calcula dividiendo la suma de los valores de todos los datos entre el número de
datos. Así tenemos:
n n
En la última fórmula fi es la frecuencia de cada intervalo y x’ i es la marca de clase.
Media aritmética ponderada. Se aplica cuando no todos los datos tienen la misma importancia o peso.
Su fórmula es similar a la de los datos agrupados, cambiando f i por los pesos pi y el denominador N por la
suma de todos los pesos; en este caso xi sería el valor de cada dato.
xp
x pi i
x1p1 x 2p 2 ... x k pk
p i p1 p 2 ... pk
b) Mediana (Me). Es el valor del dato que ocupa la posición central cuando éstos se ordenan de menor a
mayor (o viceversa); dividiendo a la lista de datos en dos grupos de igual número de elementos.
Veamos cómo se calcula su valor:
b1) Para datos no agrupados: La mediana está dada por aquel valor que ocupa la posición central,
cuando los datos se ordenan de menor a mayor (o viceversa)
Si el número de datos es par la mediana es la media de los dos que ocupan las posiciones centrales.
Si el número de datos es impar la mediana es el dato central.
Ejemplo. Sean los datos: 9, 7, 8, 10, 8, 11; al ordenar se tiene: 7, 8, 8, 9, 10, 11 Me = (8 + 9)/2 = 8,5
b2) Para datos agrupados. Debe encontrarse primero el intervalo mediano, (que es el intervalo donde se
sobrepasa por primera vez la mitad de los datos) y luego ubicar en dicho intervalo la mediana (Me) con la
N
Fi1
fórmula : , donde se tiene:
Me ai ( 2 ).A
fi
ai = límite inferior del intervalo mediano N = número de datos
N
i = el menor intervalo que cumple Fi Fi-1 = frecuencia acumulada del intervalo i-1
2
fi = frecuencia absoluta del intervalo mediano A = amplitud del intervalo
CEPRE-UNI ARITMÉTICA Página 5
Ciclo Preuniversitario Admisión 2014-1
d2) Para datos agrupados: MG n x1f1 x2 f2 ...... xk fk (fi es la frecuencia del dato xi )
n 1
MH
e1) Para datos no agrupados: 1 1 1 1
x1 x 2
...
xn
x
i
n
e2) Para datos agrupados: MH
1
f xi
i
Propiedad: MH MG MA
Medidas de dispersión
Las medidas de tendencia central determinan el centro de los datos estadísticos, pero no nos indican nada
acerca de la posición respecto al centro. Por lo tanto se necesita una medida que nos indique el grado de
dispersión o variación respecto a un valor central que por lo general es la media aritmética, con la finalidad
de tener una comparación y ampliar la descripción de los datos.
n
(x x)
2 2
i x i
i1
s
2
Lo cual es equivalente a s2 i1
x2 x2 x2
N N
Propiedades fundamentales.
a1) Sea M(X) la media de una variable X, entonces: M(a X + b) = a M(X) + b (a y b constantes)
2
a2) Sea V(X) la varianza de la variable X, entonces: V(aX + b) = a V(x) (a y b constantes)
s2 i1 s2 x
N N