Professional Documents
Culture Documents
La es una disciplina que utiliza recursos matemáticospara organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.
En este caso la estadística describe la muestra en términos de datos organizados y resumidos, y luego
infiere conclusiones respecto de la población.
Aplicada a la investigación científica, también infiere cuando provee los medios matemáticos para
establecer si una hipótesisdebe o no ser rechazada.
La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química,
biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc.
Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles
datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se
llama
.
La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas
las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos
referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de
un país, el color de todas las ratas de una ciudad).
Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población
estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus
estudios universitarios.
Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la
mayoría de los casos no es posible obtenerlos por razones de esfuerzo, tiempo y dinero, razón por la cual
se extrae, de la población, una muestra, mediante un procedimiento llamado muestreo.
Una distribución de los datos en categorías que ha demostrado ser útil al organizar los procedimientos
estadísticos, es la distinción entre variables discretas y variables continuas. Una variable discreta es
sencillamente una variable para la que se dan de modo inherente separaciones entre valores observables
sucesivos. Dicho con más rigor, se define una variable discreta como la variable tal que entre 2
cualesquiera valores observables (potencialmente), hay por lo menos un valor no observable
(potencialmente). Por ejemplo, un recuento del número de colonias de un cultivo en agar es una variable
discreta. Mientras que cuentas de 3 y 4 son potencialmente
observables, no lo es una de 3,5.
Una variable continua tiene la propiedad de que entre 2 cualesquiera valores observables
(potencialmente), hay otro valor observable (potencialmente). Una variable continua toma valores a lo
largo de un continuo, esto es, en todo un intervalo de valores. Longitudes y pesos son ejemplos de
variables continuas. La estatura de una persona, pude ser 1,70 mts. ó 1,75 mts., pero en potencia al
menos podría tomar cualquier valor intermedio como 1,73 mts. por ejemplo.
Un atributo esencial de una variable continua es que, a diferencia de lo que ocurre con una variable
discreta, nunca se la puede medir exactamente. Con una variable continua debe haber inevitablemente un
error de medida.
Un importante principio sobre variables continuas es que siempre se registran en forma discreta,
quedando la magnitud de la distancia entre valores registrables adyacentes determinada por la precisión
de la medición.
Los intervalos son los limites a los extremos a los que llega una funcion. Son utilizados a modo de
resumen cuando la cantidad de datos es muy grande. Los límites extremos de cada clase se les llaman
Límite Inferior y Superior de clase respectivamente.
y Abiertos: se colocan entre paréntesis (por ejemplo (-3;5)). Esto quiere decir que la función no
toca los puntos -3 y 5 sino que llega a -2.99999 y a 4.9999.
y Cerrados: se expresan entre corchetes (por ejemplo [-3;5]). Esto significa que la función empieza
en -3 y termina en 5).
y Semiabiertos: se expresan con un paréntesis de un lado y un corchete del otro (por ejemplo (-
3;5]; esto quiere decir que la función empieza en -2.99999 y termina en 5).
Existen también Límites Reales Inferior y Superior de clase, estos se obtienen sumando el límite superior
de un intervalo de clase con el límite inferior de la clase siguiente y dividiéndolos entre dos.
Marca de clase es el punto medio de cada clase y se obtiene sumando los límites de clase y dividiéndolos
entre dos.
Tamaño o anchura de clase es la diferencia entre los límites reales de clase, o la diferencia entre los
límites de clase más una unidad (la misma que se esté trabajando) ó la diferencia entre las marcas de
clase, ó la división entre el rango y el número de clases.
la suma de cada frecuencia con la frecuencia de la clase contigua superior.
dividiendo cada frecuencia entre el número total de observaciones y
multiplicándolas por 100 para tenerlas en forma de porcentaje.
la suma de cada frecuencia relativa con la frecuencia relativa de la
clase contigua superior.
A
m
Una R es una representación de datos, generalmente numéricos, mediante líneas, superficies o
símbolos, para ver la relación que guardan entre sí. También puede ser un conjunto de puntos, que se
plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso, o un
conjunto de elementos o signos que permiten la interpretación de un fenómeno. La representación gráfica
permite establecer valores que no han sido obtenidos experimentalmente, es decir, mediante la
interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).
La estadística gráfica es una parte importante y diferenciada de una aplicación de técnicas gráficas, a la
descripción e interpretación de datos e inferencias sobre éstos. Forma parte de los programas
estadísticos usados con los ordenadores. Autores como Edward R. Tufte han desarrollado nuevas
soluciones de análisis gráficos.
y Lineales: se representan los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas
lineales se recomiendan para representar series en el tiempo, y es donde se muestran valores
máximos y mínimos; también se utilizan para varias muestras en un diagrama.
y Circulares: gráficas que nos permiten ver la distribución interna de los datos que representan un
hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al
mayor o menor valor, según lo que se desee destacar.
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo
número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se
denomina o
o
. Cuando se hace referencia
únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta
esté más o menos centrada, se habla de estas medidas como .1 En este caso se
incluyen también los cuantiles entre estas medidas.
y Media aritmética.
y Media ponderada.
y Media geométrica.
y Media armónica.
y Mediana.
y Moda.
±
[ocultar]
La es el valor obtenido por la suma de todos sus valores dividida entre el número de
sumandos.
Por ejemplo, las notas de 5 alumnos en una prueba:
Alumno Nota
1 6,0 ·Primero, se suman las notas:
2 5,4 6,0+5,4+3,1+7,0+6,1 = 27,6
3 3,1 ·Luego el total se divide entre la cantidad de alumnos:
4 7,0 27,6/5=5,52
5 6,1 ·La media aritmética en este ejemplo es 5,52
La es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama
también o, simplemente, .
Dado un conjunto numérico de datos, ë1, ë2, ..., ën, se define su media aritmética como
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es,
también puede calcularse para variables agrupadas en intervalos.
y Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de
una medida de dispersión.
y Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene
la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
y Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es,
ë = ë + entonces , donde es la media aritmética de los ë, para = 1, ...,
y y números reales.
y Es poco sensible a fluctuaciones muestrales, por lo que es un parámetro muy útil en inferencia
estadística.
[ed # enentesdesuuso
E t t , t i lti l i j it i i ,
ti t i l i i t , :
. # ! ,# (, #!,#$ # !$ "' ( *$ /, 0$# & ' ) /# # 0$# & ')
t t i l i j t i .
!$ ,# (!+ $ ( #( '#,$# "# *$ # , -!# (!$ ,#$
y E i i ifi f t l i i ,
/, 0$# #$ ,#$ $ ,( *$ ""( $ 1 (/ # , "' ( $#
t
l t , * i f
i i . 2 i t , l i
,!+ $ #$ ! (," ( $ "!# #$ #$# , , ,# # #," !$ #-! " #
i ti t
' $(# ($ ( $( ! # #
i i t l i 45 i . P j l , i
! # ! , #% #$ #,#$ # #$ !$ # !
l t 45 i j i l t t , 3, ,' i * t/ t ,0t í t t
,# # , % -!# #"##$ # ,#$ # # " ( $ , $# $ #, ' !$
i 3, , l t fi l t t l i . Si ,
#-! " # ! # # # ! , 6 /# # 0$# 7 78 , 7 5 , 45 , 95 , + 98 ,
i j t t t , , , ,3 , 3, , 3, 45 3, ,
" # #," #$ , ' 0$ (, "!## (,"'# !$ # ! ,# # , %
j l ,t í t i , , t t i 3, , l
-!# $ #"##$ ( $ $ !$ # ! (,"$#$ #
t i i t .
= # "!# # # #, $ #$ !$ '!( *$ # #(!#$( /+ $ #% # ( # ' #
y t i i i ti i f i i t l l i t .
ABCBD EFBG B DBH I J JHKLH EBDJD J AL JHBD L JD GL JD GBEBMG BMGJ GB DF HB BALMC L ELHL
A
GB BHN MLGJ BD FG J
til t l l t i l i
M BDJD CLDJD DB EFBGB F OLH FML NBG L EJMG BHLG L
t i t i .E tili i .
QRS STUQ VRQ WX RQ Y QRS QTQ Z[UQRQ Z VUQ[U\ ]RQ X ^UW X [RSW UVXW X QU WU SU
Si ë=,ë ,...,ë
WU X QP_T US U RV^X
t t =,P,..., ti ,l i fi
l i i t f :
`
Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se
aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de la
población objeto de estudio.
`
La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta.5 En cierto sentido
la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos
datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se
encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma
frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el
intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de
la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
Siendo la frecuencia absoluta del intervalo modal y í 1 y + 1 las frecuencias absolutas de los
intervalos anterior y posterior, respectivamente, al
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la
siguiente tabla (debajo):
±
% & ' ( ) * +
,-
2 2 4 5 8 9 3 4 2
y Cálculo sencillo.
y Interpretación muy clara.
y Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el
parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos,
por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de
determinado sector social. Esto se conoce informalmente como "retrato robot".6
#
y Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a
variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende
excesivamente del número de intervalos y de su amplitud.
y Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la
moda, no afectan en modo alguno a su valor.
y No siempre se sitúa hacia el centro de la distribución.
y Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la
misma frecuencia (distribuciones bimodales o multimodales).
a
La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos
están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de
trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez
ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo
que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo,
en el caso de doce datos como los anteriores:
Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado
a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano"
y, dentro de éste, se obtiene un valor concreto por interpolación.
±
R
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).
Así, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos
en la fórmula que hace referencia a las frecuencias absolutas:
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21
(frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar
las unidades; en este caso como estamos hablando de calificaciones, serán puntos)
Ejemplo (N par)
Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la
siguiente tabla (debajo):
±
% & ' ( ) * +
,-
2 2 4 5 6 9 4 4 2
b
±
: ë .
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) =
X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< &
n/2 < Ni = N18 < 19 < N19
% & *
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el
decimonoveno y el vigésimo lugar.
& ' %
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el
vigésimo hasta el vigésimo octavo)
' ( +/+
* & %(
+ %*
Las principales propiedades de la mediana son:8
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en
función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la
media aritmética.
f
c d e
gh hgj hg l g h
y ï i ki k m
cesvac neda
c i i i , l il i li
S lt i ,
desvac neda l i l if i l
l t
l
l
l i.
Et l
títi
tili títi i
f il i l i
f i l
i l .
Sendo s ora
es
adesvacnedadebera
¡
ii
l t t
l i, c , l ii
l t t
l i, c, l
ii tíi, ı, i
j t
l
ifi l il:
¢
Si
l £
il
¤ l
i
¥ l
i
justo sólo hay dos valores en los datos, :,, y hay exactamente la mitad
de datos igual a : y :.
La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de referencia es
la media aritmética de la distribución. Más específicamente, la varianza es una medida de que tan cerca,
o que tan lejos están los diferentes valores de su propia media aritmética. Cuando más lejos están las Xi
de su propia media aritmética, mayor es la varianza; cuando más cerca estén las Xi a su media menos es
la varianza. Y se define y expresa matemáticamente de la siguiente manera:
¦
r !
"##
#
Dado un conjunto de observaciones, tales como X1, X2, « , Xn, la varianza denotada usualmente por la
¦ § §
letra minúscula griega $
#$ y en otros casos según otros analistas,
##%
#
#
#
#
"#
"&"
'
() #%
4
!"#$#%#&'$(
#%(
)
* *+,
© ¨
-#" .... ª «
¨ ¬
"% !
ª /#
r !
"#
#
Si en una tabla de distribución de frecuencias. Los puntos mediosde las clases son X1, X2, « , Xn; y las
frecuencias de las clases f1, f2, « , fn; la varianza se calcula así:
Ȉ(Xi- )2f1
w2 = ----------------
Ȉfi
Sin embargo la formula anterior tiene algún inconveniente para su uso en la practica, sobre todo cuando
se trabaja con números decimales o cuando la media aritmética es un número entero. Asimismo cuando
se trabaja con máquinas calculadoras, La tarea de computar la varianza se simplifica utilizando la #
® ®
1* +21* 345
®
$ ++++++++++++++++++++++++++++
4donde N=Ȉfi
() #%
® ®
ï"#
# * * *
*
= 21,649.344 / 30 = 721.645
¯ ± ³
"% !
" #
#7 ;3 ° ² <
y
6
y s siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente cuando Xi=
y La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
y Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:
y Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por
el cuadrado de dicha constante. Veámoslo:
Siendo
Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada positiva de esta.
A la desviación se le representa por la letra minúscula griega "sigma" ( w ) ó por la letra S mayúscula,
según otros analistas.
6?
#
0("?
´ ´
$ @$ 0 @
() #%
Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer año se obtuvo
w2=27.44, como la desviación estándar es la raíz cuadrada positiva, entonces w = ¥27.44 = 5.29 años.
Igual procedimiento se aplica para encontrar le desviación estándar de las cuentas por cobrar de la
Tienda Cabrera¶s y Asociados, recordemos que la varianza obtenida fue de 721.645, luego entonces la
desviación estándar es igual a w =¥721.645 = 26.86 balboas.
y
c
A su vez la desviación estándar, también tiene una serie de propiedades que se deducen fácilmente de
las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la varianza):
y La desviación estándar es siempre un valor no negativo S será siempre ³ 0 por definición. Cuando S
= 0 è X = xi (para todo i).
y Es la medida de dispersión óptima por ser la más pequeña.
y La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable
y Si a todos los valores de la variable se le suma una misma constante la desviación estándar no varía.
y Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar
queda multiplicada por el valor absoluto de dicha constante.