You are on page 1of 15

c  En estadística, se identifica el término 

 al de variable aleatoria , o magnitud


numérica de naturaleza aleatoria, , asociada a los objetos () sobre los que se desarrolla una
experiencia, cuyo resultado depende del azar.

La repetición  veces,     , de la citada experiencia aleatoria, afectará a una


  de  objetos u individuos de la población, y tendrá asociada una sucesión de n variables
aleatorias, independientes,      , réplicas de .

La   es una disciplina que utiliza recursos matemáticospara organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.

Por ejemplo, la estadísticainterviene cuando se quiere conocer el estadosanitario de un país, a través de


ciertos parámetros como la tasa de morbilidad o mortalidad de la población.

En este caso la estadística describe la muestra en términos de datos organizados y resumidos, y luego
infiere conclusiones respecto de la población.

Aplicada a la investigación científica, también infiere cuando provee los medios matemáticos para
establecer si una hipótesisdebe o no ser rechazada.

La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química,
biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc.

 
   

Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles
datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se
llama 
.

No debe confundirse la población en sentido demográfico y la población en sentido estadístico.

La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas
las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos
referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de
un país, el color de todas las ratas de una ciudad).

Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población
estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus
estudios universitarios.

Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la
mayoría de los casos no es posible obtenerlos por razones de esfuerzo, tiempo y dinero, razón por la cual
se extrae, de la población, una muestra, mediante un procedimiento llamado muestreo.

Se llama   a un subconjunto de la población, preferiblemente representativo de la misma.


Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la provincia de
Buenos Aires, una muestra será conjunto de edades de 2000 estudiantes de la provincia de Buenos Aires
tomados al azar.

Una distribución de los datos en categorías que ha demostrado ser útil al organizar los procedimientos
estadísticos, es la distinción entre variables discretas y variables continuas. Una variable discreta es
sencillamente una variable para la que se dan de modo inherente separaciones entre valores observables
sucesivos. Dicho con más rigor, se define una variable discreta como la variable tal que entre 2
cualesquiera valores observables (potencialmente), hay por lo menos un valor no observable
(potencialmente). Por ejemplo, un recuento del número de colonias de un cultivo en agar es una variable
discreta. Mientras que cuentas de 3 y 4 son potencialmente
observables, no lo es una de 3,5.

Una variable continua tiene la propiedad de que entre 2 cualesquiera valores observables
(potencialmente), hay otro valor observable (potencialmente). Una variable continua toma valores a lo
largo de un continuo, esto es, en todo un intervalo de valores. Longitudes y pesos son ejemplos de
variables continuas. La estatura de una persona, pude ser 1,70 mts. ó 1,75 mts., pero en potencia al
menos podría tomar cualquier valor intermedio como 1,73 mts. por ejemplo.

Un atributo esencial de una variable continua es que, a diferencia de lo que ocurre con una variable
discreta, nunca se la puede medir exactamente. Con una variable continua debe haber inevitablemente un
error de medida.

Un importante principio sobre variables continuas es que siempre se registran en forma discreta,
quedando la magnitud de la distancia entre valores registrables adyacentes determinada por la precisión
de la medición.
Los intervalos son los limites a los extremos a los que llega una funcion. Son utilizados a modo de
resumen cuando la cantidad de datos es muy grande. Los límites extremos de cada clase se les llaman
Límite Inferior y Superior de clase respectivamente.

Existen 3 clases de intervalos (información añadida de Yahoo Answers):

y Abiertos: se colocan entre paréntesis (por ejemplo (-3;5)). Esto quiere decir que la función no
toca los puntos -3 y 5 sino que llega a -2.99999 y a 4.9999.

y Cerrados: se expresan entre corchetes (por ejemplo [-3;5]). Esto significa que la función empieza
en -3 y termina en 5).

y Semiabiertos: se expresan con un paréntesis de un lado y un corchete del otro (por ejemplo (-
3;5]; esto quiere decir que la función empieza en -2.99999 y termina en 5).
Existen también Límites Reales Inferior y Superior de clase, estos se obtienen sumando el límite superior
de un intervalo de clase con el límite inferior de la clase siguiente y dividiéndolos entre dos.

Marca de clase es el punto medio de cada clase y se obtiene sumando los límites de clase y dividiéndolos
entre dos.

Tamaño o anchura de clase es la diferencia entre los límites reales de clase, o la diferencia entre los
límites de clase más una unidad (la misma que se esté trabajando) ó la diferencia entre las marcas de
clase, ó la división entre el rango y el número de clases.

„  
  la suma de cada frecuencia con la frecuencia de la clase contigua superior.

„  
  dividiendo cada frecuencia entre el número total de observaciones y
multiplicándolas por 100 para tenerlas en forma de porcentaje.

„  
  
  la suma de cada frecuencia relativa con la frecuencia relativa de la
clase contigua superior.

 dato mayor menos dato menor.

A

De Wikipedia, la enciclopedia libre

Saltar a navegación, búsqueda

m  
                
  

Una R es una representación de datos, generalmente numéricos, mediante líneas, superficies o
símbolos, para ver la relación que guardan entre sí. También puede ser un conjunto de puntos, que se
plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso, o un
conjunto de elementos o signos que permiten la interpretación de un fenómeno. La representación gráfica
permite establecer valores que no han sido obtenidos experimentalmente, es decir, mediante la
interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).

La estadística gráfica es una parte importante y diferenciada de una aplicación de técnicas gráficas, a la
descripción e interpretación de datos e inferencias sobre éstos. Forma parte de los programas
estadísticos usados con los ordenadores. Autores como Edward R. Tufte han desarrollado nuevas
soluciones de análisis gráficos.

Existen diferentes tipos de gráficas, que se pueden clasificar en:

y Numéricas: con imágenes visuales que sirven para representar el comportamiento o la


distribución de los datos cuantitativos de una población.

y Lineales: se representan los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas
lineales se recomiendan para representar series en el tiempo, y es donde se muestran valores
máximos y mínimos; también se utilizan para varias muestras en un diagrama.

y De barras: se usan cuando se pretende resaltar la representación de porcentajes de datos que


componen un total. Una gráfica de barras contiene barras verticales que representan valores
numéricos, generalmente usando una hoja de cálculo. Las gráficas de barras son una manera de
representar frecuencias; las frecuencias están asociadas con categorías. Una gráfica de barras
se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si
es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una
representación gráfica de la diferencia de frecuencias o de intensidad de la característica
numérica de interés.

y Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos. Está formado


por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los
intervalos y el centro de cada intervalo es la marca de clase que representamos en el
eje de las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del
intervalo respectivo.

y Circulares: gráficas que nos permiten ver la distribución interna de los datos que representan un
hecho, en forma de porcentajes sobre un total. Se suele separar el sector correspondiente al
mayor o menor valor, según lo que se desee destacar.

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo
número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se
denomina   o         
o   
 . Cuando se hace referencia
únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta
esté más o menos centrada, se habla de estas medidas como     .1 En este caso se
incluyen también los cuantiles entre estas medidas.

Entre las medidas de tendencia central tenemos:

y Media aritmética.
y Media ponderada.
y Media geométrica.
y Media armónica.
y Mediana.
y Moda.

± 
[ocultar]

y 1 La media aritmética (o simplemente media)


2 1.1 Definición formal
2 1.2 Propiedades
2 1.3 Inconvenientes de su uso
2 1.4 Media aritmética ponderada
2 1.5 Media muestral
y 2 Moda
2 2.1 Propiedades
2 2.2 Inconvenientes
y 3 Mediana
2 3.1 Cálculo de la mediana para datos agrupados
2 3.2 Propiedades e inconvenientes
y 4 Véase también
y 5 Referencias
y 6 Enlaces externos

      ! 


    "
 
 
    

La    es el valor obtenido por la suma de todos sus valores dividida entre el número de
sumandos.
Por ejemplo, las notas de 5 alumnos en una prueba:

Alumno Nota
1 6,0 ·Primero, se suman las notas:
2 5,4 6,0+5,4+3,1+7,0+6,1 = 27,6
3 3,1 ·Luego el total se divide entre la cantidad de alumnos:
4 7,0 27,6/5=5,52
5 6,1 ·La media aritmética en este ejemplo es 5,52

La    es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama
también   o, simplemente,   .

   c  


Dado un conjunto numérico de datos, ë1, ë2, ..., ën, se define su media aritmética como

Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es,
también puede calcularse para variables agrupadas en intervalos.

      

Las principales propiedades de la media aritmética son:3

y Su cálculo es muy sencillo y en él intervienen todos los datos.

y Su valor es único para una serie de datos dada.

y Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de
una medida de dispersión.

y Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene
la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:

y Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es,

el valor de es mínimo cuando . Este resultado se conoce como


Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más
importantes: la varianza.

y Se ve afectada por transformaciones afines (cambios de origen y escala), esto es, si

ëƒ = ë +  entonces , donde es la media aritmética de los ëƒ, para  = 1, ...,
 y  y  números reales.

y Es poco sensible a fluctuaciones muestrales, por lo que es un parámetro muy útil en inferencia
estadística.

[ed  #  enentes de su uso


      


                  
E t t , t i lti l i j it i i ,
          
ti t i l i i t , :

    !" #$ $ #%  &% ' # ($ $!) ! %  (  #$ !$( *$ # 


y P t i t l i l ti l il f i l
($  + ," ! #  $ #%  -!# # ($ ##$
ti lit l i t l i .

. #  ! ,#  (, #!,#$ # !$ "' ( *$ /, 0$# & ' )  /# # 0$# &  ')
t t i l i j t i .

 !$ ,#    (!+  $ (   #(  '#,$#   "# *$ # ,  -!# (!$  ,#$
y E i i ifi f t l i i ,
/, 0$# #$    ,#$ $ ,( *$ ""( $ 1 (/ #   , "' ( $#
t

l t , * i f

i i . 2 i t , l i
,!+  $  #$ ! (," ( $ "!# #$ #$#  , , ,#   # #,"  !$ #-! " #
i ti t
' $(#  ($ ( $( ! # #
i i t l i 45 i . P j l , i
! #  ! , #% #$ #,#$ # #$  !$ #  !
l   t 45 i j i l t t , 3, ,' i * t/ t ,0t í t t
,#  # , %  -!# #"##$  # ,#$ #  #  " ( $ , $# $ #, '  !$
i  3,  , l  t fi l t t l i . Si ,
#-! " # !  # # #  ! , 6 /# # 0$# 7 78 , 7 5 , 45 , 95 , + 98 ,
i j t t t , , , ,3 , 3, , 3, 45 3, ,
" # #,"  #$  , ' 0$ (, "!## (,"'# !$ #  ! ,#  # , % 
j l ,t í t i , , t t i 3, , l
-!# $ #"##$   ( $ $ !$ # ! (,"$#$ #
t i i t .

$ # ( 6 (!  #  ,#  $   % # ($  '!+#$ #  , , ,$# . % #  


y E l l6 l l i t l l ti l i . l lt
#$#$ ,  "# -!#  % # (#($  (#  # #,"  #$ # ( 6 (!  #    ,#  #
ti l l . P j l , l l l l l i i
!$ #,"# #    # !$    #( % -!# $# 888 888 # #$# $  "# (, # #
, l l i lt i ti 888
 #: #," #  ;$, #; -!# $#$
3. . ¼ ti t t l
$   " ' # %# ,!+  #(  "
i l l 3. ¼. E t l , f t
% # #< #,
l t .

=  # "!# # # #, $  #$ !$    '!( *$ # #(!#$(  /+ $ #%  # ( # ' # 
y t i i i ti i f i i t l l i t .

[edtar] $eda art >t ?a @onderada

ABCBD EFBG B DBH I J JHKLH EBDJD J AL JHBD L JD GL JD GBEBMG BMGJ GB DF HB BALMC L ELHL
A
GB BHN MLGJ BD FG J
til t l l t i l i
M BDJD CLDJD DB EFBGB F OLH FML NBG L EJMG BHLG L
t i t i .E tili i .

QRS STUQ VRQ WX RQ Y QRS QTQ Z[UQRQ Z VUQ[U\ ]RQ X ^UW X [RSW UVXW X QU WU SU
Si ë=,ë ,...,ë
WU X QP_T US U RV^X
t t =,P,..., ti ,l i fi
l i i t f :
   `   

Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se
aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de la
población objeto de estudio.

La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de gran


utilidad para la estimación de la media poblacional, entre otros usos.

   `
 
 
    

La moda es el dato más repetido, el valor de la variable con mayor frecuencia absoluta.5 En cierto sentido
la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas,


expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener
un valor concreto de la variable, se recurre a la interpolación.

Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El


número que más se repite es 5, entonces la moda es 5.

Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos
datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se
encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma
frecuencia diremos que no hay moda.

Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el
intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.

La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de
la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo  la frecuencia absoluta del intervalo modal y  í 1 y  + 1 las frecuencias absolutas de los
intervalos anterior y posterior, respectivamente, al

Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la
siguiente tabla (debajo):

±
     % & ' ( ) * +

,-  
 2 2 4 5 8 9 3 4 2

      

Sus principales propiedades son:

y Cálculo sencillo.
y Interpretación muy clara.
y Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el
parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos,
por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de
determinado sector social. Esto se conoce informalmente como "retrato robot".6

   #   

y Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a
variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende
excesivamente del número de intervalos y de su amplitud.
y Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la
moda, no afectan en modo alguno a su valor.
y No siempre se sitúa hacia el centro de la distribución.
y Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la
misma frecuencia (distribuciones bimodales o multimodales).

   a  
 
 
    

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos
están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de
trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez
ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo
que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo,
en el caso de doce datos como los anteriores:

Se toma como mediana

Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado
a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano"
y, dentro de éste, se obtiene un valor concreto por interpolación.

±

 
       R 

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).

Así, aplicando la formula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos
en la fórmula que hace referencia a las frecuencias absolutas:

Ni-1< n/2 < Ni = N19 < 19.5 < N20

Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21
(frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar
las unidades; en este caso como estamos hablando de calificaciones, serán puntos)

La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.

Ejemplo (N par)
Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la
siguiente tabla (debajo):

±
     % & ' ( ) * +

,-  
 2 2 4 5 6 9 4 4 2

b
±


  : ë  .

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
  
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) =
X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1<   &
n/2 < Ni = N18 < 19 < N19
% & *
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el
decimonoveno y el vigésimo lugar.
& ' %
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el
vigésimo hasta el vigésimo octavo)
' ( + / +

con lo que Me = (5+6)/2 = 5,5 puntos.


( + *
La mitad de la clase ha obtenido un 5,5 o menos y la otra mitad un 5,5 o más
) & %

* & %(
       

+  %*
Las principales propiedades de la mediana son:8

y Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de


transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la
mediana inalterada.
y Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando
alguno de ellos no está acotado.
y No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética
cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume
la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos
que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la
población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana
más dinero que él, como que gana menos.

Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en
función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la
media aritmética.

El rango de la distribución de frecuencias se calcula así:

Š  
         
f
c d e 

gh hgj hg l g h
y ï  i  ki k m  

nopqnn rq os t uor r t ro r svons wx u ys soxp t ro pt pz tn o x onvno tn vzos q {zo s uv ouox o


y El i l i i i ill l l i t t t i l t
os t r s txp t ox no qs |t qnoso} nouqs ~u y} uq  u x uq€ ox zxt r s n zp wx
l i t i t l l t i í i i ti i
zos q {zo o nopqnn rq so tst ox qs |t qnos o} nouqs ‚s o oxro s son onny pq ƒ q os o} nt„q {zo
y P t l i l l t t ti ti . t
ox zxt r s n zp wx ro rt qsopqxwu pqs q pquonp t os xp zt t zxqs vqpqs |t qnos ox o} nouq
i ti i t i i l i l l t
vo{zo„ qs q …ntxros †ztxrq t pqst szporo ox qxpos o nopqnn rq sq tuox o u ro t r svons wx
. t l , t l i l t i l i i
pqx nosvop q t osqs |t qnos txqnut os …xqntxrq t qs rou ys |t qnos ro t |tn t o
t l l ,i l l l i l .
‡t vn xp vt ros|ox t t ro nopqnn rq os {zo s w q os t x zoxp tr q vqn qs |t qnos o} nouqs vzos q
y i i l t j l i l t i fl i l l t ,, t
{zo xq pzox t pqx qs rou ys |t qnos ro t |tn t o qn t ntˆ wx s ouvno o} s o o vo …nq ro {zo o
t l l l i l .P t l , i i t l li l
nopqnn rq q noˆpt zxt rospn vp wx r s qns qxtr t ro t r svons wx
i f i i i t i l i i .
x o pqx nq ro t pt r trso ‰tpo zx zsq o} oxsq ro nopqnn rq pztxrq t r s n zp wx t z ˆtnso xq
y E l t l l li t l i l i ti i tili
t r s qns qxtx  pztxrq o t‰ qnnq ro ouvq t ‰tpon qs p y pz qs os zx tp qn ro uvqn txp t
l i t i l l ti l l l l f t i t i .

cesvac Šn eda

‹ Œ Ž Ž  Ž ‘
c i i i , l il i li
Ž Ž‘ Ž ’ “”•–
S lt  i , 

— ˜  – ˜
 desvac Šn eda  l i  l if  i  l   
l t
 l
 l
   l i.

˜– – •– ™ ˜ –
Et ’l
 títi

    tili  títi  i
 
 f il i l i 
–
f i  l 
   i l .
›
Sendo  šs ora
es
a desvacŠn eda debera

aarse desvac Šn abso


uta respecto a
a
eda para evtar confusones con otra edda de dspersŠn
a desvac Šn abso
uta respecto a
a
edana c  cuya fóru
a es
a sa susttuyendo
a eda artœtca por
a edana 
ero ta
precsón no es re
evante porque
a desvacón abso
uta respecto a
a edana es de uso
todava enos frecuente

 ž Ÿ   ž Ÿ   ¡
  ii
ž
  
l t   t
 l i, c , l  ii   
l t   t
 l i, c, l
Ÿ   Ÿ
 ii  tí i, ı,   i

j t
 l
   ifi l  il:

¢
Si 
 


 l £
 il 

  ¤ l
 i
¥ l
 i

c = 0 cuando los datos son exactamente iguales (e iguales a la media aritmética)

justo sólo hay dos valores en los datos, :,, y hay exactamente la mitad
de datos igual a : y :.

0 1 213#1,41 !S  5 "6

La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de referencia es
la media aritmética de la distribución. Más específicamente, la varianza es una medida de que tan cerca,
o que tan lejos están los diferentes valores de su propia media aritmética. Cuando más lejos están las Xi
de su propia media aritmética, mayor es la varianza; cuando más cerca estén las Xi a su media menos es
la varianza. Y se define y expresa matemáticamente de la siguiente manera:

¦
r   !  
"## 
#

Dado un conjunto de observaciones, tales como X1, X2, « , Xn, la varianza denotada usualmente por la
¦ § §
letra minúscula griega $    
  

#$ y en otros casos  según otros analistas,  

  ##%  

#
#
 
 #  #  "# 
  "&" '

Matemáticamente, se expresa como:

()  #%

4 
             !"#$#%#&'$(



 
         
   #%(   
 ) 

       

Para calcular se utiliza una tabla estadística de trabajo de la siguiente manera:


¨
  *+,

* *+,

18 (18 ± 25.5)=-7.4 (-7.4)2=54.76

23 (23 ± 25.5)=-2.4 (-2.4)2= 5.76

25 (25 ± 25.5)=-0.4 (-0.4)2= 0.16

27 (27 ± 25.5)= 1.6 ( 1.64)2= 2.16

34 (34 ± 25.5)= 8.6 ( 8.6)2 =73.96

© ¨
-#"  ....  ª «

¨ ¬
Š   " %   ! 
 

 
 ª  /#

­
r   !  
"# 
#

Si en una tabla de distribución de frecuencias. Los puntos mediosde las clases son X1, X2, « , Xn; y las
frecuencias de las clases f1, f2, « , fn; la varianza se calcula así:

Ȉ(Xi- )2f1
w2 = ----------------

Ȉfi

Sin embargo la formula anterior tiene algún inconveniente para su uso en la practica, sobre todo cuando
se trabaja con números decimales o cuando la media aritmética es un número entero. Asimismo cuando
se trabaja con máquinas calculadoras, La tarea de computar la varianza se simplifica utilizando la #  

 # " 0 que se da a continuación:

® ®
1* +21* 345

®
$  ++++++++++++++++++++++++++++

4donde N=Ȉfi

()  #%

Se tienen los datos de una muestra de 30 cuentaspor cobrar de la tienda 6 7 89:# 


#
dispuestos en una tabla de distribución de frecuencias, a partir de los cuales se deberá calcular la
varianza, para lo cual se construye la siguiente tabla estadística de trabajo, si se calculó anteriormente la
media aritmética y se fijó en 43.458 (ver ejemplo del calculo en "media aritmética para datos agrupados)
de la siguiente manera

® ®
 ï"#
#  * * * 

   *

7.420 ± 21.835 14.628 10 213.978 146.280 2,139.780

21.835 ± 36.250 29.043 4 843,496 116.172 3,373.984

36.250 ± 50.665 43.458 5 1,888.598 217.270 9,442.990

50.665 ± 65.080 57.873 3 3,349.284 173.619 10,047.852

65.080 ± 79.495 72.288 3 5,225.555 216.864 15,676.665

79.495 ± 93.910 86.703 5 7,533.025 433.965 37,665.125

-#"  *** 30 19,053.936 1,304.190 78,346.396




= 21,649.344 / 30 = 721.645

¯ ± ³
Š   " %   ! 
   "  #  #7    ;3 °  ² <

y     
   6

y s siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente cuando Xi=
y La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
y Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:

Si a xi le sumamos una constante xi¶ = xi + k tendremos (sabiendo que )

y Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por
el cuadrado de dicha constante. Veámoslo:

Si a xi¶ = xi · k tendremos (sabiendo que )

y Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la distribución


inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la expresión

Siendo

Ni è el nº de elementos del subconjunto (i)

S2i è la varianza del subconjunto (i)

%0 1 cS2#1±#7, STÁ,c13 !S  5"


Es  


  "

"=    > # # 
 #)"#

"#
 
 

 Es la medida de dispersión más utilizada, se le llama también desviación típica. La desviación
estándar siempre se calcula con respecto a la media y es un mínimo cuando se estima con respecto a
este valor.

Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada positiva de esta.
A la desviación se le representa por la letra minúscula griega "sigma" ( w ) ó por la letra S mayúscula,
según otros analistas.

6? #
   0("?

´ ´
$ @$ 0 @

()  #%

Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer año se obtuvo
w2=27.44, como la desviación estándar es la raíz cuadrada positiva, entonces w = ¥27.44 = 5.29 años.

Igual procedimiento se aplica para encontrar le desviación estándar de las cuentas por cobrar de la
Tienda Cabrera¶s y Asociados, recordemos que la varianza obtenida fue de 721.645, luego entonces la
desviación estándar es igual a w =¥721.645 = 26.86 balboas.

y     
c    

A su vez la desviación estándar, también tiene una serie de propiedades que se deducen fácilmente de
las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la varianza):

y La desviación estándar es siempre un valor no negativo S será siempre ³ 0 por definición. Cuando S
= 0 è X = xi (para todo i).
y Es la medida de dispersión óptima por ser la más pequeña.
y La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable
y Si a todos los valores de la variable se le suma una misma constante la desviación estándar no varía.
y Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar
queda multiplicada por el valor absoluto de dicha constante.

You might also like