You are on page 1of 15

Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 1


ANALISIS 
Y ORGANIZACION DE DATOS

La Estadstica actual es el resultado de la union de dos disciplinas que evolucionan independientemente


hasta con uir en el siglo XIX: la primera es el calculo de probabilidades, que nace en el siglo XVII como
teora matematica de los juegos de azar; la segunda es la \Estadstica"(o ciencia del Estado, del latn
Status) que estudia la descripcion de datos y tiene unas races mas antiguas. La integracion de ambas
lneas da lugar a una ciencia que proporciona metodos para organizar y resumir informacion y usar esta
para obtener diversas conclusiones.
Sin embargo, para algunas personas la idea de Estadstica se traduce en el siguiente dicho popular:
\La Estadstica es la ciencia que explica como si tu te comes un pollo y yo ninguno, nos hemos comido
medio pollo cada uno por termino medio", y en la famosa frase: \Si un hombre tiene la cabeza en un
horno y los pies en una nevera, su cuerpo esta a una temperatura media ideal"(Bernard Shaw). Para
otros, es la ciencia mediante la cual con gra cos, tasas de variacion y porcentajes, se manipula la opinion
desde la publicidad, la tecnologa o la economa.
La unica forma de evitar esta posible manipulacion e ideas equivocadas acerca de la Estadstica es
el conocimiento basico de esta, para as participar efectivamente en la argumentacion basada en cifras y
datos. Y es evidente que vivimos en un mundo inmerso en cifras y que hoy en da resulta casi imposible leer
un periodico, or la radio o ver la television sin encontrar alguna noticia avalada por datos y estadsticas.
Mas aun, una buena parte de las decisiones que nos afectan a todos estan fundamentadas en el ndice de
crecimiento de la produccion, en el ndice de precios al consumo, en el ndice de in acion . . . , todos ellos
parametros indicativos de la marcha de la economa.
Cuando coloquialmente se habla de estadsticas se suele pensar en colecciones de datos numericos
presentados de forma ordenada y sistematica, pero la Estadstica no puede entenderse simplemente como
una manipulacion de datos numericos. La Estadstica es la ciencia que nos facilita los metodos precisos
para la obtencion y descripcion de datos, as como los metodos de analisis, interpretacion y obtencion
de conclusiones a partir de la informacion recogida. Estas dos vertientes dan lugar a las dos partes bien
diferenciadas de la Estadstica:

1. Estadstica Descriptiva: Tiene como objetivo la recogida, organizacion, analisis y representacion


de datos obtenidos en las observaciones.
2. Estadstica Inferencial o Inductiva: Tiene como objetivo realizar previsiones y obtener conclu-
siones acerca de la poblacion completa, basandose en la informacion obtenida de una muestra.

El Calculo de Probabilidades constituye el nexo de union entre las tecnicas utilizadas en la Estadstica
Descriptiva e Inferencial y podemos decir que en un problema de probabilidad se conocen las propiedades
de la poblacion y se formulan y responden preguntas en relacion a una muestra concreta tomada de la
poblacion.
Estas paginas tienen como objetivo exponer de manera breve y concisa las nociones, parametros y
resultados basicos de la Estadstica Descriptiva.

ESTADISTICA DESCRIPTIVA

El gran numero de datos y el desorden con el que estos se obtienen hacen necesaria su organizacion
y presentacion en tablas y gra cos, as como el calculo de diferentes parametros que permitan resumir la
informacion que nos facilita el conjunto de datos. Esta es la mision de la Estadstica Descriptiva. Tener
en cuenta que esta disciplina saca conclusiones sobre los datos recogidos, pero no extrapola a la poblacion
completa.

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 2

 n y representacio
Bloque 1: Organizacio  n de datos

Leccion 1: Introduccion
Dedicamos esta primera leccion a establecer la terminologa basica de la disciplina que nos ocupa.
El objeto de toda investigacion estadstica es estudiar un fenomeno de la realidad o una determinada
caracterstica de un colectivo. As, se llama poblacion o universo a cualquier conjunto de individuos
(no necesariamente personas) u objetos sobre el que van a recaer las observaciones. A cada uno de sus
elementos se le llama individuo o unidad estadstica. La poblacion debe estar determinada con claridad
a la hora de iniciar el estudio. Se llama tama~no de la poblacion al numero de elementos de esta, el cual
puede ser nito o in nito.
Cuando para realizar este estudio se recoge informacion de todos los individuos de la poblacion se dice
que se realiza un censo, pero ello no es habitualmente factible, ya sea por; razones de coste economico,
temporal o porque los individuos se destruyan en el propio proceso de investigacion. En cualquiera de
estos casos el estudio se limita a un subconjunto de la poblacion que se denomina muestra. Al numero de
elementos de la misma se le llama tama~no de la muestra. El muestreo o eleccion de muestras adquiere una
especial importancia en la Estadstica Inferencial, al utilizar dichas muestras para obtener conclusiones
sobre la poblacion completa.
La caracterstica, aspecto, fenomeno, rasgo o cualidad que presenta cada individuo de la poblacion y la
cual es objeto de estudio en las observaciones se llama caracter. A las distintas posibilidades del caracter
se le llama modalidad si no se expresan numericamente y valor en caso contrario. Estas posibilidades
tienen que ser incompatibles dos a dos, ya que cada individuo debe pertenecer a una sola.
Podemos distinguir dos tipos de caracteres:

 Caracteres cualitativos si las distintas modalidades de los individuos no son medibles numerica-
mente, como por ejemplo, el sexo, el color de ojos, el estado civil, la profesion, el grupo sanguneo
...
 Caracteres cuantitativos si los valores de las caractersticas de los individuos son medibles nume-
ricamente, como por ejemplo, el peso, la estatura, la edad, el numero de hijos . . . A los caracteres
cuantitativos se les conoce como variables estadsticas y se representan por las letras mayusculas
X; Y; Z : : : y a los valores que pueden adoptar por x; y; z : : :

Ademas, debemos diferenciar entre dos tipos de variables estadsticas:

 Variables discretas cuando los posibles valores distintos que puede tomar la variable son aislados, es
decir, entre dos valores proximos puede tomar a lo sumo un numero nito de valores. Por ejemplo,
el numero de hijos de una familia puede ser 0, 1, 2, . . . pero esta variable no puede tomar ningun
valor en el intervalo (1; 2) (nadie tiene 1,35 hijos), luego el numero de hijos es una variable discreta.
 Variables continuas cuando los posibles valores distintos que puede tomar la variable son todos los
valores de un intervalo y por tanto in nitos valores. Por ejemplo, el peso de una persona puede
tomar cualquier valor del intervalo (70; 80) (una persona puede pesar 73,287 Kg), luego el peso es
una variable continua, as como la altura, la temperatura, . . .

La distincion que acabamos de hacer es mas bien teorica que practica, ya que la limitacion de los aparatos
de medida hace que practicamente todas las variables se comporten como variables discretas cuando se
las observa. Por otra parte, una magnitud que puede tomar un gran numero de valores y muy proximos,
aunque sean valores aislados, sera considerada como variable continua y agrupada en clases. As ocurre
con magnitudes monetarias como el salario mensual de un trabajador, el bene cio anual de una empresa
y otras.

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 3

Leccion 2: Presentacion de distribuciones gra cas


Ya hemos comentado anteriormente que, tras la observacion y recogida de datos, se hace necesaria la
organizacion y resumen de estos de forma adecuada y util para posibilitar su posterior estudio estadstico.
En este tema abordamos dos formas de presentacion: las tablas de frecuencias y las representaciones
gra cas.
Consideramos una poblacion de tama~no n a cuyos individuos se les observa una caracterstica quedan-
do recogidos sus datos en un caracter X , ya sea cualitativo o variable estadstica discreta. Sean x1 ; x2 ; : : : ;
xk las modalidades o valores distintos que adopta X .
Se llama frecuencia absoluta de xi , i = 1; : : : ; k , y se denota fi al numero de veces que la modalidad
o valor xi se repite entre las n observaciones.

Se llama frecuencia relativa de xi , i = 1; : : : ; k , y se denota hi al cociente hi = fni . Tambien podemos


indicar la frecuencia relativa en terminos de porcentajes: se llama porcentaje de xi y se denota pi a
pi = 100hi .
La tabla o distribucion de frecuencias de un caracter cualitativo esta dispuesta por columnas: la
primera de ellas contiene las modalidades que adopta y en las siguientes columnas se muestran las fre-
cuencias absolutas, relativas y los porcentajes de dichas modalidades.
Si se trata de una variable estadstica discreta, podemos ordenar sus valores de menor a mayor y de nir
dos indicadores mas que dependen de este orden. Por tanto supongamos que x1 < x2 < : : : xk . Se llama
frecuencia absoluta acumulada del valor xi y se representa por Fi a Fi = f1 + f2 + : : : fi . De igual forma,
se llama frecuencia relativa acumulada del valor xi y se representa por Hi a Hi = h1 + h2 + : : : hi = Fni .
La tabla o distribucion de frecuencias de una variable estadstica discreta esta formada por las cuatro
columnas anteriores {valores, frecuencias absolutas, relativas y porcentajes{ a las que se les a~naden dos
nuevas columnas correspondientes a las frecuencias absolutas y relativas acumuladas. A veces, se consi-
deran otras columnas con distintas operaciones que facilitan el calculo de algunos parametros estadsticos
como la media, varianza, etc.
En el caso de una variable estadstica continua o de una discreta pero que adopta muchos valores
distintos, el uso de la tabla de frecuencias no es efectivo ya que al presentar muchos valores (muchas las)
esta se hace inmanejable. En estos casos, es aconsejable reducir el numero de valores agrupando los datos
en los que se denomina intervalos de clase. El objeto de los intervalos de clase es dividir la escala de
medidas en un conjunto de intervalos disjuntos, de manera que cada observacion del conjunto de datos
este contenida en un solo intervalo de clase. Evidentemente, al agrupar en un unico intervalo una serie
de datos distintos, se pierde informacion acerca de las observaciones pero a cambio, hacemos manejable
la variable resultante para construir la tabla de frecuencias.
La amplitud y numero de intervalos dependera del estudio que deseemos realizar, pero teniendo en
cuenta siempre que cada una de las observaciones tiene que estar contenida
p en un unico intervalo. Como
referencia del numero de intervalos a construir, se considera el valor n una primera aproximacion.
Ademas, se suelen elegir los intervalos de igual amplitud.
Una vez obtenidos los intervalos, se de nen sus frecuencias absolutas como el numero de observaciones
que pertenecen a cada uno de ellos.
Al punto medio de cada intervalo se le conoce como marca de clase y es una manera abreviada de
representar el intervalo mediante uno de sus puntos.
Como hemos expuesto, las tablas de frecuencias resumen los datos de que disponemos sobre una
poblacion, de forma que esta se pueda analizar mas claramente. Para captar de \un solo vistazo"las
caractersticas de los datos resulta de mucha ayuda el uso de gra cos y diagramas, cuya construccion
vemos a continuacion.
Segun el caracter que estemos estudiando {cualitativos, variables discretas o agrupadas{ utilizaremos
distintos tipos de gra cas. Estas representaciones se basan fundamentalmente en la proporcionalidad

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 4

entre areas y frecuencias absolutas o relativas.


Diagramas de barras: Es un gr a co sobre ejes cartesianos en el que distribuimos en el eje de
abscisas las modalidades, si el caracter es cualitativo, o los valores, si la variable es no agrupada. Sobre
estos se levantan barras o rectangulos de igual base (que no se solapen) cuya altura sea proporcional a la
frecuencia que representan. La Figura 1 muestra algunos ejemplos.

40
10
9
35

N. de empresas
8 30

N. de personas
6 25
6 5 20
4 15
2 10
2
5
0 0
A B AB O 70 80 90 100 110
Grupo sanguíneo Inversión en publicidad
(miles de euros)

Figura 1: Diagramas de barras

Histogramas: Es un gr a co que se utiliza para las variables agrupadas en intervalos de clase. Se
realizan sobre ejes cartesianos representando sobre el eje de abscisas los intervalos de clase y levantando
rectangulos que tienen como base la longitud de los distintos intervalos y una altura tal que el area del
rectangulo sea proporcional a la frecuencia correspondiente al intervalo. Podemos consultar un ejemplo en
la Figura 2. Cuando los intervalos son de la misma longitud, la altura suele corresponder a la frecuencia.

30
N. de obreros
25

25
10
5
5
100 110 120 130 140 160 180

N. de piezas fabricadas

Figura 2: Histograma

Pol
gonos de frecuencias : Son gra cos lineales que se obtienen uniendo los puntos medios de las
bases superiores de los rectangulos del diagrama de barras o del histograma, segun sea el caracter. La
Figura 3 muestra los polgonos de frecuencias correspondientes a los ejemplos de las Figuras 1 y 2.
Diagramas de sectores: Son gr a cos en los que a cada valor o modalidad se le asigna un sector
circular de area proporcional a la frecuencia que representan. Se utilizan si el caracter es cualitativo o
cuantitativo discreto, siendo muy comunes en el primer caso. De nuevo, en la Figura 4 mostramos el
diagrama de sectores para el ejemplo del grupo sanguneo.
Pictogramas: Se utilizan con frecuencia para representar la distribuci on de un caracter cualitativo.
Son gra cos con dibujos alusivos al caracter que se esta estudiando, en los que cada modalidad es repre-
sentada por dicho dibujo de tama~no proporcional a la frecuencia de la misma, la cual se suele mostrar
tambien en el gra co. La Figura 5 ilustra un ejemplo.
 mides de poblacio
Pira  n: Se utilizan para estudiar conjuntamente la variable edad y el atributo

sexo, cambiando el eje de ordenadas por el de abscisas. En realidad son dos diagramas de barras o
histogramas, uno para los hombres y otro para las mujeres (ver Figura 6).

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 5

40
10
9
35

N. de empresas
8 30

N. de personas
6 25
6 5
20
4 15
2
10
2
5
0 0
A B AB O 70 80 90 100 110
Grupo sanguíneo Inversión en publicidad
(miles de euros)

30
25 N. de obreros

25
10
5
5

100 110 120 130 140 160 180

N. de piezas fabricadas

Figura 3: Polgonos de frecuencias

O
A

B
AB

Figura 4: Diagrama de sectores

1 hora 3 horas 4 horas 8 horas


10 personas 18 personas 5 personas 10 personas

N. de horas viendo la televisión

Figura 5: Pictogramas

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 6

Edad

> 80
70-80
60-70
50-60
40-50
30-40
20-30
10-20
< 10
100 80 60 40 20 0 0 20 40 60 80 100
Hombres Mujeres

Figura 6: Piramide de poblacion

Bloque 2: Medidas caracter n


sticas de una distribucio

Leccion 3: Distribuciones de un caracter


Es frecuente que las observaciones a estudiar esten compuestas por una gran cantidad de datos, por
lo que se hace necesario complementar la informacion intuitiva que aportan las tablas de frecuencias y
las representaciones gra cas con un analisis estadstico numerico. La idea es resumir toda la informacion
de los datos en unos pocos, de manera que se conserve la mayor informacion posible del conjunto total
de ellos y el comportamiento global de la poblacion o muestra en estudio.
En esta leccion se estudian los parametros estadsticos que nos ayudan a emitir conclusiones sobre las
poblaciones en estudio y a hacer comparaciones entre ellas, ya que a traves solo de las tablas y gra cos
es posible que emitamos juicios no acertados.
Existen distintos tipos de medidas, segun el papel que juegan:

 Medidas de centralizacion: buscan caractersticas del centro de la distribucion: media, moda y


mediana.
 Medidas de posicion: indican, una vez ordenados, cuantos elementos quedan a la izquierda o
derecha de uno dado: cuartiles, deciles, centiles o percentiles.
 Medidas de dispersion: proporcionan una idea sobre la separacion de los datos: rango o recorrido,
rango intercuartlico, desviacion media, varianza, desviacion tpica y coe ciente de variacion.
 Medidas de forma: proporcionan una idea de la simetra y apuntamiento de la distribucion:
coe ciente de asimetra y coe ciente de apuntamiento.

A lo largo de la leccion trabajaremos con variables estadsticas, ya sean discretas o continuas. De


nuevo n denotara al tama~no de la poblacion, X a la variable, x1 ; x2 ; : : : ; xk a sus k valores distintos, que
consideramos ordenados de menor a mayor y f1 ; f2 ; : : : ; fk a sus respectivas frecuencias absolutas. Si se
trata de una variable agrupada en intervalos (L0 ; Ll ], (L1 ; L2 ], (L2 ; L3 ]. . . (Lk l ; Lk ] los valores xi con
i = 1 : : : k , representan los valores de la marca de clase de cada intervalo y fi las frecuencias absolutas de
cada intervalo.

MEDIDAS DE CENTRALIZACION
: Es la media aritmetica de los valores y se denota x.
X
Media

xi  fi
i=1
x=
n

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 7

 Es la medida de centralizacion mas utilizada por su facil calculo y por tener en cuenta todos los
datos.
 La media es el \centro de gravedad"de la distribucion y es unica para cada distribucion.
 Cuando aparecen valores extremos y poco signi cativos la media puede no ser representativa.
 No es posible calcularla si el caracter es cualitativo o cuando existen datos agrupados con algun
intervalo no acotado.

Moda: En el caso de una variable estad stica discreta es el valor con mayor frecuencia absoluta; se
denota Mo . Si se trata de una variable agrupada en intervalos de clase, de nimos el intervalo modal como
aquel que presenta mayor frecuencia absoluta.

 Puede que exista mas de una moda en cuyo caso se dice que la distribucion es bimodal, trimodal. . . .
 Es posible calcular la moda para caracteres cualitativos.
 En su calculo no intervienen todos los valores o modalidades por lo que es una medida menos
representativa que la media.

Mediana: Es la medida que, una vez ordenados los valores de la variable en orden creciente y repetidos
tantas veces como indica su frecuencia, deja a su izquierda y derecha el mismo numero de observaciones.
Se le denota Me .

 Si se trata de una variable discreta que presenta un numero impar de observaciones, la mediana
es el valor que ocupa el lugar central. Si el numero de observaciones es par, existen dos valores
centrales siendo la mediana la media aritmetica de ambos.
 En el caso de una variable agrupada en intervalos, se interseca el polgono de frecuencias acumu-
ladas con una recta horizontal por el valor n=2. El punto obtenido sobre el polgono se proyecta
ortogonalmente sobre el eje OX , obteniendose un valor que sera la mediana.
 En general, la mediana es util si la media no se puede calcular o no es representativa.
 En su calculo no se utilizan todos los datos y depende del orden de estos no de su valor.


MEDIDAS DE POSICION
Para de nir los siguientes parametros, consideramos que las observaciones estan ordenadas de menor
a mayor valor.
Cuartiles: Son tres valores de la variable que dividen al conjunto de datos en cuatro grupos iguales,
es decir, en cada uno de ellos se encuentra la cuarta parte de la poblacion. Se denotan Q1 ; Q2 y Q3 .

 El cuartil primero Q1 deja a su izquierda la cuarta parte de los datos y a su derecha las tres cuartas
partes.
 El cuartil segundo Q2 coincide con la mediana.
 El cuartil tercero Q3 deja a su izquierda las tres cuartas partes de los datos y a su derecha la cuarta
parte.

Deciles: Son nueve valores de la variable que dividen a la misma en diez partes iguales de modo

que entre dos deciles consecutivos hay un 10% de los individuos de la poblacion. Se representan por
D1 ; D2 ; : : : ; D9 .

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 8

 Si n es el tama~no de la poblacion, el decil k -esimo Dk deja a su izquierda k10n observaciones y a su


derecha (10 10k)n

Centiles o Percentiles: Son 99 valores de la variable que dividen a la serie de datos en 100 partes

iguales. Se representan por Ck o Pk , donde k indica el porcentaje de datos que quedan a su izquierda.

MEDIDAS DE DISPERSION
Rango o recorrido: Es la diferencia entre el mayor y el menor valor que adopta la variable. Si la

variable es agrupada, se calcula la diferencia entre el lmite superior del ultimo intervalo y el inferior del
primero.

 Su calculo es muy sencillo pero no tiene en cuenta todos los valores de la variable, solo depende de
los valores extremos.
 A menor rango, menor dispersion y mayor representatividad de las medidas centrales.

Rango intercuart lico: Es la diferencia entre el tercer y el primer cuartil. Nos indica la amplitud
del intervalo en el que se encuentra el 50% de la poblacion.
Desviacio  n media: Es la media de las desviaciones de los valores de la variable respecto a la media

de la distribucion y se denota DM . Con nuestra notacion:


Xj
k

xi x j fi
i=1
DM =
n

 Es una medida muy poco utilizada por la complicacion de su calculo.


 Si la DM es muy peque~na, indica que hay una gran concentracion de valores en torno a la media.

: Es la media de los cuadrados de las desviaciones respecto a la media y se denota  2 .


X
Varianza

(xi x )2 f i
i=1
2 =
n
Realizando operaciones en esta expresion obtenemos que
Xk

xi 2 fi
i=1
2 = x2
n

 Es una medida de dispersion que depende de todos los datos y cuyas unidades no son las mismas
que las de la poblacion, sino su cuadrado.
 Al tomar los cuadrados de las desviaciones tiene la ventaja de que las desviaciones grandes afectan
mas al resultado luego, si la dispersion es grande, la varianza expresara mejor que la desviacion
media este hecho.
 La varianza siempre es positiva siendo nula cuando todos los valores coinciden con la media.

 n t
Desviacio pica
vuu X
: Es la raz cuadrada positiva de la varianza y se denota por  .

uut
k

xi 2 fi
i=1
= x2
n

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 9

 Es la medida de dispersion mas utilizada.


 A menor desviacion tpica, menor dispersion y mayor representatividad de la media.
 Las unidades de  son las mismas que las de la poblacion.

Teorema de Tchebiche : Sea X una variable estadstica y k > 1, entonces en el intervalo (x


k; x + k ) se encuentran, como mnimo, el 100(1 1 )% de sus observaciones.
k2
n
Coeficiente de variacio : Es el cociente entre la desviacion tpica y la media y se representa por
CV .

CV =
x

 En la comparacion entre distintas distribuciones, tanto la varianza como la desviacion tpica pre-
sentan el inconveniente de su dependencia de las unidades de las variables. Es por ello por lo que
se de ne el coe ciente de variacion, el cual es independiente de las unidades de medida.
 Si la media es muy proxima a cero, el CV no debe utilizarse ya que el denominador es muy peque~no
y puede dar un grado erroneo de dispersion, dependiendo del valor de la desviacion tpica.
 Cuanto menor es el coe ciente de variacion, menor dispersion tiene la distribucion y, por tanto, la
media sera mas representativa.
 En general, si CV  1 podemos a rmar que se trata de una distribucion homogenea. Sin embargo,
si CV > 10 5 debemos buscar posibles factores de heterogeneidad en los datos como la utilizacion
de diferentes instrumentos de medida o distintos momentos temporales.

MEDIDAS DE FORMA
Coeficiente de asimetr
a o sesgo : Se de ne el coe ciente de asimetra como
X
k

(xi x)3 fi
1
g3 = (
3
 i=1

n
)

 Este parametro de forma nos indica el grado de simetra de una variable en relacion a su distribucion
de frecuencias.
 No depende de las unidades de medida de las variables.

A continuacion presentamos los diferentes casos que se pueden presentar en cuanto a la simetra de
una distribucion. Una distribucion de frecuencias es simetrica si lo es respecto a la mediana, es decir, si la
recta x = Me es eje de simetra de su polgono de frecuencias; en este caso, si la distribucion es unimodal,
las tres medidas de tendencia central, media, mediana y moda, coinciden. Una distribucion es sesgada
a la derecha o presenta asimetra positiva si las frecuencias mas altas se encuentran en el lado izquierdo
de la mediana, mientras que en el derecho hay frecuencias mas peque~nas, esto es, la gra ca presenta
cola a la derecha (las frecuencias descienden mas lentamente por la derecha que por la izquierda). La
misma de nicion la obtenemos para una distribucion sesgada a la izquierda o asimetrica negativamente
si cambiamos derecha por izquierda y viceversa. La Figura 7 muestra los tres casos.
Se tiene que:

1. Si g3 > 0 entonces la distribucion es asimetrica a la derecha.


2. Si g3 = 0 entonces la distribucion es simetrica.
3. Si g3 < 0 entonces la distribucion es asimetrica a la izquierda.

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 10

cola cola

Me Me Me
Distribución simétrica Distribución sesgada Distribución sesgada
a la derecha a la izquierda

Figura 7: Sesgo de una distribucion

: Se de ne el coe ciente de apuntamiento o curtosis como


X
Coeficiente de apuntamiento

(x i x )4 f i
1
g4 = (
4
 i=1

n
) 3

 Este parametro indica el grado de elevacion del diagrama de barras de las frecuencias relativas de
la distribucion. Este grado de elevacion se traduce en el reparto de la frecuencia entre el centro y
los extremos de la gra ca.
 No depende de las unidades de medida de las variables.
 Como medida de referencia de la elevacion \normal"se toma la distribucion normal o campana de
Gauss, mostrada en la Figura 8.

x- x x+

Figura 8: Distribucion normal o campana de Gauss

Se tiene que:

1. Si g4 > 0 entonces la distribucion es mas apuntada que la normal y se denomina Distribucion


Leptocurtica.
2. Si g4 = 0 entonces la distribucion presenta el mismo grado de elevacion que la normal y se denomina
Distribucion Mesocurtica.
3. Si g4 < 0 entonces la distribucion es mas aplastada que la normal y se denomina Distribucion
Platicurtica.

Leccion 4: Distribuciones de dos caracteres


Al realizar el estudio de una poblacion o muestra puede que nos interese observar un solo caracter de
cada individuo y en consecuencia se tratara del estudio de una unica variable (talla, peso, resistencia, . . . ),
o bien puede que, como ocurre en la mayora de los casos, de cada uno de los individuos nos interesen dos
o mas caracteres, dando lugar a las variables estadsticas bidimensionales, las cuales recogen los datos de

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 11

dos caracteres de los individuos de una poblacion o las multidimensionales, recogiendo m caractersticas
distintas.
Esta leccion la dedicamos a las variables estadsticas bidimensionales pudiendo extrapolar gran parte
de las conclusiones y metodos utilizados a las multidimensionales. En particular estudiaremos la relacion
de tipo estadstico que puede existir entre dos variables, concepto conocido como correlacion.
Comenzamos la leccion exponiendo la manera de organizar y representar gra camente los valores de
una variable estadstica bidimensional.
Sea (X; Y ) una variable estadstica bidimensional donde las variables unidimensionales X e Y adoptan
los valores x1 ; x2 ; : : : ; xk e y1 ; y2 ; : : : ; yl , respectivamente. As, los datos para la variable bidimensional
son pares de valores de la forma (xi ; yj ). Se llama frecuencia absoluta del par (xi ; yj ) al numero de veces
que se repite dicho par en los datos y se denota fij . Si n es el numero total de observaciones, se llama
frecuencia relativa del par (xi ; yj ) y se denota hi;j a hi;j = fnij .
Los diagramas de dispersion o nube de puntos son las representaciones mas utilizadas para mostrar
gra camente los datos de una variable estadstica bidimensional. Consisten en un sistema de ejes co-
ordenados representando en el eje de abscisas los valores o modalidades de X y en el de ordenadas los
de Y y de forma que cada punto del plano corresponde a un valor (xi ; yj ) de la variable bidimensional.
Los puntos del diagrama de dispersion pueden tener un grosor proporcional a la frecuencia absoluta del
par que representan, o bien ser todos del mismo tama~no con lo que se obviaran dichas frecuencias. La
Figura 9 muestra el diagrama de dispersion correspondiente a los datos recogidos por una empresa en los
ultimos a~nos, con el objeto de estudiar la in uencia de las campa~nas publicitarias en sus cifras de ventas:

Gastos publicidad (miles de euros) 4.2 8.4 12 8.4 15 16.8 17.4 18.6 21
Ventas (miles de euros) 480 660 1080 900 1200 1330 1380 1435 1490

Notemos que, en este ejemplo, todos los pares presentan frecuencia absoluta igual a la unidad.

1600

1400

1200
Ventas (miles de euros)

1000

800

600

400
0 10 20 30

Gasto en publicidad (miles de euros)

Figura 9: Diagrama de dispersion

Estos diagramas nos resultaran muy utiles para indicarnos si existe relacion o dependencia entre las
dos variables y medir el sentido y la intensidad de dicha relacion.
Para la organizacion de los datos en el estudio de una variable estadstica bidimensional utilizamos las
tablas de doble entrada. En ellas, cada la corresponde a un valor de una de las variables, supongamos
que es X y cada columna a un valor de Y . As, el elemento ij de la tabla indica el numero de veces
que se repite el par (xi ; yj ) en las observaciones, es decir, su frecuencia absoluta. Si las variables X e
Y presentan k y l valores distintos respectivamente, la tabla estara compuesta por kl entradas, aunque
pueden ser nulas algunas de ellas, lo que indicara que su correspondiente par no aparece entre los datos
de la variable bidimensional.

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 12

En el caso de que alguna variable sea agrupada en intervalos, apareceran las distintas clases o intervalos
en los que se haya agrupado y las frecuencias fij corresponden al numero de observaciones que hay en
cada intervalo.
A modo de ejemplo mostramos los datos de la edad y la altura observados en un conjunto de 35
personas y la tabla de doble entrada correspondiente.

Datos

X: Edad Y: Altura (en cm.) N. de personas


17 (1:65; 1:75] 3
17 (1:75; 1:80] 5
17 (1:80; 1:85] 1
18 (1:65; 1:75] 4
18 (1:75; 1:80] 10
18 (1:80; 1:85] 2
19 (1:65; 1:75] 4
19 (1:75; 1:80] 2
25 (1:75; 1:80] 1
25 (1:80; 1:85] 3

Tabla de doble entrada

Y
..
X
. (1:65; 1:75] (1:75; 1:80] (1:80; 1:85] fi
17 3 5 1 9
18 4 10 2 16
19 4 2 0 6
25 0 1 3 4
fj 11 18 6 35

De cada variable estadstica bidimensional podemos obtener dos variables unidimensionales X e Y ,


considerando las frecuencias de los valores de una variable independientemente de los valores de la otra. Se
les denomina distribuciones marginales. Para calcular la frecuencia absoluta de cada valor de la distribu-
cion marginal X se suman todas las frecuencias que aparecen en su la correspondiente y, analogamente
para la distribucion marginal Y considerando las columnas. La ultima columna y la ultima la de la tabla
anterior muestran las frecuencias de las distribuciones marginales \edad"y \altura", respectivamente.
A veces es interesante conocer como varan las frecuencias de una variable para un valor concreto
de la otra. La distribucion condicionada de X jado un valor de Y = yj se obtiene de la tabla de
doble entrada considerando la primera columna (donde se muestran todos los valores de X ) y la columna
correspondiente a dicho valor de Y . Denotaremos por X=Y = yj a dicha distribucion condicionada.
Analogamente, la distribucion de Y condicionada a X = xi , que se denota Y =X = xi , se obtiene de la
tabla de doble entrada tomando la primera la (que contiene los valores de Y ) y la la correspondiente
a X = xi . Para nuestro ejemplo, las distribuciones condicionadas X=Y = (1:80; 1:85] y Y =X = 18 seran
las siguientes:

X=Y = (1:80; 1:85] frecuencia absoluta


Y =X = 18 frecuencia absoluta
17 1
(1:65; 1:75] 4
18 2
(1:75; 1:80] 10
19 0
(1:80; 1:85] 2
25 3

Al estudiar una variable estadstica bidimensional surge, de manera natural, la pregunta acerca de
la posible relacion entre ambas distribuciones marginales. Ya apuntabamos a principio de la leccion la
necesidad de abordar este concepto, conocido como correlacion o dependencia y podramos decir que es
uno de los estudios mas importantes que se pueden realizar entre dos variables.

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 13

Las siguientes de niciones distinguen entre diferentes grados en la posible dependencia. Decimos que
existe una dependencia funcional de Y sobre X cuando a cada valor xi le podemos asignar un unico valor
yj de manera que yj = f (xi ), es decir, cuando el valor de una variable determina exactamente el valor de
la otra. La dependencia funcional sera lineal cuando todos los pares de puntos se encuentren sobre una
recta; sera curvilnea cuando se encuentren sobre la curva de nida por la funcion y = f (x).
Como ya hemos comentado, los diagramas de dispersion nos resultan utiles para darnos una idea
gra ca de la posible dependencia. La Figura 10 muestra dos diagramas de dispersion correspondientes a
variables con dependencia funcional lineal.

10 12

9 10
8
8
7
6
6
Y

Y
4
5
2
4

3 0

2 -2
,5 1,0 1,5 2,0 2,5 3,0 3,5 ,5 1,0 1,5 2,0 2,5 3,0 3,5

X X

Figura 10: Dependencia funcional lineal

Como ejemplo de la dependencia funcional curvilnea, mostramos en la Figura 11 un diagrama de


dispersion para dos variables con dependencia funcional parabolica.

14

12

10

8
Y

2
,5 1,0 1,5 2,0 2,5 3,0 3,5

Figura 11: Dependencia funcional parabolica

Las variables X e Y son independientes o incorreladas si el valor de una variable no in uye en el valor
de la otra. En el diagrama de dispersion los puntos estan esparcidos al azar, sin formar ninguna lnea
(ver Figura 12).
Los dos anteriores, dependencia funcional e incorrelacion, son los casos extremos, de niendo como
opcion intermedia y mas habitual la dependencia o correlacion aleatoria cuando el diagrama de puntos
se condensa entorno a la representacion de una funcion. Sera mas o menos fuerte en relacion con la
tendencia de los valores de la distribucion a satisfacer dicha funcion. Ademas, diremos que la correlacion
es positiva o directa si, a medida que crecen los valores de una de las variables, crecen tambien los de la
otra; sera correlacion negativa o inversa en caso contrario. La Figura 13 muestra algunos casos.
Por tanto, mediante los diagramas de dispersion podemos tener una idea gra ca de la posible cor-
relacion entre dos variables. Si embargo si dicha dependencia existe pero es debil es difcil determinar
gra camente este hecho, por lo que necesitamos un metodo analtico que cuanti que de manera able
la relacion entre ambas variables. Este cuanti cador sera el coe ciente de correlacion. Por otro lado,

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 14

14

12

10

Y
6

0
0 2 4 6 8 10 12 14

Figura 12: Variables independientes o incorreladas

11 16

10 14
9
12
8
10
7
Y

Y
8
6
6
5

4 4

3 2
3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 12 14

X X

Figura 13: Correlacion aleatoria lineal: positiva y fuerte (izquierda) y negativa y debil (derecha)

una vez conocido el grado de dependencia de una variable con respecto a la otra, se hace necesario
obtener la funcion a cuya representacion gra ca se asemeja el diagrama de dispersion y que servira como
aproximacion de una variable con respecto a la otra.
El problema de la regresion o ajuste consiste en ajustar una funcion de ecuacion conocida a la nube
de puntos obtenida de los pares de datos de la variable bidimensional. A la representacion gra ca de
esta funcion se le llama lnea de regresion. Puesto que el diagrama de dispersion se condensa entorno
a dicha lnea, en mayor o menor grado, la funcion calculada nos sirve para obtener una aproximacion
o \prediccion"de los valores de una variable a partir de los de la otra. Pasamos entonces a exponer los
conceptos necesarios para cumplir este objetivo.
Se llama covarianza de una variable estadstica bidimensional (X; Y ) y se denota xy al valor dado
por
XX k l

(xi x)(yj y )fij


i=1 j =1
xy = ;
n
siendo x e y las medias de las distribuciones marginales X e Y , respectivamente. Realizando operaciones
en esta expresion obtenemos que
XX k l

xi yj fij
i=1 j =1
xy = xy
n
El valor de la covarianza expresa si la correlacion es directa o inversa, pero no indica el grado. As, si
xy es positiva, la relacion entre las variables es directa, si es negativa, la relacion es inversa y si es nula
entonces las variables son incorreladas.

Dpto. Matematica Aplicada I


Analisis y Organizacion de Datos: Estadstica Descriptiva Curso 2004/05 15

Existen distintos problemas de regresion dependiendo del tipo de funcion que busquemos como aprox-
imacion: lineal, parabolica, exponencial, etc. Por ser la mas simple y la mas utilizada, estudiaremos el
problema de la regresion lineal.
Se de ne el coe ciente de correlacion lineal y se denota  como
xy
= ;
x y
donde x y y son las desviaciones tpicas de las variables X e Y , respectivamente.

 Este coe ciente determina el grado de intensidad de la relacion lineal, es decir, el grado de aproxi-
macion o ajuste entre la nube de puntos y una recta de regresion.
 No depende de las unidades de medida.
 Presenta el mismo signo que la covarianza.
 Su valor esta siempre comprendido entre -1 y 1.

Se tiene que:

1. Si  = 1 o 1 entonces existe correlacion funcional lineal directa o inversa, respectivamente (Figu-


ra 10). Todos los puntos del diagrama de dispersion estan situados sobre una recta.
2. Si  = 0, las variables son incorreladas.
3. Si  2 (0; 1) entonces la correlacion lineal es aleatoria y positiva. Esta dependencia sera mas fuerte
a medida que  se aproxime a 1 y mas debil a medida que se aproxime a 0 (Figura 13-izquierda).
4. Si  2 ( 1; 0) entonces la correlacion lineal es aleatoria y negativa. Sera mas fuerte a medida que
 se aproxime a -1 y mas debil si se aproxima a 0 (Figura 13-derecha).

Concluimos con el estudio de la recta de regresion lineal, la cual se de ne como aquella que hace
mnima la suma de los cuadrados de las distancias de los puntos observados a los puntos estimados.

1. Recta de regresion de Y sobre X


xy
rY =X Y y=
x 2
(X x)

Esta recta de regresion se utiliza para predecir el valor de Y una vez conocido el correspondiente
valor de X .
2. Recta de regresion de X sobre Y
xy
rX=Y X x=
y 2
(Y y)

Esta recta de regresion se utiliza para predecir el valor de X una vez conocido el correspondiente
valor de Y .

El punto de corte de ambas rectas es (x; y ) excepto en el caso de que  = 1 o 1 que entonces ambas
rectas coinciden.
El calculo de las rectas y las predicciones de las variables solo tienen sentido en el caso de que
la correlacion sea fuerte y se estimen valores cercanos a los datos observados. Por tanto, cuando el
coe ciente de correlacion lineal es cercano a 0, no es able realizar estimaciones.

Dpto. Matematica Aplicada I

You might also like