Professional Documents
Culture Documents
ANALISIS
Y ORGANIZACION DE DATOS
El Calculo de Probabilidades constituye el nexo de union entre las tecnicas utilizadas en la Estadstica
Descriptiva e Inferencial y podemos decir que en un problema de probabilidad se conocen las propiedades
de la poblacion y se formulan y responden preguntas en relacion a una muestra concreta tomada de la
poblacion.
Estas paginas tienen como objetivo exponer de manera breve y concisa las nociones, parametros y
resultados basicos de la Estadstica Descriptiva.
ESTADISTICA DESCRIPTIVA
El gran numero de datos y el desorden con el que estos se obtienen hacen necesaria su organizacion
y presentacion en tablas y gracos, as como el calculo de diferentes parametros que permitan resumir la
informacion que nos facilita el conjunto de datos. Esta es la mision de la Estadstica Descriptiva. Tener
en cuenta que esta disciplina saca conclusiones sobre los datos recogidos, pero no extrapola a la poblacion
completa.
n y representacio
Bloque 1: Organizacio n de datos
Leccion 1: Introduccion
Dedicamos esta primera leccion a establecer la terminologa basica de la disciplina que nos ocupa.
El objeto de toda investigacion estadstica es estudiar un fenomeno de la realidad o una determinada
caracterstica de un colectivo. As, se llama poblacion o universo a cualquier conjunto de individuos
(no necesariamente personas) u objetos sobre el que van a recaer las observaciones. A cada uno de sus
elementos se le llama individuo o unidad estadstica. La poblacion debe estar determinada con claridad
a la hora de iniciar el estudio. Se llama tama~no de la poblacion al numero de elementos de esta, el cual
puede ser nito o innito.
Cuando para realizar este estudio se recoge informacion de todos los individuos de la poblacion se dice
que se realiza un censo, pero ello no es habitualmente factible, ya sea por; razones de coste economico,
temporal o porque los individuos se destruyan en el propio proceso de investigacion. En cualquiera de
estos casos el estudio se limita a un subconjunto de la poblacion que se denomina muestra. Al numero de
elementos de la misma se le llama tama~no de la muestra. El muestreo o eleccion de muestras adquiere una
especial importancia en la Estadstica Inferencial, al utilizar dichas muestras para obtener conclusiones
sobre la poblacion completa.
La caracterstica, aspecto, fenomeno, rasgo o cualidad que presenta cada individuo de la poblacion y la
cual es objeto de estudio en las observaciones se llama caracter. A las distintas posibilidades del caracter
se le llama modalidad si no se expresan numericamente y valor en caso contrario. Estas posibilidades
tienen que ser incompatibles dos a dos, ya que cada individuo debe pertenecer a una sola.
Podemos distinguir dos tipos de caracteres:
Caracteres cualitativos si las distintas modalidades de los individuos no son medibles numerica-
mente, como por ejemplo, el sexo, el color de ojos, el estado civil, la profesion, el grupo sanguneo
...
Caracteres cuantitativos si los valores de las caractersticas de los individuos son medibles nume-
ricamente, como por ejemplo, el peso, la estatura, la edad, el numero de hijos . . . A los caracteres
cuantitativos se les conoce como variables estadsticas y se representan por las letras mayusculas
X; Y; Z : : : y a los valores que pueden adoptar por x; y; z : : :
Variables discretas cuando los posibles valores distintos que puede tomar la variable son aislados, es
decir, entre dos valores proximos puede tomar a lo sumo un numero nito de valores. Por ejemplo,
el numero de hijos de una familia puede ser 0, 1, 2, . . . pero esta variable no puede tomar ningun
valor en el intervalo (1; 2) (nadie tiene 1,35 hijos), luego el numero de hijos es una variable discreta.
Variables continuas cuando los posibles valores distintos que puede tomar la variable son todos los
valores de un intervalo y por tanto innitos valores. Por ejemplo, el peso de una persona puede
tomar cualquier valor del intervalo (70; 80) (una persona puede pesar 73,287 Kg), luego el peso es
una variable continua, as como la altura, la temperatura, . . .
La distincion que acabamos de hacer es mas bien teorica que practica, ya que la limitacion de los aparatos
de medida hace que practicamente todas las variables se comporten como variables discretas cuando se
las observa. Por otra parte, una magnitud que puede tomar un gran numero de valores y muy proximos,
aunque sean valores aislados, sera considerada como variable continua y agrupada en clases. As ocurre
con magnitudes monetarias como el salario mensual de un trabajador, el benecio anual de una empresa
y otras.
40
10
9
35
N. de empresas
8 30
N. de personas
6 25
6 5 20
4 15
2 10
2
5
0 0
A B AB O 70 80 90 100 110
Grupo sanguíneo Inversión en publicidad
(miles de euros)
Histogramas: Es un gr aco que se utiliza para las variables agrupadas en intervalos de clase. Se
realizan sobre ejes cartesianos representando sobre el eje de abscisas los intervalos de clase y levantando
rectangulos que tienen como base la longitud de los distintos intervalos y una altura tal que el area del
rectangulo sea proporcional a la frecuencia correspondiente al intervalo. Podemos consultar un ejemplo en
la Figura 2. Cuando los intervalos son de la misma longitud, la altura suele corresponder a la frecuencia.
30
N. de obreros
25
25
10
5
5
100 110 120 130 140 160 180
N. de piezas fabricadas
Figura 2: Histograma
Pol
gonos de frecuencias : Son gracos lineales que se obtienen uniendo los puntos medios de las
bases superiores de los rectangulos del diagrama de barras o del histograma, segun sea el caracter. La
Figura 3 muestra los polgonos de frecuencias correspondientes a los ejemplos de las Figuras 1 y 2.
Diagramas de sectores: Son gr acos en los que a cada valor o modalidad se le asigna un sector
circular de area proporcional a la frecuencia que representan. Se utilizan si el caracter es cualitativo o
cuantitativo discreto, siendo muy comunes en el primer caso. De nuevo, en la Figura 4 mostramos el
diagrama de sectores para el ejemplo del grupo sanguneo.
Pictogramas: Se utilizan con frecuencia para representar la distribuci on de un caracter cualitativo.
Son gracos con dibujos alusivos al caracter que se esta estudiando, en los que cada modalidad es repre-
sentada por dicho dibujo de tama~no proporcional a la frecuencia de la misma, la cual se suele mostrar
tambien en el graco. La Figura 5 ilustra un ejemplo.
mides de poblacio
Pira n: Se utilizan para estudiar conjuntamente la variable edad y el atributo
sexo, cambiando el eje de ordenadas por el de abscisas. En realidad son dos diagramas de barras o
histogramas, uno para los hombres y otro para las mujeres (ver Figura 6).
40
10
9
35
N. de empresas
8 30
N. de personas
6 25
6 5
20
4 15
2
10
2
5
0 0
A B AB O 70 80 90 100 110
Grupo sanguíneo Inversión en publicidad
(miles de euros)
30
25 N. de obreros
25
10
5
5
N. de piezas fabricadas
O
A
B
AB
Figura 5: Pictogramas
Edad
> 80
70-80
60-70
50-60
40-50
30-40
20-30
10-20
< 10
100 80 60 40 20 0 0 20 40 60 80 100
Hombres Mujeres
xi fi
i=1
x=
n
Es la medida de centralizacion mas utilizada por su facil calculo y por tener en cuenta todos los
datos.
La media es el \centro de gravedad"de la distribucion y es unica para cada distribucion.
Cuando aparecen valores extremos y poco signicativos la media puede no ser representativa.
No es posible calcularla si el caracter es cualitativo o cuando existen datos agrupados con algun
intervalo no acotado.
Moda: En el caso de una variable estad stica discreta es el valor con mayor frecuencia absoluta; se
denota Mo . Si se trata de una variable agrupada en intervalos de clase, denimos el intervalo modal como
aquel que presenta mayor frecuencia absoluta.
Puede que exista mas de una moda en cuyo caso se dice que la distribucion es bimodal, trimodal. . . .
Es posible calcular la moda para caracteres cualitativos.
En su calculo no intervienen todos los valores o modalidades por lo que es una medida menos
representativa que la media.
Mediana: Es la medida que, una vez ordenados los valores de la variable en orden creciente y repetidos
tantas veces como indica su frecuencia, deja a su izquierda y derecha el mismo numero de observaciones.
Se le denota Me .
Si se trata de una variable discreta que presenta un numero impar de observaciones, la mediana
es el valor que ocupa el lugar central. Si el numero de observaciones es par, existen dos valores
centrales siendo la mediana la media aritmetica de ambos.
En el caso de una variable agrupada en intervalos, se interseca el polgono de frecuencias acumu-
ladas con una recta horizontal por el valor n=2. El punto obtenido sobre el polgono se proyecta
ortogonalmente sobre el eje OX , obteniendose un valor que sera la mediana.
En general, la mediana es util si la media no se puede calcular o no es representativa.
En su calculo no se utilizan todos los datos y depende del orden de estos no de su valor.
MEDIDAS DE POSICION
Para denir los siguientes parametros, consideramos que las observaciones estan ordenadas de menor
a mayor valor.
Cuartiles: Son tres valores de la variable que dividen al conjunto de datos en cuatro grupos iguales,
es decir, en cada uno de ellos se encuentra la cuarta parte de la poblacion. Se denotan Q1 ; Q2 y Q3 .
El cuartil primero Q1 deja a su izquierda la cuarta parte de los datos y a su derecha las tres cuartas
partes.
El cuartil segundo Q2 coincide con la mediana.
El cuartil tercero Q3 deja a su izquierda las tres cuartas partes de los datos y a su derecha la cuarta
parte.
Deciles: Son nueve valores de la variable que dividen a la misma en diez partes iguales de modo
que entre dos deciles consecutivos hay un 10% de los individuos de la poblacion. Se representan por
D1 ; D2 ; : : : ; D9 .
Centiles o Percentiles: Son 99 valores de la variable que dividen a la serie de datos en 100 partes
iguales. Se representan por Ck o Pk , donde k indica el porcentaje de datos que quedan a su izquierda.
MEDIDAS DE DISPERSION
Rango o recorrido: Es la diferencia entre el mayor y el menor valor que adopta la variable. Si la
variable es agrupada, se calcula la diferencia entre el lmite superior del ultimo intervalo y el inferior del
primero.
Su calculo es muy sencillo pero no tiene en cuenta todos los valores de la variable, solo depende de
los valores extremos.
A menor rango, menor dispersion y mayor representatividad de las medidas centrales.
Rango intercuart lico: Es la diferencia entre el tercer y el primer cuartil. Nos indica la amplitud
del intervalo en el que se encuentra el 50% de la poblacion.
Desviacio n media: Es la media de las desviaciones de los valores de la variable respecto a la media
xi x j fi
i=1
DM =
n
(xi x )2 f i
i=1
2 =
n
Realizando operaciones en esta expresion obtenemos que
Xk
xi 2 fi
i=1
2 = x2
n
Es una medida de dispersion que depende de todos los datos y cuyas unidades no son las mismas
que las de la poblacion, sino su cuadrado.
Al tomar los cuadrados de las desviaciones tiene la ventaja de que las desviaciones grandes afectan
mas al resultado luego, si la dispersion es grande, la varianza expresara mejor que la desviacion
media este hecho.
La varianza siempre es positiva siendo nula cuando todos los valores coinciden con la media.
n t
Desviacio pica
vuu X
: Es la raz cuadrada positiva de la varianza y se denota por .
uut
k
xi 2 fi
i=1
= x2
n
En la comparacion entre distintas distribuciones, tanto la varianza como la desviacion tpica pre-
sentan el inconveniente de su dependencia de las unidades de las variables. Es por ello por lo que
se dene el coeciente de variacion, el cual es independiente de las unidades de medida.
Si la media es muy proxima a cero, el CV no debe utilizarse ya que el denominador es muy peque~no
y puede dar un grado erroneo de dispersion, dependiendo del valor de la desviacion tpica.
Cuanto menor es el coeciente de variacion, menor dispersion tiene la distribucion y, por tanto, la
media sera mas representativa.
En general, si CV 1 podemos armar que se trata de una distribucion homogenea. Sin embargo,
si CV > 10 5 debemos buscar posibles factores de heterogeneidad en los datos como la utilizacion
de diferentes instrumentos de medida o distintos momentos temporales.
MEDIDAS DE FORMA
Coeficiente de asimetr
a o sesgo : Se dene el coeciente de asimetra como
X
k
(xi x)3 fi
1
g3 = (
3
i=1
n
)
Este parametro de forma nos indica el grado de simetra de una variable en relacion a su distribucion
de frecuencias.
No depende de las unidades de medida de las variables.
A continuacion presentamos los diferentes casos que se pueden presentar en cuanto a la simetra de
una distribucion. Una distribucion de frecuencias es simetrica si lo es respecto a la mediana, es decir, si la
recta x = Me es eje de simetra de su polgono de frecuencias; en este caso, si la distribucion es unimodal,
las tres medidas de tendencia central, media, mediana y moda, coinciden. Una distribucion es sesgada
a la derecha o presenta asimetra positiva si las frecuencias mas altas se encuentran en el lado izquierdo
de la mediana, mientras que en el derecho hay frecuencias mas peque~nas, esto es, la graca presenta
cola a la derecha (las frecuencias descienden mas lentamente por la derecha que por la izquierda). La
misma denicion la obtenemos para una distribucion sesgada a la izquierda o asimetrica negativamente
si cambiamos derecha por izquierda y viceversa. La Figura 7 muestra los tres casos.
Se tiene que:
cola cola
Me Me Me
Distribución simétrica Distribución sesgada Distribución sesgada
a la derecha a la izquierda
(x i x )4 f i
1
g4 = (
4
i=1
n
) 3
Este parametro indica el grado de elevacion del diagrama de barras de las frecuencias relativas de
la distribucion. Este grado de elevacion se traduce en el reparto de la frecuencia entre el centro y
los extremos de la graca.
No depende de las unidades de medida de las variables.
Como medida de referencia de la elevacion \normal"se toma la distribucion normal o campana de
Gauss, mostrada en la Figura 8.
x- x x+
Se tiene que:
dos caracteres de los individuos de una poblacion o las multidimensionales, recogiendo m caractersticas
distintas.
Esta leccion la dedicamos a las variables estadsticas bidimensionales pudiendo extrapolar gran parte
de las conclusiones y metodos utilizados a las multidimensionales. En particular estudiaremos la relacion
de tipo estadstico que puede existir entre dos variables, concepto conocido como correlacion.
Comenzamos la leccion exponiendo la manera de organizar y representar gracamente los valores de
una variable estadstica bidimensional.
Sea (X; Y ) una variable estadstica bidimensional donde las variables unidimensionales X e Y adoptan
los valores x1 ; x2 ; : : : ; xk e y1 ; y2 ; : : : ; yl , respectivamente. As, los datos para la variable bidimensional
son pares de valores de la forma (xi ; yj ). Se llama frecuencia absoluta del par (xi ; yj ) al numero de veces
que se repite dicho par en los datos y se denota fij . Si n es el numero total de observaciones, se llama
frecuencia relativa del par (xi ; yj ) y se denota hi;j a hi;j = fnij .
Los diagramas de dispersion o nube de puntos son las representaciones mas utilizadas para mostrar
gracamente los datos de una variable estadstica bidimensional. Consisten en un sistema de ejes co-
ordenados representando en el eje de abscisas los valores o modalidades de X y en el de ordenadas los
de Y y de forma que cada punto del plano corresponde a un valor (xi ; yj ) de la variable bidimensional.
Los puntos del diagrama de dispersion pueden tener un grosor proporcional a la frecuencia absoluta del
par que representan, o bien ser todos del mismo tama~no con lo que se obviaran dichas frecuencias. La
Figura 9 muestra el diagrama de dispersion correspondiente a los datos recogidos por una empresa en los
ultimos a~nos, con el objeto de estudiar la in
uencia de las campa~nas publicitarias en sus cifras de ventas:
Gastos publicidad (miles de euros) 4.2 8.4 12 8.4 15 16.8 17.4 18.6 21
Ventas (miles de euros) 480 660 1080 900 1200 1330 1380 1435 1490
Notemos que, en este ejemplo, todos los pares presentan frecuencia absoluta igual a la unidad.
1600
1400
1200
Ventas (miles de euros)
1000
800
600
400
0 10 20 30
Estos diagramas nos resultaran muy utiles para indicarnos si existe relacion o dependencia entre las
dos variables y medir el sentido y la intensidad de dicha relacion.
Para la organizacion de los datos en el estudio de una variable estadstica bidimensional utilizamos las
tablas de doble entrada. En ellas, cada la corresponde a un valor de una de las variables, supongamos
que es X y cada columna a un valor de Y . As, el elemento ij de la tabla indica el numero de veces
que se repite el par (xi ; yj ) en las observaciones, es decir, su frecuencia absoluta. Si las variables X e
Y presentan k y l valores distintos respectivamente, la tabla estara compuesta por kl entradas, aunque
pueden ser nulas algunas de ellas, lo que indicara que su correspondiente par no aparece entre los datos
de la variable bidimensional.
En el caso de que alguna variable sea agrupada en intervalos, apareceran las distintas clases o intervalos
en los que se haya agrupado y las frecuencias fij corresponden al numero de observaciones que hay en
cada intervalo.
A modo de ejemplo mostramos los datos de la edad y la altura observados en un conjunto de 35
personas y la tabla de doble entrada correspondiente.
Datos
Y
..
X
. (1:65; 1:75] (1:75; 1:80] (1:80; 1:85] fi
17 3 5 1 9
18 4 10 2 16
19 4 2 0 6
25 0 1 3 4
fj 11 18 6 35
Al estudiar una variable estadstica bidimensional surge, de manera natural, la pregunta acerca de
la posible relacion entre ambas distribuciones marginales. Ya apuntabamos a principio de la leccion la
necesidad de abordar este concepto, conocido como correlacion o dependencia y podramos decir que es
uno de los estudios mas importantes que se pueden realizar entre dos variables.
Las siguientes deniciones distinguen entre diferentes grados en la posible dependencia. Decimos que
existe una dependencia funcional de Y sobre X cuando a cada valor xi le podemos asignar un unico valor
yj de manera que yj = f (xi ), es decir, cuando el valor de una variable determina exactamente el valor de
la otra. La dependencia funcional sera lineal cuando todos los pares de puntos se encuentren sobre una
recta; sera curvilnea cuando se encuentren sobre la curva denida por la funcion y = f (x).
Como ya hemos comentado, los diagramas de dispersion nos resultan utiles para darnos una idea
graca de la posible dependencia. La Figura 10 muestra dos diagramas de dispersion correspondientes a
variables con dependencia funcional lineal.
10 12
9 10
8
8
7
6
6
Y
Y
4
5
2
4
3 0
2 -2
,5 1,0 1,5 2,0 2,5 3,0 3,5 ,5 1,0 1,5 2,0 2,5 3,0 3,5
X X
14
12
10
8
Y
2
,5 1,0 1,5 2,0 2,5 3,0 3,5
Las variables X e Y son independientes o incorreladas si el valor de una variable no in
uye en el valor
de la otra. En el diagrama de dispersion los puntos estan esparcidos al azar, sin formar ninguna lnea
(ver Figura 12).
Los dos anteriores, dependencia funcional e incorrelacion, son los casos extremos, deniendo como
opcion intermedia y mas habitual la dependencia o correlacion aleatoria cuando el diagrama de puntos
se condensa entorno a la representacion de una funcion. Sera mas o menos fuerte en relacion con la
tendencia de los valores de la distribucion a satisfacer dicha funcion. Ademas, diremos que la correlacion
es positiva o directa si, a medida que crecen los valores de una de las variables, crecen tambien los de la
otra; sera correlacion negativa o inversa en caso contrario. La Figura 13 muestra algunos casos.
Por tanto, mediante los diagramas de dispersion podemos tener una idea graca de la posible cor-
relacion entre dos variables. Si embargo si dicha dependencia existe pero es debil es difcil determinar
gracamente este hecho, por lo que necesitamos un metodo analtico que cuantique de manera able
la relacion entre ambas variables. Este cuanticador sera el coeciente de correlacion. Por otro lado,
14
12
10
Y
6
0
0 2 4 6 8 10 12 14
11 16
10 14
9
12
8
10
7
Y
Y
8
6
6
5
4 4
3 2
3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 12 14
X X
Figura 13: Correlacion aleatoria lineal: positiva y fuerte (izquierda) y negativa y debil (derecha)
una vez conocido el grado de dependencia de una variable con respecto a la otra, se hace necesario
obtener la funcion a cuya representacion graca se asemeja el diagrama de dispersion y que servira como
aproximacion de una variable con respecto a la otra.
El problema de la regresion o ajuste consiste en ajustar una funcion de ecuacion conocida a la nube
de puntos obtenida de los pares de datos de la variable bidimensional. A la representacion graca de
esta funcion se le llama lnea de regresion. Puesto que el diagrama de dispersion se condensa entorno
a dicha lnea, en mayor o menor grado, la funcion calculada nos sirve para obtener una aproximacion
o \prediccion"de los valores de una variable a partir de los de la otra. Pasamos entonces a exponer los
conceptos necesarios para cumplir este objetivo.
Se llama covarianza de una variable estadstica bidimensional (X; Y ) y se denota xy al valor dado
por
XX k l
xi yj fij
i=1 j =1
xy = xy
n
El valor de la covarianza expresa si la correlacion es directa o inversa, pero no indica el grado. As, si
xy es positiva, la relacion entre las variables es directa, si es negativa, la relacion es inversa y si es nula
entonces las variables son incorreladas.
Existen distintos problemas de regresion dependiendo del tipo de funcion que busquemos como aprox-
imacion: lineal, parabolica, exponencial, etc. Por ser la mas simple y la mas utilizada, estudiaremos el
problema de la regresion lineal.
Se dene el coeciente de correlacion lineal y se denota como
xy
= ;
x y
donde x y y son las desviaciones tpicas de las variables X e Y , respectivamente.
Este coeciente determina el grado de intensidad de la relacion lineal, es decir, el grado de aproxi-
macion o ajuste entre la nube de puntos y una recta de regresion.
No depende de las unidades de medida.
Presenta el mismo signo que la covarianza.
Su valor esta siempre comprendido entre -1 y 1.
Se tiene que:
Concluimos con el estudio de la recta de regresion lineal, la cual se dene como aquella que hace
mnima la suma de los cuadrados de las distancias de los puntos observados a los puntos estimados.
Esta recta de regresion se utiliza para predecir el valor de Y una vez conocido el correspondiente
valor de X .
2. Recta de regresion de X sobre Y
xy
rX=Y X x=
y 2
(Y y)
Esta recta de regresion se utiliza para predecir el valor de X una vez conocido el correspondiente
valor de Y .
El punto de corte de ambas rectas es (x; y ) excepto en el caso de que = 1 o 1 que entonces ambas
rectas coinciden.
El calculo de las rectas y las predicciones de las variables solo tienen sentido en el caso de que
la correlacion sea fuerte y se estimen valores cercanos a los datos observados. Por tanto, cuando el
coeciente de correlacion lineal es cercano a 0, no es able realizar estimaciones.