Professional Documents
Culture Documents
Básica
con
R y R–Commander
(Versión Febrero 2008)
Autores:
A. J. Arriaza Gómez
F. Fernández Palacı́n
M. A. López Sánchez
M. Muñoz Márquez
S. Pérez Plaza
A. Sánchez Navas
c
Copyright
2008 Universidad de Cádiz. Se concede permiso para copiar, distribuir y/o
modificar este documento bajo los términos de la Licencia de Documentación Libre de
GNU, Versión 1.2 o cualquier otra versión posterior publicada por la Free Software Foun-
dation. Una traducción de la licencia está incluida en la sección titulada “Licencia de
Documentación Libre de GNU”.
c
Copyright
2008 Universidad de Cádiz. Permission is granted to copy, distribute and/or
modify this document under the terms of the GNU Free Documentation License, Ver-
sion 1.2 or any later version published by the Free Software Foundation. A copy of the
license is included in the section entitled “GNU Free Documentation License”.
http://www.uca.es/publicaciones
ISBN:
Depósito legal:
Estadı́stica Básica con R y R-commander
(Versión Febrero 2008)
Autores: A. J. Arriaza Gómez, F. Fernández Palacı́n,
M. A. López Sánchez, M. Muñoz Márquez, S. Pérez Plaza,
A. Sánchez Navas
c
2008 Servicio de Publicaciones de la Universidad de Cádiz
http://knuth.uca.es/ebrcmdr
Capı́tulo 2
1. La organización de la información
Fı́sicamente, la es-
tructura de una matriz de
datos se corresponde con
el esquema de una base
de datos o una hoja de
cálculo. Al igual que pasa
con los editores de los pro-
gramas de tratamiento de
datos, las dos dimensiones
de una pantalla se acomo-
dan perfectamente al tan-
den individuo–variable. Si
se consideran los indivi-
duos identificados por los términos I1 , I2 , . . . , In y los caracteres por
C1 , C2 , . . . , Ck , la casilla xij representa el comportamiento del individuo
Ii respecto al carácter Cj . En la figura se muestra la matriz de datos del
fichero Iris del paquete datasets de R.
individuo por uno que sea congruente con el resto de caracteres del mis-
mo, mediante técnicas que se conocen como de imputación. Los huecos
que definitivamente queden en la matriz se referirán como valores omi-
tidos o, más comunmente, como valores missing. En R estos valores se
representan con NA (Not Available). En función del tipo de análisis que
se esté realizando, el procedimiento desestimará sólo el dato o todo el
registro completo.
Ejemplo 2.1
El caso más evidente para apreciar las diferencias entre las escalas de
intervalo y las razones o escalas de cociente, lo ofrece el termómetro.
Un termómetro genera una variable de escala de intervalo, porque la
2.2 Naturaleza de los caracteres: Atributos y Variables 9
Ejemplo 2.2
Es habitual que la edad, que es intrı́nsecamente una variable –medida
en un soporte temporal– se emplee para dividir la población en clases
dando cortes en el intervalo de tiempo, obteniéndose por ejemplo grupos
de alevines, adultos y maduros de una comunidad de peces y adoptando
por tanto la variable un rol de atributo.
En el extremo opuesto, hay investigaciones médicas que relacionan
el tipo de patologı́a con el sexo del paciente y con el desenlace de la
enfermedad, caracteres todos ellos intrı́nsecamente atributos.
Ejemplo 2.3
El número de lunares en la piel de pacientes aquejados de una cierta
patologı́a, el número de hijos de las familias de una comunidad o el
número de meteoritos que surcan una cierta región estelar en periodos de
tiempo determinados son variables discretas. La distancia por carretera
entre las capitales de provincia peninsulares españolas, el tiempo de
reacción de los corredores de una carrera de 100 metros o las longitudes
de los cabellos de una persona son variables continuas.
3. Análisis de atributos
setosa
versicolor
virginica
Ejemplo 2.4
Se consideran ahora los datos del ejemplo iris del paquete datasets
de R que se describe en el apéndice A. Se carga el fichero en
Rcmdr mediante la selección de las opciones del menú Datos→
Datos en paquetes→Leer datos desde paquete adjunto..., en el
cuadro de diálogo se elige el paquete datasets y dentro de éste el juego
de datos iris,figura 2.2. Del conjunto de variables de la matriz se con-
sidera la denominada Species, que es un atributo con los tres tipos de
flores de Iris: Setosa, Virginica y Versicolor.
Ejemplo 2.5
Un caso de variable ordenada es la correspondiente a un estudio es-
tadı́stico sobre el nivel académico de la población gaditana en el año
2001 (Fuente: Instituto Estadı́stico de Andalucı́a).
Los valores que toma la variable son: Sin estudios, Elementales
(primaria), Medios (secundaria, bachillerato y fp grado medio) y
Superiores (fp superior, diplomatura, licenciatura y doctorado).
14 Capı́tulo 2. Análisis Exploratorio de Datos Unidimensional
nivel
Ejemplo 2.6
Se estudiará ahora el tratamiento de una variable continua. Para ello
se considera la base de datos chickwts, del paquete datasets de R. En
ella se recogen los pesos finales, en gramos, de 71 polluelos, según el tipo
de dieta seguida durante un periodo de 6 semanas.
> skewness(chickwts$weight)
-0.01136593
attr(,‘‘method’’)
‘‘moment’’
10
Gráficas→Histograma... En el
histograma se observa un compor-
tamiento bastante simétrico y la
5
A continuación, se construye
100 150 200 250 300 350 400 450
el diagrama de caja (figura 2.5). Se chickwts$weight
puede observar en el gráfico que la
variable no posee valores atı́picos, es simétrica y está relativamente dis-
persa.
El data.frame que se está utilizando incluye un factor, Feed, que
se corresponde con las diferentes dietas sumimistradas a los pollos. Ello
permite la realización de un análisis por grupo, tanto numérico como
gráfico, que permita evaluar las diferencias de peso en función del ti-
po de alimentación seguida. Los valores que toma la variable Feed son:
2.5 Análisis de variables de escala 19
400
400
350
350
300
300
weight
weight
250
250
200
200
150
150
100
feed
mean sd n
casein 323.5833 64.43384 12
horsebeen 160.2000 38.62584 10
lindseed 218.7500 52.23570 12
meatmeal 276.9091 64.90062 11
soybean 246.4286 54.12907 14
sunflower 328.9167 48.83638 12
20 Capı́tulo 2. Análisis Exploratorio de Datos Unidimensional
6. Ejercicios
Obtenga:
a) La distribución de frecuencias agrupando por intervalos.
b) La mediana de la distribución.
c) La media de la distribución, indicando su nivel de repre-
sentatividad.
d) Utilizando la agrupación en intervalos, el porcentaje de
alumnos que tienen un peso menor de 65 kg y el número de alumnos con
un peso mayor de 60 kg dentro del grupo de los que pesan menos de 80
kg.
No de aciertos 11 12 13 14 15
No de personas (miles) 52 820 572 215 41
2.6 Ejercicios 21
Calcule:
a) La mediana, la moda y los cuartiles de la distribución.
b) La simetrı́a de la distribución.
Se pide:
a) El peso medio de los barcos que entran en el puerto
diariamente, indicando la representatividad de dicha medida.
b) El intervalo donde se encuentra el 60 % central de la
distribución.
c) El grado de apuntamiento.
d) El tonelaje más frecuente en este puerto.
22