A Basica Con R

Estadı́stica
Básica
con
R y R–Commander
(Versión Febrero 2008)
Autores:
A. J. Arriaza Gómez
F. Fernández Palacı́n
M. A. López Sánchez
M. Muñoz Márquez
S. Pérez Plaza
A. Sánchez Navas
c
Copyright 2008 Universidad de Cádiz. Se concede permiso para copiar, distribuir y/o
modificar este documento bajo los términos de la Licencia de Documentación Libre de
GNU, Versión 1.2 o cualquier otra versión posterior publicada por la Free Software Foun-
dation. Una traducción de la licencia está incluida en la sección titulada “Licencia de
Documentación Libre de GNU”.
c
Copyright 2008 Universidad de Cádiz. Permission is granted to copy, distribute and/or
modify this document under the terms of the GNU Free Documentation License, Ver-
sion 1.2 or any later version published by the Free Software Foundation. A copy of the
license is included in the section entitled “GNU Free Documentation License”.
Edita: Servicio de Publicaciones de la Universidad de Cádiz

C/ Dr. Marañón, 3
11002 Cádiz
http://www.uca.es/publicaciones
ISBN:
Depósito legal:
Estadı́stica Básica con R y R-commander
(Versión Febrero 2008)
Autores: A. J. Arriaza Gómez, F. Fernández Palacı́n,
M. A. López Sánchez, M. Muñoz Márquez, S. Pérez Plaza,
A. Sánchez Navas
c
2008 Servicio de Publicaciones de la Universidad de Cádiz
http://knuth.uca.es/ebrcmdr
Capı́tulo 2
Análisis Exploratorio de Datos Unidimensional
En este módulo, a través de una serie de medidas, gráficos y mode-

los descriptivos, se caracterizará a un conjunto de individuos, intentando
descubrir regularidades y singularidades de los mismos y, si procede,
comparar los resultados con los de otros grupos, patrones o con estudios
previos. Se podrı́a considerar que este estudio es una primera entrega de
un estudio más completo o, por contra, tener un carácter finalista; en
cualquier caso, se trata de un análisis calificable como de exploratorio,
y de ahı́ el nombre del capı́tulo.
Las conclusiones obtenidas serán aplicables exclusivamente a los

individuos considerados explı́citamente en el estudio, sin que puedan
hacerse extrapolaciones con validez cientı́fica fuera de ese contexto. Los
resultados del Análisis Exploratorio de Datos (AED) sı́ que podrı́an
emplearse para establecer hipótesis sobre individuos no considerados
explı́citamente en dicho análisis, que deberı́an ser posteriormente con-
trastadas.
Formalmente, se podrı́a definir el AED como un conjunto de técni-

cas estadı́sticas cuya finalidad es conseguir un entendimiento básico de
los datos y de las relaciones existentes entre las variables analizadas;
aunque esta primera entrega se centrará en un análisis de tipo unidi-
mensional.
6 Capı́tulo 2. Análisis Exploratorio de Datos Unidimensional
1. La organización de la información
Al conjunto de individuos fı́sicos considerados en un análisis se

le denominará Colectivo o Población, aunque también se utilizarán esos
mismos términos para referirse a la(s) caracterı́stica(s) de esos individuos
que son objeto de estudio. De hecho, desde un punto de vista estadı́stico,
los individuos sólo interesan como portadores de rasgos que son suscep-
tibles de marcar diferencias entre ellos. La obtención y materialización
en formato analógico o digital de las caracterı́sticas consideradas cons-
tituirá el conjunto de datos que será estadı́sticamente analizado.
Los datos constituyen pues la materia prima de la Estadı́stica,

pudiéndose establecer distintas clasificaciones en función de la forma
en que éstos vengan dados. Se obtienen datos al realizar cualquier tipo
de prueba, experimento, valoración, medición, observación, . . . , depen-
diendo de la naturaleza de los mismos y del método empleado para su
obtención. Una vez obtenidos los datos por los procedimientos que se
consideren pertinentes, pueden generarse nuevos datos mediante trans-
formación y/o combinación de las variables originales. Al conjunto de
datos convenientemente organizados se le llamará modelo de datos.
1.1. La matriz de datos
En una primera instancia se supondrá que, sobre un conjunto de n

individuos fı́sicos, se obtienen una serie de k caracteres u observaciones
de igual o distinta naturaleza. Es importante tener en cuenta, ya desde
este momento, que la calidad del análisis que se realice, va a depender
de la habilidad que se tenga a la hora de seleccionar los caracteres que
se obtendrán del conjunto de individuos seleccionados.
Los datos obtenidos se organizarán en una matriz n × k, donde

cada fila representa a un individuo o registro y las columnas a las ca-
racterı́sticas observadas. Las columnas tendrán naturaleza homogénea,
pudiendo tratarse de caracteres nominales, dicotómicos o politómicos,
presencias–ausencias, ordenaciones, conteos, escalas de intervalo, razo-
nes,. . . ; también se podrı́an tener variables compuestas como ratios, den-
sidades,. . . En ocasiones se añade una columna que se suele colocar en
2.1 La organización de la información 7
primer lugar y que asigna un nombre a cada individuo; dicha columna

recibe el nombre de variable etiqueta.
Fı́sicamente, la es-
tructura de una matriz de
datos se corresponde con
el esquema de una base
de datos o una hoja de
cálculo. Al igual que pasa
con los editores de los pro-
gramas de tratamiento de
datos, las dos dimensiones
de una pantalla se acomo-
dan perfectamente al tan-
den individuo–variable. Si
se consideran los indivi-
duos identificados por los términos I1 , I2 , . . . , In y los caracteres por
C1 , C2 , . . . , Ck , la casilla xij representa el comportamiento del individuo
Ii respecto al carácter Cj . En la figura se muestra la matriz de datos del
fichero Iris del paquete datasets de R.
R se refiere a este tipo de estructura de datos como data.frame.

Este es el formato que requiere el programa para aplicar la mayorı́a de
los procedimientos estadı́sticos.
1.1.1. Anomalı́as de la matriz de datos
Hay veces en que por distintos motivos la matriz de datos presenta

casillas vacı́as, ello se debe a que no se ha podido medir un dato o a que
se ha perdido la observación. En otras ocasiones un dato presente en
la matriz ha sido depurado por presentar algún tipo de anomalı́a, como
haber sido mal medido, mal transcrito a la matriz de datos, pertenecer a
un colectivo distinto del que se está analizando, etc. . . La identificación
de estos elementos anómalos se realiza mediante un proceso de detección
de inconsistencias o de evaluación de valores extremos, muy grandes o
muy pequeños, que determinará si razonablemente pueden pertenecer
al colectivo bajo estudio. A veces se sustituye el valor depurado de un
individuo por uno que sea congruente con el resto de caracteres del mis-
mo, mediante técnicas que se conocen como de imputación. Los huecos
que definitivamente queden en la matriz se referirán como valores omi-
tidos o, más comunmente, como valores missing. En R estos valores se
representan con NA (Not Available). En función del tipo de análisis que
se esté realizando, el procedimiento desestimará sólo el dato o todo el
registro completo.
En este módulo se analizarán –salvo excepciones que se indicarán

con antelación– de forma independiente cada uno de los caracteres de la
matriz de datos, de forma que cada carácter describirá parcialmente al
conjunto de individuos. La integración de todos los análisis deberá dar
una cierta visión general de la población. En cualquier caso, este enfoque
está muy lejos de ser eficiente, entre otras cosas porque habitualmente
las variables individuales comparten información y dicha redundancia
distorsionarı́a las conclusiones del estudio, siendo en general preferible
decantarse por un análisis global en vez del secuencial. Por tanto, la pre-
tensión de este capı́tulo es tratar algunos conceptos básicos y adquirir
destreza en el manejo de medidas estadı́sticas que serán empleadas ma-
sivamente cuando se aborden, más adelante, modelos más sofisticados.
2. Naturaleza de los caracteres: Atributos y Variables
Respecto a la cantidad de información que porta cada tipo de

carácter, se puede considerar que los caracteres nominales son los más
“pobres”, puesto que ni siquiera poseen orden, mientras que los más
ricos serı́an las escalas de intervalos y las razones, que tienen orden,
son cuantitativas y en el caso de las razones el cero lo es en términos
absolutos, es decir, el 0 representa la ausencia de la caracterı́stica. En
posiciones intermedias se situarı́an el resto en el orden en que se han
introducido en la figura 2.1.
Ejemplo 2.1
El caso más evidente para apreciar las diferencias entre las escalas de
intervalo y las razones o escalas de cociente, lo ofrece el termómetro.
Un termómetro genera una variable de escala de intervalo, porque la
2.2 Naturaleza de los caracteres: Atributos y Variables 9
Figura 2.1: Esquema de cantidad de información
diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados,

pero no se puede decir que cuando el termómetro marca 30 grados hace
el doble de calor que cuando marca 15.
Por otra parte, muchas magnitudes fı́sicas, como el peso, la longi-
tud o la intensidad de corriente, son razones porque, por ejemplo en el
caso del peso, un objeto de 20 kilogramos pesa el doble que otro de 10
kilogramos. Es decir existe el cero absoluto.
Como ya se ha comentado, la naturaleza del carácter condicio-

nará su tratamiento, aunque en ningún caso hay que confundir la canti-
dad de información que porta con su valor intrı́nseco para analizar a los
individuos del colectivo.
En una primera instancia, se distinguirá entre los caracteres que

no están ordenados y los que sı́ lo están, los primeros jugarán en general
un rol de atributos mientras que los segundos habitualmente actuarán
como variables. Los atributos tendrán la misión de establecer clases,
dividiendo el colectivo global en subgrupos o categorı́as; por su parte, las
variables caracterizarán a dichos subgrupos e intentarán establecer dife-
rencias entre unos y otros, para lo que necesariamente se debe considerar
algun tipo de métrica. Pero ello es una regla general que tiene muchas
excepciones y ası́, en ocasiones, un carácter llamado a adoptar el papel
de variable podrı́a, mediante una operación de punto de corte, actuar
como atributo, mientras que es factible definir una medida de asociación
sobre caracteres intrı́nsecamente de clase que permita caracterizar a los
individuos del colectivo en base a una serie de atributos.
Ejemplo 2.2
Es habitual que la edad, que es intrı́nsecamente una variable –medida
en un soporte temporal– se emplee para dividir la población en clases
dando cortes en el intervalo de tiempo, obteniéndose por ejemplo grupos
de alevines, adultos y maduros de una comunidad de peces y adoptando
por tanto la variable un rol de atributo.
En el extremo opuesto, hay investigaciones médicas que relacionan
el tipo de patologı́a con el sexo del paciente y con el desenlace de la
enfermedad, caracteres todos ellos intrı́nsecamente atributos.
Las variables pueden clasificarse según su conjunto soporte. El so-

porte de una variable es el conjunto de todos los posibles valores que
toma. Cuando el conjunto soporte es finito o numerable se habla de
variable discreta. Por el contrario, cuando el conjunto soporte es no nu-
merable, se habla de variable continua. Si la variable continua no toma
valores en puntos aislados se dice absolutamente continua. Esta diferen-
cia tendrá relevancia cuando se planteen, más adelante, estructuras de
probabilidad para modelizar la población bajo estudio.
Ejemplo 2.3
El número de lunares en la piel de pacientes aquejados de una cierta
patologı́a, el número de hijos de las familias de una comunidad o el
número de meteoritos que surcan una cierta región estelar en periodos de
tiempo determinados son variables discretas. La distancia por carretera
entre las capitales de provincia peninsulares españolas, el tiempo de
reacción de los corredores de una carrera de 100 metros o las longitudes
de los cabellos de una persona son variables continuas.
Una vez identificadas, recolectadas y organizadas, las variables

serán tratadas estadı́sticamente combinando un análisis numérico, a
través de una serie de medidas estadı́sticas, con representaciones gráficas.
El software estadı́stico R ofrece una amplia gama de ambos elementos:
numéricos y gráficos, aunque conviene ser selectivos y tomar aquellos
2.3 Análisis de atributos 11
Figura 2.2: Ventana de selección de datos en paquetes adjuntos
que verdaderamente aportan información relevante. A tal efecto, se pro-

ponen las siguientes opciones:
Escala de Medidas Medidas de Representaciones

Medida centrales dispersión gráficas
Moda
Atributo Diagrama de sectores
Porcentajes
Mediana Recorrido
Ordenación Diagrama de barras
Percentiles Intercuartı́lico
Recuento Media Desviación tı́pica Diagramas de barras
Intervalo Media Desviación tı́pica Histograma
Histograma
Media Coeficiente
Razón Diagrama de dispersión
geométrica de variación
Diagrama de cajas
Tabla 2.1: Medidas y gráficos según tipo de variable
En última instancia corresponde al investigador el tomar las de-

cisiones correctas en cada momento, de forma que sin transgredir los
principios básicos, den como resultado un análisis eficiente de los datos.
3. Análisis de atributos
Los atributos son susceptibles de ser tratados de forma indivi-

dual o en grupo, para obtener los porcentajes de cada subgrupo en el
colectivo global. De hecho, cada carácter o conjunto de ellos establece
una partición o catálogo de la población bajo estudio. Por otra parte, el
Species
setosa
versicolor
virginica
Figura 2.3: Diagrama de sectores del fichero iris
tratamiento gráfico más usual que se le darı́a a un atributo individual

serı́a a través de un diagrama de sectores o diagrama de tarta.
Ejemplo 2.4
Se consideran ahora los datos del ejemplo iris del paquete datasets
de R que se describe en el apéndice A. Se carga el fichero en
Rcmdr mediante la selección de las opciones del menú Datos→
Datos en paquetes→Leer datos desde paquete adjunto..., en el
cuadro de diálogo se elige el paquete datasets y dentro de éste el juego
de datos iris,figura 2.2. Del conjunto de variables de la matriz se con-
sidera la denominada Species, que es un atributo con los tres tipos de
flores de Iris: Setosa, Virginica y Versicolor.
Análisis numérico: Se selecciona Estadı́sticos→Resúmenes→

Distribuciones de frecuencias... y en el cuadro de diálogo se elige
el único atributo, Species. Se observa que los 150 individuos se repar-
ten a partes iguales entre las tres variedades de flores, 50 para cada una,
y que por tanto los porcentajes son iguales a 33, 33. No tiene sentido
hablar de moda, puesto que las tres clases lo son.
> .Table <- table(iris$Species)
> .Table # counts for Species
setosa versicolor virginica
50 50 50
> 100*.Table/sum(.Table) # percentages for Species
setosa versicolor virginica
33.33333 33.33333 33.33333
2.4 Análisis de variables ordenadas 13
Análisis gráfico: A continuación se selecciona el diagrama de sectores

mediante Gráficas→Gráfica de sectores...
Si el fichero de datos activo tiene más de una variable de clase
se permite seleccionar la que se quiera. En este caso, la única variable
elegible es Species, que el programa da por defecto. Si se pulsa el botón
Aceptar el programa dibuja el gráfico de sectores que se muestra en
la figura 2.3. Como era de esperar, la tarta se divide en tres trozos
exactamente iguales.
4. Análisis de variables ordenadas
Las diferencias que se establecen entre variables de clase pura y

ordenada se concretan desde el punto de vista del análisis numérico en
que el grupo de medidas recomendables son las de posición, es decir los
cuantiles en sus distintas versiones. Como medidas de representación,
pensando que en general se dispondrá de pocas clases, se recurrirá a los
cuartiles y como medida de dispersión al recorrido intercuartı́lico. En
cuanto al análisis gráfico, se recomienda el uso del diagrama de barras.
Este tipo de variables ordenadas suele venir dada en forma de

tabla de frecuencias. Por ello, en el ejemplo que ilustra el tratamiento de
este tipo de variables, se comenzará explicando como transformar una
tabla de frecuencias en una matriz de datos, al objeto de que puedan ser
tratadas por R como un data.frame.
Ejemplo 2.5
Un caso de variable ordenada es la correspondiente a un estudio es-
tadı́stico sobre el nivel académico de la población gaditana en el año
2001 (Fuente: Instituto Estadı́stico de Andalucı́a).
Los valores que toma la variable son: Sin estudios, Elementales
(primaria), Medios (secundaria, bachillerato y fp grado medio) y
Superiores (fp superior, diplomatura, licenciatura y doctorado).
Los datos se recogen en la tabla:

NIVEL DE ESTUDIOS
SEXO Sin estudios Elementales Medios Superiores
Hombre 79309 107156 183488 70594
Mujer 108051 109591 174961 64858
Debido al gran número de individuos que forman esta muestra
puede ser útil almacenar la variable estudiada a partir de su tabla de
frecuencias, transformándola en base de datos en el momento de realizar
los análisis. El fichero en cuestión se ha guardado bajo el nombre de
tabla freq niv estudios.dat, conteniendo tres variables: sexo, nivel
y frec. En total consta de 8 filas que se correponden con los cruces de
las clases sexo y nivel.
Para cargar en Rcmdr la ta-
bla de frecuencias se selecciona Datos→
Importar datos desde archivo de
texto o portapapeles..., en este ejem-
plo se ha elegido el nombre Tabla frec pa-
ra denominar al fichero que contendrá los
datos de la tabla de frecuencias, co-
mo se muestra en la ventana de diálo-
go. A continuación se elige el archivo
tabla freq niv estudios.dat.
Ahora se tendrá que transformar es-
ta tabla de frecuencias en un conjunto de datos, data.frame, con el que
R pueda trabajar. Para conseguir esto se procede de la siguiente manera:
>nivel<-rep(Tabla frec$nivel,Tabla frec$frec)
>sexo<-rep(Tabla frec$sexo,Tabla frec$frec)
>niv estudios cadiz< −data.frame(nivel,sexo)
Es decir, se crean las variables nivel y sexo a partir de la repeti-

ción de cada una de las clases de las respectivas variables, tantas veces
como indique su frecuencia. A partir de ahı́, se construye el data.frame
niv estudios cadiz con las dos variables creadas.
Este data.frame se encuentra entre los datos que se facilitan en
este libro y se puede cargar directamente sin realizar las operaciones
anteriores. Para ello, basta con seleccionar Datos→Importar datos→
desde archivo de texto o portapapeles..., eligiendo ahora el ar-
2.4 Análisis de variables ordenadas 15
chivo niv estudios cadiz.dat.
Análisis numérico: En variables de tipo ordenado es aconsejable uti-

lizar, como medida de posición, los cuartiles.
Para reali-
zar este análisis
la variable niv-
el debe ser
codificada nu-
méricamente.
Se creará una
nueva variable
en la base de
datos, que se lla-
mará nivel num
y que represen-
tará los valores
numéricos de la
variable niv-
el. Los valores
Sin estudios,
Elementales, Medios y Superiores han sido codificados mediante los
valores 0, 1, 2 y 3, respectivamente. En Rcmdr esto se realizará se-
leccionando Datos→Modificar variables de los datos activos→
Recodificar variables... , desmarcando la pestaña Convertir
cada nueva variable en factor.
Para realizar el análisis numérico de la variable nivel num se selec-
ciona: Estadı́sticos→Resúmenes→Resúmenes numéricos..., eligien-
do en la ventana emergente la variable nivel num y marcando la opción
de cuantiles. Se puede observar entre los cuartiles que la mediana recae
sobre el valor 2.
> numSummary(Niv estudios[,‘‘niv num’’],

statistics=c(‘‘quantiles’’))
0% 25 % 50 % 75 % 100 %
0 1 2 2 3
Desde Rcmdr existe otra

forma de realizar el análisis
numérico de una variable ordena-
da.
Para ello, se reorde-
nan los niveles de la variable
factor usando las opciones
del menú Datos→Modificar
variables del conjunto de
datos activo→Reordenar
niveles de factor..., almace-
nando la variable nivel como factor de tipo ordenado. A la nueva
variable se le ha llamado nivel ord. A continuación se almacena ésta co-
mo variable de tipo numérico, escribiéndo en la ventana de instrucciones:
Datos$nivel num< −as.numeric(Datos$nivel ord)
siendo ya posible calcular los cuantiles, para la variable numérica

Datos$nivel num.
Como medida de dispersión se ha recomendado el recorrido inter-
cuartı́lico relativo, definido como el cociente entre la diferencia de los
cuartiles tercero y primero, y la mediana. Rcmdr no proporciona di-
rectamente este estadı́stico, pero se puede implementar fácilmente en la
ventana de instrucciones, mediante las órdenes siguientes:
>Q1<-quantile(niv estudios cadiz$nivel num, 0.25)
>RIR<-as.numeric((Q3-Q1)/Q2)
>RIR
[1] 0.5
Análisis gráfico: Para realizar el análisis gráfico de la variable se

utiliza el diagrama de barras. En Rcmdr se selecciona: Gráficas→
Gráfica de barras... y se elige en la ventana de diálogo, la variable
nivel ord.
En R existe una gran variedad de opciones que ayudan a mejorar
el aspecto de los gráficos. Se puede acceder a ellas escribiéndolas en la
ventana de instrucciones. En este ejemplo se ha optado por modificar el
2.5 Análisis de variables de escala 17
350000
250000
Frequency
150000
50000
0
Sin estudios Elementales Medios Superiores
nivel
Figura 2.4: Diagrama de barras de la variable nivel de estudios
color, siguiendo una escala de colores cálidos. Esto se consigue agregando

col=heat.colors(5) a las opciones de barGraph (figura 2.4).
5. Análisis de variables de escala
Ejemplo 2.6
Se estudiará ahora el tratamiento de una variable continua. Para ello
se considera la base de datos chickwts, del paquete datasets de R. En
ella se recogen los pesos finales, en gramos, de 71 polluelos, según el tipo
de dieta seguida durante un periodo de 6 semanas.
Análisis numérico: Para la variable que da el peso de los pollue-

los las medidas básicas recomendadas son la media y la desviación
tı́pica. Estas medidas se calculan desde Estadı́sticos→Resúmenes→
Resúmenes numéricos..., seleccionando para la variable weight las
opciones deseadas.
> numSummary(chickwts[,‘‘weight’’], statistics=c(‘‘mean’’,
‘‘sd’’))
mean sd n
261.3099 78.0737 71
Aunque se está hablando de la desviación tı́pica, la función sd

calcula en realidad la cuasidesviación tı́pica. Cabe la posibilidad de que
se necesiten otro tipo de medidas que completen el estudio, como la

simetrı́a, el apuntamiento, . . . Para ello, en el apéndice B, se incluye
una tabla de medidas estadı́sticas. Por ejemplo, si se deseara calcular
la simetrı́a y la curtosis de la variable weight, habrı́a en primer lugar
que instalar y cargar en R, si no lo está ya, el paquete fBasics. Y a
continuación:
> kurtosis(chickwts$weight)
-0.9651994
attr(,‘‘method’’)
‘‘excess’’
> skewness(chickwts$weight)
-0.01136593
attr(,‘‘method’’)
‘‘moment’’
Ambos coeficientes están calculados a partir de los momentos y,

en el caso de la curtosis, se le ha restado 3. Se podrı́a concluir que la
distribución es bastante simétrica y algo aplastada.
Análisis gráfico: Para analizar

gráficamente la variable peso se
comienza con la realización del
15
histograma que se muestra al

margen mediante las instrucciones
Frequency
10
Gráficas→Histograma... En el
histograma se observa un compor-
tamiento bastante simétrico y la
5
posibilidad de que existan dos mo-

das.
0
A continuación, se construye
100 150 200 250 300 350 400 450
el diagrama de caja (figura 2.5). Se chickwts$weight
puede observar en el gráfico que la
variable no posee valores atı́picos, es simétrica y está relativamente dis-
persa.
El data.frame que se está utilizando incluye un factor, Feed, que
se corresponde con las diferentes dietas sumimistradas a los pollos. Ello
permite la realización de un análisis por grupo, tanto numérico como
gráfico, que permita evaluar las diferencias de peso en función del ti-
po de alimentación seguida. Los valores que toma la variable Feed son:
2.5 Análisis de variables de escala 19
400
400
350
350
300
300
weight
weight
250
250
200
200
150
150
100
casein horsebean linseed meatmeal soybean sunflower

100
feed
Figura 2.5: Diagramas de caja de la variable peso
horsebean (habas), linseed (linaza), soybean (soja), sunflower (gira-

soles), meatmeal (carne) y casein (caseı́na).
Es interesante la representación del diagrama de caja de la variable
peso, según el tipo de alimentación (figura 2.5). Se observa que los valores
de la variable peso están más concentrados para la dieta sunflower.
También éste es el único grupo en el que se dan valores atı́picos. Por
contra la mayor dispersión de los datos se produce con la dieta casein.
Una evaluación inicial, parece indicar que la dieta que produce pollos
de mayor peso es sunflower, ya que los pesos que consigue están más
concentrados en torno a uno de los valores más altos.
El análisis numérico ofrece los siguientes resultados:
> numSummary(chickwts[,‘‘weight’’], groups=chickwts$feed,
statistics=c(‘‘mean’’))
mean sd n
casein 323.5833 64.43384 12
horsebeen 160.2000 38.62584 10
lindseed 218.7500 52.23570 12
meatmeal 276.9091 64.90062 11
soybean 246.4286 54.12907 14
sunflower 328.9167 48.83638 12
6. Ejercicios
2.1 Al comenzar el curso se pasó una encuesta a los alumnos del

primer curso de un colegio, preguntándoles, entre otras cuestiones, por el
número de hermanos que tenı́an. Se obtuvieron los siguientes resultados:
3, 3, 2, 2, 8, 5, 2, 4, 3, 1, 4, 5, 3, 3, 3, 3, 3, 2, 5
1, 3, 3, 2, 2, 4, 3, 3, 2, 2, 4, 4, 3, 6, 3, 3, 2, 2, 4
3, 4, 3, 2, 2, 4, 4, 3, 3, 4, 2, 5, 4, 1, 2, 8, 2 ,3, 3, 4
a) Represente este conjunto de datos con un diagrama de
barras.
b) Calcule media, moda y mediana.
c) Estudie la dispersión de los datos.
d) Analice la simetrı́a de la distribución.
2.2 Los pesos de un colectivo de niños son:

60, 56, 54, 48, 99, 65, 58, 55, 74, 52, 53, 58, 67, 62, 65
76, 85, 92, 66, 62, 73, 66, 59, 57, 54, 53, 58, 57, 55, 60
65, 65, 74, 55, 73, 97, 82, 80, 64, 70, 101, 72, 96, 73, 55
59, 67, 49, 90, 58, 63, 96, 100, 70, 53, 67, 60, 54
Obtenga:
a) La distribución de frecuencias agrupando por intervalos.
b) La mediana de la distribución.
c) La media de la distribución, indicando su nivel de repre-
sentatividad.
d) Utilizando la agrupación en intervalos, el porcentaje de
alumnos que tienen un peso menor de 65 kg y el número de alumnos con
un peso mayor de 60 kg dentro del grupo de los que pesan menos de 80
kg.
2.3 En el Consejo de Apuestas del Estado se han ido anotando,

durante una temporada, el número de premiados de quinielas según la
cantidad de aciertos. Los resultados se recogen en la siguiente tabla:
No de aciertos 11 12 13 14 15
No de personas (miles) 52 820 572 215 41
2.6 Ejercicios 21
Calcule:
a) La mediana, la moda y los cuartiles de la distribución.
b) La simetrı́a de la distribución.
2.4 En un puerto se controla diariamente la entrada de pesque-

ros según su tonelaje, resultando para un cierto dı́a los siguientes datos:
Peso(Tm.) 0-25 25-50 50-70 70-100 100-500

No de barcos 5 17 30 25 3
Se pide:
a) El peso medio de los barcos que entran en el puerto
diariamente, indicando la representatividad de dicha medida.
b) El intervalo donde se encuentra el 60 % central de la
distribución.
c) El grado de apuntamiento.
d) El tonelaje más frecuente en este puerto.
22

A Basica Con R

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

A Basica Con R

Uploaded by

Copyright:

Available Formats

Estadı́stica

Edita: Servicio de Publicaciones de la Universidad de Cádiz

Análisis Exploratorio de Datos Unidimensional

En este módulo, a través de una serie de medidas, gráficos y mode-

Las conclusiones obtenidas serán aplicables exclusivamente a los

Formalmente, se podrı́a definir el AED como un conjunto de técni-

Al conjunto de individuos fı́sicos considerados en un análisis se

Los datos constituyen pues la materia prima de la Estadı́stica,

1.1. La matriz de datos

En una primera instancia se supondrá que, sobre un conjunto de n

Los datos obtenidos se organizarán en una matriz n × k, donde

primer lugar y que asigna un nombre a cada individuo; dicha columna

R se refiere a este tipo de estructura de datos como data.frame.

1.1.1. Anomalı́as de la matriz de datos

Hay veces en que por distintos motivos la matriz de datos presenta

En este módulo se analizarán –salvo excepciones que se indicarán

2. Naturaleza de los caracteres: Atributos y Variables

Respecto a la cantidad de información que porta cada tipo de

Figura 2.1: Esquema de cantidad de información

diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados,

Como ya se ha comentado, la naturaleza del carácter condicio-

En una primera instancia, se distinguirá entre los caracteres que

Las variables pueden clasificarse según su conjunto soporte. El so-

Una vez identificadas, recolectadas y organizadas, las variables

Figura 2.2: Ventana de selección de datos en paquetes adjuntos

que verdaderamente aportan información relevante. A tal efecto, se pro-

Escala de Medidas Medidas de Representaciones

Tabla 2.1: Medidas y gráficos según tipo de variable

En última instancia corresponde al investigador el tomar las de-

Los atributos son susceptibles de ser tratados de forma indivi-

Figura 2.3: Diagrama de sectores del fichero iris

tratamiento gráfico más usual que se le darı́a a un atributo individual

Análisis numérico: Se selecciona Estadı́sticos→Resúmenes→

Análisis gráfico: A continuación se selecciona el diagrama de sectores

4. Análisis de variables ordenadas

Las diferencias que se establecen entre variables de clase pura y

Este tipo de variables ordenadas suele venir dada en forma de

Los datos se recogen en la tabla:

Es decir, se crean las variables nivel y sexo a partir de la repeti-

chivo niv estudios cadiz.dat.

Análisis numérico: En variables de tipo ordenado es aconsejable uti-

> numSummary(Niv estudios[,‘‘niv num’’],

Desde Rcmdr existe otra

siendo ya posible calcular los cuantiles, para la variable numérica

Análisis gráfico: Para realizar el análisis gráfico de la variable se

Sin estudios Elementales Medios Superiores

Figura 2.4: Diagrama de barras de la variable nivel de estudios

color, siguiendo una escala de colores cálidos. Esto se consigue agregando

5. Análisis de variables de escala

Análisis numérico: Para la variable que da el peso de los pollue-

Aunque se está hablando de la desviación tı́pica, la función sd

se necesiten otro tipo de medidas que completen el estudio, como la

Ambos coeficientes están calculados a partir de los momentos y,

Análisis gráfico: Para analizar

histograma que se muestra al

posibilidad de que existan dos mo-

casein horsebean linseed meatmeal soybean sunflower

Figura 2.5: Diagramas de caja de la variable peso

horsebean (habas), linseed (linaza), soybean (soja), sunflower (gira-

2.1 Al comenzar el curso se pasó una encuesta a los alumnos del

2.2 Los pesos de un colectivo de niños son:

2.3 En el Consejo de Apuestas del Estado se han ido anotando,

2.4 En un puerto se controla diariamente la entrada de pesque-