You are on page 1of 30

Sesión 3: Análisis Exploratorio de

Datos Espaciales (AEDE):


Técnicas básicas
Profesora: Coro Chasco Yrigoyen
Universidad Autónoma de Madrid
17 a 21 de mayo, 2010

2010, Coro Chasco Yrigoyen


All Rights Reserved
Índice del Curso
 S1: Introducción a la Econometría Espacial
 SP1: Introducción al programa GeoDa
 S2: Efectos espaciales: dependencia espacial
 S3: Análisis Exploratorio de Datos Espaciales (AEDE): técnicas básicas
 SP2: AEDE en GeoDa: técnicas básicas
 S4: Contrastes de dependencia espacial: técnicas avanzadas de AEDE
 S5: Análisis confirmatorio de datos espaciales: especificación de los
modelos de dependencia espacial
 SP3: AEDE en GeoDa: técnicas avanzadas
 S6: Estimación y contrastes de un modelo de regresión espacial por el
método de Mínimos Cuadrados Ordinarios
 S7: Estimación y contraste de los modelos de dependencia espacial
 SP4: El módulo de regresión espacial en el programa GeoDa
 S8: Estimación y contraste del modelo del error espacial y estrategias
de modelización espacial.
 SP5: Aplicación de la estrategia de modelización clásica a
casos prácticos con el programa GeoDa

2
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
. CHASCO, C. y Rodríguez-Avilés (2009), “Análisis de datos
espacio-temporales para la economía y el geomarketing”.
NetBiblo, pp. 31-45.
Sesión 3
Esquema general:
 Introducción al AEDE
 Análisis univariante de datos
espaciales
1. Representación de la tendencia central
2. Representación de puntos atípicos
 Análisis multivariante de datos
espaciales
1. Diagramas de dispersión
2. Gráfico de coordenadas paralelas
3. Gráficos condicionales
3
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3

1. Introducción al AEDE (I)


 El AEDE forma parte del más
amplio campo del AED.
 El AED (o minería de datos) es un
conjunto de técnicas estadístico-
gráficas diseñadas para detectar
patrones y tendencias en los
datos, con objeto de formular
hipótesis sobre los mismos.
 El AED permite al usuario
manipular diversas “vistas” de los
datos: histogramas, diagramas de Statistica (StatSoft)
caja, gráficos q-q, matrices
ydiagramas de dispersión, etc.

4
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
1. Introducción al AEDE (II)

 Mapas: una forma de


representar los datos
geográficos.
 AEDE: consideración
explícita del mapa como
una vista más, integrada
en el esquema general
junto con el resto de
gráficos dinámicos.

5
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
. ANSELIN, L. (1998),“Exploratory spatial data analysis in a

Sesión 3
geocomputational environment”. Conference in
GeoComputation’98, Bristol (UK), pp. 17-19.

1. Introducción al AEDE (III)


 Técnicas del AEDE:
1. Describen y visualizan
distribuciones
espaciales.
2. Linking & brushing:
permiten la selección de
localizaciones en
diferentes vistas o
pantallas.
3. Identifican localizaciones
atípicas o “spatial
outliers”.
4. Detectan patrones de
asociación espacial,
clusters o zonas
calientes/frías. Etc.

6
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2. Análisis univariante espacial
2.1. Representación de la tendencia central
2.1.1. Mapas temáticos (cuantiles)
2.1.2. Histograma de frecuencias
2.1.3. Mapa de la desviación típica

2.2. Representación de puntos atípicos


2.2.1. Mapa de percentiles
2.2.2. Diagrama/mapa de caja
2.2.3. Cartograma

7
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.1. Representación de la tendencia central
2.1.1. Mapas temáticos (cuantiles)
 Mapa temático: representación cartográfica de una variable
de datos espaciales mediante símbolos y colores que pongan
de manifiesto las diferencias de valores.
 Mapas de cuantiles: mapas temáticos que representan la
tendencia espacial global de una variable.
 Los datos se dividen y agrupan en una serie de categorías
(cuantiles) con igual número de observaciones
 Los cuantiles son valores que dividen una muestra de datos
en un determinado número de categorías de modo que cada
una de ellas (en la medida de lo posible) contenga igual
número de observaciones (cuando el número de categorías es
de 4, 5 ó 6, se habla de cuartiles, quintiles o sextiles,
respectivamente).

8
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.1. Representación de la tendencia central
2.1.1. Mapas temáticos (cuantiles)

QUANTILE MAPS

9
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.1. Representación de la tendencia central
2.1.2. Histograma de frecuencias

 Representación gráfica de una variable en forma de barras,


donde la altura de cada barra es proporcional a la frecuencia
de los valores representados.
 En el eje vertical se representan las frecuencias y en el eje
horizontal, los valores de la variable divididos en intervalos.
 Este gráfico resulta de especial utilidad en variables de
naturaleza continua, pues hace posible una más fácil
visualización de su distribución al agrupar estos valores en
categorías o clases diferentes.

10
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.1. Representación de la tendencia central
2.1.2. Histograma de frecuencias

11
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.1. Representación de la tendencia central
2.1.2. Histograma de frecuencias El mapa de cuantiles
no resulta de utilidad
en casos en los que la
variable en cuestión
tenga una distribución
muy alejada de la
distribución normal.

No es útil cuando la variable sea muy


asimétrica o contenga un gran número de
observaciones con valores parecidos pues
habrá cuantiles que no podrán ser definidos
al no poder asignar un mismo número de
observaciones a los diferentes grupos.

12
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3

2.1. Representación de la tendencia central


2.1.3. Mapa de la desviación típica

 Agrupa las observaciones según que sus valores caigan dentro


de un rango estandarizado
 Rango estandarizado: un número determinado de unidades
de la desviación típica a partir de la media.
 Las categorías en las que se divide la variable se corresponden
con múltiplos de la desviación típica de la variable.
 En el ejemplo de la Diapositiva siguiente: este mapa clasifica
las secciones censales según la diferencia en términos de la
tasa de extranjeros que tengan del nivel medio de secciones
en la “Almendra Central” de Madrid.

13
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
2.1.4. Mapa de la desviación típica Sesión 3

STANDARD
DEVIATION
MAP

14
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.2. Representación de puntos atípicos
PERCENTILE MAP

 Puntos atípicos (elementos de discontinuidad en una variable):


son valores de la variable excepcionalmente bajos/altos que pueden
no ser representativos de la distribución general y afectar al
comportamiento de los contrastes estadísticos.
 Están retratando un segmento interesante de la población (por
ejemplo, zonas calientes o frías de negocio).
 El AEDo suele detectar, como atípicos, valores que son simplemente
errores en la entrada de datos o acontecimientos extraños,
para los que no existe explicación, en cuyo caso se aconseja
eliminarlos, para evitar distorsiones inútiles en el análisis posterior.
 Técnicas: Mapa de percentiles, diagrama/mapa de caja y
cartograma.

15
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3

2.2. Representación de puntos atípicos


PERCENTILE MAP
2.2.1. Mapa de percentiles

 Caso particular del mapa de cuantiles: se realiza una agrupación de


valores destinada a acentuar los valores extremos.
 Una vez ordenada la variable de menor a mayor, se crean seis
grupos o categorías, que son los correspondientes a los
percentiles: <1, [1,10), [10,50), [50,90), [90,99), >99.
 Las regiones que se encuentren en los percentiles 1º y 99º, serán
las que tienen los valores más bajos/altos de la distribución.
 Los percentiles son valores que dividen una variable en 100 partes
de forma que cada una contenga (en la medida de lo posible) igual
número de observaciones.

16
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.2. Representación de puntos atípicos
2.2.1. Mapa de percentiles PERCENTILE MAP

17
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
2.2. Representación de puntos atípicos
2.2.2. Diagrama/mapa de caja PERCENTILE MAP

 Método de representación basado en el cálculo de los cuartiles y la


mediana de una variable, así como la obtención de las llamadas
cotas o valores adyacentes superior e inferior.
 La “caja” es un rectángulo que se construye de forma que el valor
inferior de la misma es el primer cuartil (que contiene el 25% de las
observaciones) y el valor superior, el tercer cuartil (que contiene el
75% de las observaciones). La mediana queda destacada en mitad
de la caja con un círculo y una línea horizontal que la atraviesa.
 Las cotas se obtienen sumando/restando a la mediana el producto
de los valores del tercer (primer) cuartil por 1,5 veces (ó 3 veces) el
recorrido intercuartílico.
 Valores atípicos: situados por encima (o por debajo) de dichas
cotas, pudiendo no existir dichos valores (cuando la variable tenga
valores muy concentrados en torno a la media).

18
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
2.2. Representación de puntos atípicos
2.2.2. Diagrama/mapa de caja
Sesión 3

19
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
2.2. Representación de puntos atípicos
2.2.3. Cartograma

Sesión 3

20
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
4.2. Spatial distributions plots
4.2.3. Cartogram

21
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
3. Análisis multivariante de datos
espaciales

3.1. Diagramas de dispersión


3.1.1. Diagrama de dispersión bivariante
3.1.2. Diagrama de dispersión espacio-temporal

3.2. Diagrama de coordenadas paralelas


3.3. Gráficos condicionales

22
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
3.1. Diagramas de dispersión
3.1.1. Diagrama de dispersión bivariante
PERCENTILE MAP

 Diagrama de dispersión o nube de puntos: descripción de la


relación o dependencia existente entre dos variables X-Y.
 La forma que presenta este nube de puntos refleja el grado de
correlación entre las dos variables, que puede ser nula (si los
puntos forman un círculo), lineal (si los puntos representan una
elipse) o no lineal (si los puntos toman cualquier otra forma.
 La función más sencilla y útil en la mayoría de los casos, por su
simplicidad, es la recta. En este caso, la dependencia entre las
variables es medida a través del coeficiente de correlación linea
 Significatividad de este coeficiente: si la relación entre ambas
variables sea o no lineal, y existan ciertos puntos atípicos que le
resten representatividad.

23
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
3.1. Diagramas de dispersión
3.1.1. Diagrama de dispersión bivariante
PERCENTILE MAP

24
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
3.1. Diagramas de dispersión
3.1.1. Diagrama de dispersión bivariante
PERCENTILE MAP

25
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
3.1. Diagramas de dispersión
3.1.2. Diagrama de dispersión espacio-temporal
PERCENTILE MAP

26
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
3.2. Gráfico de coordenadas paralelas
 Alternativa al diagrama de dispersión: permite un análisis
multivariante (superior a dos variables).
 Los valores de las variables se representan en ejes horizontales
paralelos, desde los inferiores (a la izquierda del eje) a los
superiores (a la derecha).
 Las observaciones se representan en forma de múltiples segmentos
que van uniendo su posición en cada eje según los valores de las
variables que adoptan.
 Cada variable es re-escalada de forma que el valor mínimo se
encuentre en el extremo izquierdo y el máximo en el extremo
derecho.
 Principal utilidad de este gráfico consiste en la identificación de
agrupamientos de valores en ciertas observaciones que pueden ser
también de naturaleza espacial.

27
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
3.2. Gráfico de coordenadas paralelas

28
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3

3.3. Gráficos condicionales


 Utilización de 2 variables condicionales que dividen a la muestra
de datos en diferentes grupos o categorías.
 El objetivo de este gráfico consiste en representar, para una tercera
variable continua, un gráfico (o mapa) con aquellas observaciones
que estén comprendidas dentro de cada categoría.
 GeoDa considera, para cada una de las variables condicionales, 3
categorías, con lo que se producirá un total de 9 gráficos o
mapas.
 Cuatro tipos de gráficos condicionales: mapas, diagramas de
caja, histogramas condicionales y diagramas de dispersión
condicionales.

29
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
30
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved

You might also like