-‐
Curso de Análisis de Datos Espaciales
Clase 4 – Análisis exploratorio de datos
espaciales (Princípios)
Marcos W. D. de Freitas
[email protected]}
Análisis Exploratorio
• Definición
– Conjunto de herramientas estadísticas gráficas y descriptivas direccionadas
al descubrimiento de pautas en dados.
• ESDA (Exploratory Spatial Data Analysis).
“Colección de técnicas para describir y visualizar distribuciones
espaciales, identificar situaciones atípicas, descubrir pautas de
asociación espacial, clusters y sugerir regímenes espaciales o formas de
heterogeneidad espacial” (Anselin).
Las Meninas
Meninas,(infanta
(Conjunto)
Diego Velásquez,
Margarita
Pablo Picasso,
Maria)
1656 –Pablo
Museu
1957Picasso,
– do
Museu
Prado,
1957
Picasso,
Madri
– Museu
Barcelona
Picasso, Barcelona
A Questão da Representação
Técnicas de Análisis Exploratorio
• Visualización
mapas”
– paletas: “mintiendo con
• Histogramas
• Estadísticas descriptivas
• Indicadores de autocorrelación espacial
(Moran’s I e otros)
Global
• Local
•
Visualización de Pautas de Area
Mapas coropléticos
 Métodos de clasificación




Intervalos iguales
Quantiles
Desviación estándar
Quebras naturales (Jenks)
 Tenga cuidado!
 Mapas coloridos pueden
llevarte a interpretaciones
erradas
Método de intervalos iguales
 Intervalo de clase definido por la
diferencia entre los valores máximo
mínimo dividido por el número de
clases
Revela la dispersión de los datos
con continuidad e ordenación
“Outliers” pueden “mascarar”
diferencias
Pueden ocurrir clases vacías que
están en la leyenda, pero no en el
mapa
Método de Quantiles
Cada clase presenta el mismo
número de elementos (casos)
Se tiene 20 casos y se quiere dividir
en 4 clases, las 5 primeras
observaciones estarán en la primera
clase, las 5 prójimas en la segunda
clase, e así sucesivamente
Presenta quiebras en el medio de
grupamientos/clusters de valores, de
uma forma no correspondiente a la
realidad
e.g: mejores 25% y peores 25%
Método de Desviación Estandar
Dispersión acerca el valor promedio
Quiebras: 1 desv, 1/2 desv,…
Presentan el comportamiento
estadístico de los datos
Bueno para los casos donde los
valores tienen una distribución normal
(asunción)
Produce clases con intervalos
constantes alrededor del valor
promedio
Quiebras naturales (Jenks)
Método de optimización de
Jenks basado en el procedimiento
denominado “Goodness of Variance
Fit” - GVF
Produce grupos homogéneos
internamente y asegura la
heterogeneidad entre clases
Pretty Breaks
Criterio estético implementado en QGIS
Visualización
Intervalos iguales
Quantiles
Visualización
Desviación estándar
Quiebras naturales
Visualización de Pautas de Area
Gráficos (Plots)
 Estadísticas descriptivas
 Histogramas
 Diagramas de caja
 Diagramas de dispersión
Visualización de Pautas de Area
Histogramas
 Histogramas: representación gráfica de una variable en forma de
barras
 La superficie de cada barra es proporcional a la frecuencia de los
valores representados, ya sea en forma diferencial o acumulada.
 Sirven para obtener una "primera vista" general, o panorama, de
la distribución de los datos
Visualización de Pautas de Area
Histogramas
Escolaridad: Universitario
Desocupados
Visualización de Pautas de Area
Diagrama de caja
 Diagramas de caja (Box Plot):




ordenar los datos y obtener el
valor mínimo, el máximo, los
cuartiles Q1, Q2 y Q3 y el Rango
Inter Cuartilico (RIC):
Q1 (25% de los datos)
Q2 o mediana (el 50% de los
datos)
Q3 (75% de los datos)
Rango Inter Cuartilico RIC (Q3Q1)
Visualización de Pautas de Area
Diagramas de Dispersión
 Diagramas de dispersión (Scatter Plot): representación gráfica de la
correlación entre dos variables
 Variables dependiente e independiente: correlación positiva o
negativa
Escolaridad (universitarios) x Ocupados
universitarios)x sin escuela
Dependencia espacial
 Cuales las posibles implicaciones de no considerar la
localización espacial en la modelación?
 1ª Ley de la Geografía: “todas las cosas son parecidas,
peros cosas más próximas se parecen más que cosas
más distantes” (Tobler, 1979)
Dependencia espacial
 Independencia es una asunción conveniente y que
existe en gran parte de la teoría
estadística/matemática (distribución normal –
Estadística frecuentista).
 Modelos que envuelven dependencia estadística son
frecuentemente más realísticos.
 Datos espaciales: dependencia está presente en
todas las direcciones y queda más débil a medida que
crece la dispersión en la localización de los datos
Dependencia espacial
 Generalizando: gran parte de las ocurrencias, sean
estas naturales o sociales, presentan entre si una
relación - semejanza o inhibición - que depende de la
distancia o vecindad.
Autocorrelación espacial
 La mayor parte de los datos espaciales no son
estocásticos (randomicos)!!
 Esa situación/problema es conocida como
autocorrelación espacial
 La superficie terrestre y sus atributos no componen
un conjunto plano, estacionario e isotrópico
 Autocorrelación positiva o negativa
 Describir la estructura de autocorrelación es de
importancia primaria en análisis especial.
Autocorrelación Espacial
 Autocorrelación espacial – correlación de una variable con
ella misma en el espacio.
 Se hay alguna pauta sistemática en la distribución espacial
de una variable, esa es considerada como espacialmente
autocorrelacionada
 Se las áreas de vecindad son más parecidas, esa es una
autocorrelación espacial positiva
 Autocorrelación espacial negativa describe pautas en que las
áreas vecinas son diferentes
 Pautas randómicas no exhiben autocorrelación espacial
Autocorrelación espacial
 Correlación de un atributo en relación a su vecindad
del punto de vista especial (distancia)
Baja
Alta
Máxima
Autocorrelación
Espacial
Positiva: valores similares se agrupan
juntos en el mapa
Negativa: valores distintos se agrupan
juntos en el mapa
Autocorrelación espacial
Autocorrelación espacial
Randomicos
Agrupados
“Clusters”
Autocorrelación espacial
Porque analisar la
autocorrelación espacial?
•
Asunción de independencia estadística es comprometido en
presencia de autocorrelación espacial
•
Necesidad de métodos de análise espacial que abordan la
dependencia espacial
Asunción principal de la estadística
frecuentista
i.i.d. : Variables aleatorias independientes e
idénticamente distribuidas
Una secuencia (lista ordenada de objetos o eventos) de
Variables Aleatorias es independiente e idénticamente
distribuida se cada VA tiene la misma Distribución de
Probabilidad de todas las otras en la secuencia o
colección e aún más son TODAS mutualmente
independientes (la ocurrencia de un evento no altera la
probabilidad de ocurrencia de ninguna otra).
Conceptos estadísticos
fundamentales
 Autocorrelación espacial - caso particular de una estadística de
productos cruzados del tipo:
n
 (d ) 
n
 w
i 1
ij
( d ) ij
j 1
 Comparando valores obtenidos con esperados en el caso de
independencia espacial se encuentra (o no) evidencias da
estructura de dependencia.
Técnicas de Análisis Exploratorio
• Indicadores Globales de Autocorrelación
– suposición: estacionariedad (función de la “distancia”).
– Ej: índice de Moran (Moran’s I), variograma, correlograma
• Indicadores Locales de Asociación Espacial
– Resaltan las situaciones atípicas (“outliers” ).
– Ej: Mapa de LISA
Proximidad espacial
• La principal diferencia para objetos de áreas es en la
formalización de la proximidad espacial!
– Cual es la distancia de Rio Grande ao Cassino?
• 10 min, 15 km o “son colados” .
• Depende!
Ejemplos de medidas
• proporción de la frontera por el perímetro.
L2
w14 
L1  L 2  L 3  L 4
- wij  wji
- “promedio ponderado”
Ejemplos de medidas
• distancia lineal entre centróides de los objetos.
w14  0
w14  1
para d > limiar
para d  limiar
• inverso de la distancia lineal entre centróides de los objetos.
w14  1
d
Ejemplos de medidas
• Existencia de frontera común.
w 14  1
P1 hace fronteira con P4
w 24  0
P2 no tiene fronteira con P4
Matriz de Proximidad
w11

w21


W
w31

w41
wij : “distancia” del objeto i al objeto j.
w12 w13 w14

w22 w23 w24
w32 w33 w34

w42 w43 w44
Matriz de Proximidad Espacial
• Contenido
– Matriz (n x n) W , cuyos elementos
B
wij representan una medida de
proximidad entre Oi e Oj
A
wij =1, se Oi toca Oj
wij = lij/li, donde lij es el tamaño de la
frontera entre Oi e Oj e li es el
perímetro de Oi
E
D
• Criterios:-
wij = 1, se dist(Oi, Oj) < h
C
A
B
C
D
E
A
0
1
0
1
0
B
1
0
1
1
1
C
0
1
0
0
1
D
1
1
0
0
1
E
0
1
1
1
0
Row-standardized
matrices de proximidad espacial
Divide cada
A B C
número por la
suma de líneas
D E F
Número total de vecinos
--unos tienen más que otros
A
B
C
D
E
F
A
0
1
0
1
0
0
B
1
0
1
0
1
0
C
0
1
0
0
0
1
D
1
0
0
0
1
0
E
0
1
0
1
0
1
F
0
0
1
0
1
0
Row standardized
--normalmente utilizado
Row
Sum
2
3
2
2
3
2
A
B
C
D
E
F
Row
Sum
A
0.0 0.5 0.0 0.5 0.0 0.0
1
B
0.3 0.0 0.3 0.0 0.3 0.0
1
C
0.0 0.5 0.0 0.0 0.0 0.5
1
D
0.5 0.0 0.0 0.0 0.5 0.0
1
E
0.0 0.3 0.0 0.3 0.0 0.3
1
F
0.0 0.0 0.5 0.0 0.5 0.0
1
38
Descargar

Clase4_ESDA