-‐
Curso de Análisis de Datos Espaciales
Clase 5 – Análisis exploratorio de datos
espaciales (Indicadores)
Marcos W. D. de Freitas
[email protected]}
Análisis Exploratorio de Datos
Espaciales
•
Objetivo: búsqueda de pautas en la distribución espacial de polígonos o puntos con
variables cuantitativas (numéricas)
•
Responder cuestiones acerca de los datos y su distribución espacial:
•
Cuestión inicial:
Como se distribuí una variable de interese en el espacio? – Uso de mapas
coropléticos
•
Cuestiones estadísticas:
• Cual es la distribución de mi variable de estudio? – Uso de histograma
• Cuales son las estadísticas básicas de esa variable (mínimo, máximo, promedio,
desviación estándar,…)? – Uso de Diagrama de Cajas
• Cual es el grado de correlación de esa variable con otra variable? – Uso de
Diagrama de dispersión
Análisis Exploratorio de Datos
Espaciales
•
Cuestiones de estadística espacial:
• De forma general, mis datos presentan estructuras de dependencia espacial? O
sea, hay agrupamientos (regímenes espaciales, hot-spots, cold-spots) o mis datos
presentan una pauta de distribución aleatoria?
• Uso de Indicadores Globales de Asociación Espacial (Moran’s I e otros)
•
Se existe, entonces de forma general, dependencia espacial en mis datos, cuales
son los objetos (segmentos censales, barrios, departamentos, unidades de
suelos,…) que pueden ser considerados como hot-spots o cold-spots de forma
significante?
• Indicadores Locales de Asociación Espacial (LISA Maps)
Técnicas de Análisis Exploratorio
• Indicadores Globales de Autocorrelación
– suposición: estacionariedad (función de la “distancia”).
– Ej: índice de Moran (Moran’s I), variograma, correlograma
• Indicadores Locales de Asociación Espacial
– Resaltan las situaciones atípicas (“outliers” ).
– Ej: Mapa de LISA
Matriz de Proximidad Espacial
• Contenido
– Matriz (n x n) W , cuyos elementos
B
wij representan una medida de
proximidad entre Oi e Oj
A
wij =1, se Oi toca Oj
wij = lij/li, donde lij es el tamaño de la
frontera entre Oi e Oj e li es el
perímetro de Oi
E
D
• Criterios:-
wij = 1, se dist(Oi, Oj) < h
C
A
B
C
D
E
A
0
1
0
1
0
B
1
0
1
1
1
C
0
1
0
0
1
D
1
1
0
0
1
E
0
1
1
1
0
Row-standardized
matrices de proximidad espacial
Divide cada
A B C
número por la
suma de líneas
D E F
Número total de vecinos
--unos tienen más que otros
A
B
C
D
E
F
A
0
1
0
1
0
0
B
1
0
1
0
1
0
C
0
1
0
0
0
1
D
1
0
0
0
1
0
E
0
1
0
1
0
1
F
0
0
1
0
1
0
Row standardized
--normalmente utilizado
Row
Sum
2
3
2
2
3
2
A
B
C
D
E
F
Row
Sum
A
0.0 0.5 0.0 0.5 0.0 0.0
1
B
0.3 0.0 0.3 0.0 0.3 0.0
1
C
0.0 0.5 0.0 0.0 0.0 0.5
1
D
0.5 0.0 0.0 0.0 0.5 0.0
1
E
0.0 0.3 0.0 0.3 0.0 0.3
1
F
0.0 0.0 0.5 0.0 0.5 0.0
1
6
Matriz de Proximidad Espacial
Creando pesos espaciales en GeoDa
• Cuatro tipos de vecindad:
• Vecindad: Queen y Rook
• Distancia euclidiana
• K-Nearest Neighbors (vecinos más próximos)
Matriz de Proximidad Espacial
Rook Contiguity
• Vecindad “rook”: incluye todos los polígonos que dividen una
frontera (arco) con el polígono que se quiere definir los pesos
de vecindad
Matriz de Proximidad Espacial
Queen Contiguity
• Vecindad “queen”: incluye todos los polígonos que tocan el
polígono que se quiere definir los pesos de vecindad
Matriz de Proximidad Espacial
Queen x Rook Contiguity
• Vecindad “queen” x “rook”
rook
queen
Mensurando Contigüidad: Debemos incluir
la contigüidad de segunda orden?
1ª
orden
Vecino
próximo
rook
2ª
orden
Secundo
vecino
más
próximo
queen
Matriz de Proximidad Espacial
Distancia Euclidiana
• Considera como vecinos, todos los polígonos con centróides con
distancia menor quela distancia máxima definida por el usuario
Matriz de Proximidad Espacial
Vecinos más próximos
• K-nearest neighbors: Considera como vecinos el número de vecinos más
próximos definidos por el usuario.
•
]
wij = 1, se dist(Oi, Oj) < h
wij = lij/li, donde lij es el tamaño de la
frontera entre Oi e Oj e li es el
perímetro de Oi
Indicadores Globales de
Autocorrelación Espacial
• Objetivo: Explorar la dependencia espacial
• Autocorrelación espacial.
– Mide cuanto el valor observado de un atributo en una región es
independiente de los valores de la misma variable en las
localizaciones vecinas.
• Indicadores Globales
– Moran, Geary
• Indicadores Locales
– Local Moran, Local Geary
Forma genérica de los índices
• forma genérica:
global
local
n
i  wij aij
j
n
n
i
j
    wij aij
onde:
wij
aij
: medida de proximidad entre objetos i e j
:expresión que representa la asociación
entre los atributos del objeto i con
los demás objetos de su vecindad.
Forma genérica de los índices
n
n
n
i
j
    wij aij
i  wij aij
j
Cuando aij es de forma:
x  x x
i
x
x
j
ou
i
 x
x
i
j
 x

zi zj

z  z 
2
2
j
 x
Moran (covariancia)
i
j

z
j
ou
Geary (variancia)
j

z  z
i
j

G ou G* (promédio móbil)
Indice Global de Moran
n
I n
n
n
yyyy
w


w


ij
i
1 j
1
n
ij
i
j
i
1 j
1
n
2


y

y
i
i
1
donde:
– n corresponde al número de áreas,
– yi es el valor del atributo considerado en la área i,
– y representa el valor promedio del atributo en la región de estudio,
– wij son los pesos atribuidos conforme la conexión entre las áreas i e j.
Indice Global de Moran
n
I n
n
n
yyyy
w


w


ij
i
1 j
1
n
ij
i
j
i
1 j
1
n
2


y

y
i
i
1
• Cual es el significado del índice global de Moran ( I ) ?
• Como interpretar la ecuación arriba ?
• Cual es su significancia o validad estadística ? Como evaluar ?
Indice Global de Moran
n
I n
yyyy
w


ij
n
i
j
i
1 j
1
n
w


ij
i
1 j
1
n
n
yy

2
i
i
1
• Es análogo al coeficiente de correlación convencional, porque tiene en
su numerador un termo que es producto del momento.
• Como un coeficiente de correlación, los valores de I también varían
de -1 a +1, cuantificando el grado de autocorrelación espacial
existente.
-1 autocorrelación espacial negativa o inversa.
 0 significa aleatoriedad
+1 significa autocorrelación espacial positiva o directa.
Indice Global de Moran
• Consideremos el ejemplo que sigue:
Matriz de Proximidad
A
B
20
C
24
15
D
5
20

15

24

5
Média
y


16
4
A
B
C
D
A
0
1
1
0
B
1
0
1
1
C
1
1
0
1
D
0
1
1
0
n

2


y

y
2
2
2
2

i








20

16

15

16

24

16

5

16
2
i

1
Variância


n
4

Desvio
Padrão
 
50
,
5

7
,
1063
2

50
,
5
Indice Global de Moran
n
I n
n
n
n
 w
yyyy
w


ij
i
ij
j
I
i
1 j
1
n
w


ij
i
1 j
1
n
n
i 1 j 1
n
 zi
y
2

y

i
zi z j
2
i 1
i
1
• La ecuación de I puede ser simplificada [N(=0 e =1)] e alteramos
W, de forma que la suma de los elementos de cada línea sea igual a 1.
zi 
yi y

A
B
C
D
A
0
1
1
0
A
B
1
0
1
1
B 1/3 0 1/3 1/3
C
1
1
0
1
C 1/3 1/3 0 1/3
D
0
1
1
0
D
A
B
C
D
0 1/2 1/2 0
0 1/2 1/2 0
Indice Global de Moran
A
A
20
C
A
B
D
D
5
n
 w
ij
I
zi z j
i 1 j 1
n
 zi
zi 
D
2
i 1
nn
  7 ,1063
zi zj
*
=
Mij
,
3167

0
,
0792
0
,
6335

0
,
8711
0
,
0396
0
,
3167
0 
 1 1  0
0
0
0
 22  






1
11



0
,
0792
0
,
0197

0
,
1583
0
,
2177

0
,
0264
0
0
,
0527
0
,
0725


0




3
33
*







11
1

0  0


,
6335

0
,
1583
1
,
2672

1
,
7424
0
,
2111

0
,
0527
0
0
,
5808
33
3




 11  


0
0





0
,
8711
0
,
2177

1
,
7424
2
,
3959

0
,
00
0
,
1088

0
,
8712
0


 22  
n
nn
w
z
z

M


0
,
9143




 zi
iji j
i

1
j1
y  16 , 0
0 1/2 1/2 0

zA = 0,5628
zB = -0,1407
zC = 1,1257
zD = -1,5479
0 1/2 1/2 0
C 1/3 1/3 0 1/3
wij
n
C
B 1/3 0 1/3 1/3
15
24
B
yi y
ij
i

1
j1
i 1
2
4

0
,9143
I


0
,288
4
Significancia del Índice de Moran
Evaluación de la significancia del índice de Moran (I).
Para estimar la significancia de I, será preciso asociar a ese una
distribución estadística, para tanto, dos abordajes son
posibles:
• Teste de pseudo-significancia (experimento aleatorio).
• Distribución aproximada (hipótesis de normalidad).
Indice Global de Moran
• La validad estadística del índice de Moran (I) en el teste de pseudo-
extremo
Distribuição
simulada
extremo
significancia.
• Se el índice I efectivamente medido corresponder a un “extremo”
de la distribución simulada, entonces trata-se de evento con
significancia estadística.
I de Moran: Validade Estatística
• Para un número suficiente de sub-regiones el índice I tiene una
distribución de muestral que es aproximadamente normal, dada por:
E(I)
1
(n1)

Índice Moran Normalizado
(
n

1
)
S

n
(
n

1
)
S

2
S
2 n
1
2
o

22
(
n

1
)(
n

1
)S
o
2
donde:
n = número de regiones,
2
IN 
I E(I)
Normal Padrão
S
 
w
para
i
j
o 
ij

 para
S

w

w
i
j
1 
ij
ij
2
para
S

w
w
i

j

2 
ij 
ij
95%
2
-1,96
0
1,96

Aleatorio o Agrupado?
% de Ascendencia Asiática
Moran’s I = 0.002
% de Universitarios
Moran’s I = 0.92
Queen
Moran’s I = 0.92
Rook
Moran’s I = 0.92
Distancia (2000m)
Moran’s I = 0.81
K-Neaerst
Moran’s I = 0.91
Indicadores Locales de Asociación Espacial
(LISA)
• Como hemos visto, el estimador de autocorrelación espacial,
Moran (I), fornece un valor único como medida da asociación
espacial.
• Por otro lado, muchas veces es necesario examinar pautas en una
escala más detallada.
• En ese caso, es necesario utilizar indicadores locales de
asociación espacial que puedan ser asociados a diferentes
localizaciones de una variable distribuida espacialmente.
• La utilización de eses indicadores en conjunto con los
indicadores globales, refinan nuestro conocimiento acerca los
procesos que originan la dependencia espacial.
Indicadores Locales de Asociación Espacial
(LISA)
• Índices locales (LISA):
– Permiten evaluar diferentes regímenes espaciales existentes
en la área de estudio.
– Miden la asociación espacial entre una observación i y su
vecindad.
– Requisitos (Anselin)
• La suma de los índices locales debe ser proporcional al
índice global.
• Indicar la significancia de la asociación espacial para cada
observación.
Indicadores Locales de Asociación Espacial
(LISA)
• Los indicadores locales de asociación espacial, producen un valor
específico para cada objeto.
• Eso permite la identificación de:
– “Clusters”: objetos con valores de atributos semejantes,
– “Outliers”: objetos anómalos,
– La presencia de más de un régimen espacial.
• Hay que atender a dos objetivos:
– Permitir la identificación de pautas de asociación espacial significativos;
– Ser una descomposición del índice global de asociación espacial.
Diagrama de Dispersión de Moran
Ese diagrama relata espacialmente el relacionamiento entre los valores del
vector de desviaciones Z (
z i) y zlos valores de los promedios locales
WZ, indicando diferentes regímenes espaciales presentes en los datos.
t
I
Z WZ
WZ
Q4
t
Q1
ZZ
Nesta formulação, I equivale ao
coeficiente de regressão linear, ou
seja a inclinação da reta de regressão.
Reta de regressão de WZ em Z
I é equivalente a tg 

0
Q2
Q3
0
z
Diagrama de Dispersión de Moran
Q1 (val. [+], prom. [+]) y Q2 (val. [-], prom. [-])
Indican puntos de asociación espacial positiva, en
sentido que una localización posee vecinos con
valores semejantes.
WZ
Q4
Q1

0
Q2
Q3 (val. [+], prom. [-]) e Q4 (val. [-], prom. [+])
Indican puntos de asociación espacial negativa, en
sentido que una localización posee vecinos con
valores distintos.
Q3
0
z
Nota:- los puntos localizados en Q3 y Q4 pueden ser vistos
como extremos, tanto por estar lejos de la reta de regressión lineal como por indicar regiones que no siguen el mismo proceso de dependencia espacial de las otras observacioness. Eses puntos marcan regiones de transición entre
regímenes espaciales distintos.
Indicadores Locales de Asociación Espacial
(LISA Maps)
El Diagrama de Dispersión de Moran puede ser presentado en forma de un
mapa coroplético bidimensional, en el cual cada polígono es presentado
indicando su cuadrante en el diagrama de dispersión.
São Paulo
WZ
Q4 = LH
Q1= HH

0
Q2= LL
Atributo considerado
percentagem de idosos
Q3 = HL
0
z
Índice local de Moran
• Formulação:
n
n

I   Ii
I 
i
Ii
i
n
n

Ii 
w ij z i z j
j1
n

zj
j1
n
2
Ii 
zi wzi
m2
Indicadores Locales de Asociación Espacial
(LISA Maps)
•
Indicadores locales Ii de Moran (Anselin, 1996)
•
Indicadores locales Gi e Gi * (Getis e Ord, 1992)
•
O indicador local de Moran Ii es así definido:
Ii > 0 “clusters” de valores similares (altos o bajos).
n
yi  ywij yj  y
Ii 
j1
n
2


y

y
 i
Ii < 0 “clusters” de valores distintos (Ex: una localización
con valores altos rodeada por una vecindad de
valores bajos).
i1
n
•
Normalizando las variables el indicadores reducido a:
n
Ii zi w
z
ij j
j
1
Indicadores Locales de Asociación Espacial
(LISA Maps)
•
De forma similar a los indicadores globales, la significancia del índice local de Moran
(Ii) debe ser evaluado, utilizando hipótesis de normalidad o simulación de distribución
por permutación aleatoria en los valores de los atributos (Anselin, 1995).
•
Una vez determinada la significancia estadística de Moran (Ii) es muy útil generar un
mapa indicando las regiones que presentan correlación local significativamente
diferente del restante de los datos.
•
Ese mapa es denominado por Anselin (1995) de “LISA MAP”.
•
En la generación del LISA MAP, los índices locales Ii son clasificados como:
– no significantes
– con significancia de 95% (1,96), 99% (2,54) e 99,9% (3,2).
Indicadores Locales de Asociación Espacial
(LISA Maps)
•
Los indicadores locales Gi e Gi * (Getis e Ord, 1992):
n
n
w dx
ij
G
(d)
i
w dx
i
j
1
ij
, ji
n
x
j
i
1
G
(d)
i
*
i
j
1
, ji
n
x
j
i
1
donde:
– wij valor en la matriz de proximidad para región i con la región j en función de la distancia.
– xi e xj son los valores de los atributos considerados en las áreas i e j.
– d es distancia entre puntos
– n el número de áreas (polígonos)
•
OBS.: la estadística Gi, incluí en el numerador la suma de todos los valores de todos vecinos dentro
de una distância d del punto considerado. Gi * difiere de Gi por incluir la localización visitada.
Indicadores Locales de Asociación Espacial
(LISA Maps)
não signif.
95% sign.
99% sign.
•
“Regiones” de exclusión/inclusión social em São Paulo
Indicadores Locales de Asociación Espacial
(Moran’s I LISA Maps)
•
“Regiones” de exclusión/inclusión educacional en Montevideo?
Indicadores Locales de Asociación Espacial
(G Local I LISA Maps)
•
“Regiones” de exclusión/inclusión educacional en Montevideo?
Descargar

Clases 4 y 5 * Análisis exploratorio de datos espaciales