Aplicaciones de data mining en química ambiental:
Detección de sustancias usadas como armas químicas
Basado en:
J. L. Solka, E. J. Wegman, and D. J. Marchette, "Data Mining Strategies for the
Detection of Chemical Warfare Agents," Statistical Data Mining and Knowledge
Discovery, Hamparsum Bozdogan, Editor, 2003, pp. 57-92.
Agentes a detectar:
GA (taburn)
GB (sarín)
Clase G, o clase 0
GD (sorman)
GF (organofosforado c/fluoruro)
GDT
VX (agente V)
Clase V, o clase 1
HD (gas mostaza)
HDT
L (Lewisite)
Clase H, o clase 2
Fondo
Clase 3
Los sustancias químicas mojan
unas tiras de papel reactivo y
producen un color más o menos
característico.
Ese color se representa como una
curva de intensidades a diferentes
longitudes de onda, es el llamado
espectro.
Existen equipos para barrer partes
del espectro, o se pueden leer
zonas discretas llamadas bandas
Datos:
Set de entrenamiento:
2,106 pixels coloreados por agente real o simulado para
la clase G.
569 observaciones para la clase V
1,088 observaciones para la clase H
1,0473 para la clase fondo
Set de prueba
13,889 observaciones para la clase G
2,318 observaciones para la clase V
6,662 para H
1.845.201 observaciones para el fondo
Análisis exploratorio: histogramas univariados
para cada banda o variable
B1
B4
B8
B11
B2
B5
B9
B12
B3
B6
B10
B13
B7
Análisis exploratorio: gráfico de coordenadas
paralelas para todos los datos
Gráfico de coordenadas paralelas, set de entrenamiento
Separación de los puntos utilizando las bandas
que corresponden al rojo, azul y verde
Estimación de modelos de densidad
Estimaciones de densidad kernel [no paramétrico]
Modelos de mezcla (mixture models) [semi-paramétrico]
Estimación de densidad por mezclas adaptativas [no paramétrico]
Shifted Hats Iterated Procedure (SHIP) [híbrido]
obtener clasificadores a partir de la
determinación de regiones discriminantes
Clasificadores
k-vecinos más próximos
CART
Estimación de la densidad de probabilidad para las bandas
7 y 11, utilizando el método SHIP
Estimación de la densidad de probabilidad conjunta para las bandas 7 y
11, utilizando kernels producto, y cálculo de las regiones discriminantes
CART utilizando las 13 bandas
Ranking de los
diferentes
clasificadores
r0, r1, r2, r3
corresponde a un reetiquetado de los
pixels de acuerdo a
los valores del
vecindario
Conclusiones
En palabras de los autores:
“..we recommend that one employ the CART model based on the full
feature set with a spatial radius of 3. This system provides probability of
detection that exceeds .85 while obtaining a false alarm rate less than
.12.”
“Even given this improvement the performance of the fielded system can
be described as mediocre at best. This performance however may be
sufficient depending on the situation at hand. This lackluster performance
is a trade-off for a need to rapidly field the system in order to be prepared
for a very real threat.”
Discusión
¿Por qué los autores califican al rendimiento del
sistema como mediocre?
¿Qué opinarían distintos tipos de usuarios?
¿Qué requerimientos desde el punto de vista de
datamining debería tener una aplicación similar en
el campo civil? Por ejemplo, para monitoreo de
actividades industriales, como papeleras
Descargar

Slide 1