Universidad Tecnológica Metropolitana
Escuela de Informática
Minería de Datos y Lógica Difusa, una
aproximación a la predicción de la
Contaminación por MP10
Trabajo de Titulación para optar al título de Ingeniero Civil en
Computación, mención Informática
Profesor Guía:
Santiago Zapata Cáceres
Alumnos:
Jhons Cortez Torres
Carlos Reyes Pastore
Índice



Introducción
Objetivos
Estado del Arte






Contaminación Ambiental
Análisis Experimental




La Información
El Conocimiento
Minería de Datos
Lógica Difusa
Modelo de Minería de Datos
Modelo Difuso
Resultados Obtenidos
Conclusiones
Introducción



El volumen de la información que manejan las
empresas crece día a día.
Se hace necesario el transformar la Información en
Conocimiento que sea útil para la toma de
decisiones.
Surgen campos de investigación relacionados con la
búsqueda de patrones ocultos en grandes volúmenes
de datos y el modelado de datos imprecisos (Minería
de Datos y Lógica Difusa).
Objetivos

Generales:



Proceso de KDD.
Lógica Difusa.
Específicos:





Minería de Datos tradicional.
Modelo Difuso.
Controlador Difuso.
Análisis de resultados.
Comparación de enfoques.
Estado del Arte
Estado del Arte

Información.





Shannon (1948), Teoría de la Información.
Davenport y Prusak (1999), Diferencias entre Datos e
Información.
Empresa SAS, Propone modelo de evolución de la
Información.
Brown (2006) Open Group CEO, Nueva revolución de la
Información.
Conocimiento.

Davenport y Prusak (1999), Definición de conocimiento en
base a Teoría de Recursos y Capacidades
Estado del Arte

Minería de Datos.


Raíces de Minería de Datos.




Tiene por objetivo, el encontrar patrones ocultos
en grandes volúmenes de información acumulada
(Histórica).
Estadística Clásica.
Inteligencia Artificial.
Machine Learning.
Principales exponentes: Fayyad, PiatetskyShapiro y Smyth (1996).
Estado del Arte


Proceso de KDD (Knowledge Discovery in Databases)
Métodos de Minería de Datos:

Métodos Descriptivos: Reglas de Asociación

Métodos Predictivos: Árboles de Decisión
Estado del Arte


Software de Minería de Datos:
 Clementine.
 WEKA.
 SQL Server (Analysis Services).
 IBM Intelligent Miner.
Áreas relacionadas con Minería de Datos
CRM
OLAP
Web Mining
Minería
de Datos
Data Warehousing
Text Mining
Lógica Difusa
Estado del Arte

Lógica Difusa.




Manejo de Información Imprecisa.
Aristóteles, precursor de teorías de lógica y
matemáticas.
Jan Lukasievicz (Siglo XX), Propone Lógica
Triple-Evaluada como primer acercamiento.
Zadeh (1965), Teoría de Conjuntos Difusos.
Estado del Arte

Controladores Difusos.



Principal aplicación en Electrónica y Control.
Algoritmos de Generación de Reglas Difusas: Wang & Mendel y
Cordón y Herrera.
Componentes de un Controlador Difuso.
Primer Controlador Difuso
creado por Mamdani y
Assilian (1975)
Caso mas conocido Metro
de Sendai, Japón (1987)
Estado del Arte

Aplicaciones de Lógica Difusa:



Medina (1994), Modelo GEFRED.
Fuzzy C-Means, Bezdek (1973), Miyamoto y Mikaidono
(1997).
Reglas de Asociación Difusa, Kuok (1998).
Contaminación Ambiental


Factores que inciden en la contaminación en Santiago
de Chile:
 Fuentes emisoras de contaminantes.
 Condiciones Geográficas.
 Condiciones Meteorológicas.
Consecuencia: Efectos negativos sobre la salud de las
personas.
Contaminación Ambiental

Red MACAM

Índice ICAP
Las Condes
Pudahuel
La Paz
Providencia
Cerrillos
Parque
O’Higgins
La Florida
El Bosque
Monitoreo de Contaminantes
Los episodios de Alerta, Preemergencia y
Emergencia se detallan en el PDDA
Modelo Predictivo actual: Cassmassi
• Utiliza Regresiones Lineales Múltiples
• Acierto Total de 71%
Análisis Experimental
Análisis Experimental




Se utilizaron datos relativos a la contaminación ambiental,
medidos por la red MACAM (Fuente SESMA).
Mediante Minería de Datos Tradicional se obtuvo un modelo
basado en Árboles de Decisión y otro en Reglas de Asociación.
Mediante Lógica Difusa se obtuvo un modelo de inferencia
difusa basado en Reglas de Comportamiento (Reglas difusas).
Se Consideró solamente el MP10 y variables meteorológicas en
los modelos (Temperatura, Humedad, Velocidad del Viento,
Dirección del Viento).
Modelos obtenidos
(Minería de Datos tradicional)
Árbol Estación B
Reglas de Asociación Estación B
Consecuente”
Regular”
Soporte
30%
Software Utilizado: Clementine
Generación de Reglas Difusas
Algoritmo de Wang y Mendel
Datos


Paso 1: Generar Particiones Difusas
Paso 2: Generar Reglas Difusas
 μ3(57) = 0.6
MAX(μ3, μ4) = 0.6 = μH  “Humedad Media”
 μ4(57) = 0.4
Generación de Reglas Difusas
Algoritmo de Wang y Mendel

Regla Generada
IF H=Media AND T=Media AND D=Suroeste AND V=MBaja AND
MP10=Bueno THEN MP10=Bueno

Paso 3: Asignar Grado a cada Regla
μH * μT * μD * μV * μMP * μMP = 0.6 -> Grado de la Regla
Para Reglas con mismo antecedente y distinto
consecuente se conserva la de mayor grado


Paso 4: Crear una base de Reglas Difusas
Paso 5: Determinar un valor numérico de salida (Método
de Desfuzificación)
Generación de Reglas Difusas

Ejemplo de Reglas Generadas (Wang y Mendel)
Generación de Reglas Difusas
Algoritmo de Cordón y Herrera

Paso 1: Generar Particiones Difusas

Paso 2: Se genera un subespacio de Reglas Difusas para cada
ejemplo numérico.
Generación de Reglas Difusas
Algoritmo de Cordón y Herrera

Reglas obtenidas por algoritmo
Paso 3: Se determina la regla
más representativa mediante la
“Función de Valoración de la
Regla” (FVR).
Wang y Mendel

Paso 4: La regla elegida es la
que posea mayor FVR.
Cordón y Herrera
Modelo de Lógica Difusa
Sistema de Inferencia
Software Utilizado: XFUZZY
Modelo
Resultados obtenidos

Algoritmo de Wang y Mendel

Algoritmo de Cordón y Herrera
Aciertos
Caso Cordón y Herrera
155
Fallos
Porcentaje de acierto
345
31 %
Conclusiones




Los modelos presentados presentan una interesante alternativa
a los existentes, debido a la reducción de la complejidad en el
diseño.
La Lógica Difusa, resulta de gran utilidad en problemas que no
poseen una solución de tipo lineal pues se basan en Heurísticas.
La precisión del Modelo Difuso puede mejorarse aumentando los
conjuntos difusos por variable o incorporando alguna medida de
valoración de Reglas Difusas.
Las reglas obtenidas por Wang & Mendel y Cordón & Herrera,
son mucho más útiles cuando se cuenta con un número menor
de datos en comparación con la Minería Tradicional.
Líneas Futuras de
Investigación



Considerar variables referidas a la medición de gases
como por ejemplo, el O3 o el CO.
Realizar una redefinición de los conjuntos difusos de
cada variable.
Agregar alguna medida de valoración de Reglas de
Asociación Difusa, como la Confianza, Soporte o
Factor de Certeza (Algoritmo de Kuok).
Fin de la Presentación
Particiones Difusas

Sea X un grupo de elementos, y sea x un elemento de ese grupo,
un conjunto difuso A en X se define como un conjunto de pares
ordenados como sigue:
A = {(x, μA(x)) / x  X}, μA(x) función de pertenencia.


Ejemplo: sea X = {4, 8, 15….. 32} las mediciones de las
temperaturas para la ciudad de Santiago de Chile (x en grados
Celsius).
Y sea “A” el conjunto “Temperatura Alta” :
Particiones Difusas
μA(x) =
0
(x-22)/4
1
si x < 22
si 22 ≤ x < 26
si x ≤ 26
A = {(22,0), (24,0.5), (25,0.75)…… (30,1)},
en general A = {(x, μA(x))}
Notación por
Comprensión
Notación por
Extensión
Representación
Gráfica
Volver
Funciones de Pertenencia
Volver
Operaciones

Intersección:
μA∩B(x) = min {μA(x), μB(x)} x  X.

Unión
μA(x) U μB(x)) = max {μA(x), μB(x)} x  X.

Complemento:
μCA(x) = 1 - μA(x) x  X
Operador

T – normas:
Una T-norma es un operador de conjuntos difusos que satisface
las propiedades:
x*y=y*x
(x * y) * z = (x *(y * z))
si x < y y z < w entonces x * z < y * w
x*1=x


Las T-normas se utilizan para definir los conectivos AND en las
reglas difusas, la función Min(A,B) es una T-norma.
También existen las S-normas, utilizadas en los conectivos OR
de las reglas difusas los cuales también satisfacen una serie de
propiedades
Ejemplos de operaciones
Volver
Conjuntos
Unión
Intersección
Complemento
Variables lingüísticas 1

Variable lingüística: Palabras u oraciones en lenguaje natural,
por ejemplo, para la variable Temperatura:
<X, L, x, M>
X: nombre de la variable, por ejemplo Temperatura.
L: valores lingüísticos que puede tomar la variable lingüística,
{Baja, media, alta)
x : es el dominio numérico donde está definida la variable
lingüística X llamado universo de discurso por ejemplo [-5, 35].
M: es la función de pertenencia o bien la función que asigna el
valor numérico.
Variables lingüísticas 2

X = Temperatura.
L = {Baja, Normal, Alta, Muy alta}
x = [0,42]

M = grupo de funciones de pertenencia.


Volver
Determinación del valor
numérico de salida



Volver
Una vez obtenido el conjunto de salida es necesario
determinar un valor en concreto de tipo numérico.
Para ello se utiliza algún método de Defuzzyficación.
Por ejemplo: Método del Centro de Gravedad.
Descargar

dm fl controlador difuso szc - Extraccion de Conocimiento KDD