Metodologías para
Minería de Datos
Tema 4
Dr. Francisco J. Mata
1
Temario
► Introducción
► Metodología
CRISP
► Metodología de Berry y Linoff
► Metodología SEMMA
Dr. Francisco J. Mata
2
Introducción
► Minería
de datos es una forma de aprender
del pasado para hacer mejores decisiones
en el futuro
► Una metodología está basada en mejores
prácticas
Dr. Francisco J. Mata
3
Metodologías de minería de datos
► Tratan
de evitar dos resultados indeseables
en el proceso de aprendizaje
 Aprender cosas que no son ciertas
 Aprender cosas que aunque ciertas no son
útiles
Dr. Francisco J. Mata
4
Aprender cosas que no son
ciertas
► Más
peligroso que aprender cosas que no
son útiles
 Decisiones importantes pueden estar basadas
en información o conocimiento incorrecto
Dr. Francisco J. Mata
5
Problemas que llevan a
conclusiones falsas
► Patrones
en los datos pueden no
representar reglas
► El modelo desarrollado puede no reflejar la
población relevante
► Los datos pueden estar en un nivel
equivocado de detalle
Dr. Francisco J. Mata
6
Patrones en los datos pueden no
reflejar reglas
► Los
seres humanos dependen tanto de patrones
en sus vidas que tienden a verlos aunque no
existan
 Ejemplos de patrones
► Alternancia
de día y noche
► Estaciones
► Horas
y días de programas en la TV
Dr. Francisco J. Mata
7
Patrones en los datos pueden no
reflejar reglas
►
El desafío de la minería de datos es encontrar patrones
que tengan valor predictivo
 El partido que no tiene la presidencia tiende a ganar más puestos
en el Congreso durante las elecciones de medio periodo
► Razones
políticas
 Cuando la Liga Americana gana la Serie Mundial, los Republicanos
ganan la Casa Blanca
► No
hay razón aparente
 En las elecciones presidenciales, el hombre más alto gana
► Desde 1945
 Carter versus Ford
 Gore versus Bush
Dr. Francisco J. Mata
8
El modelo desarrollado puede no
reflejar la población relevante
► Para
hacer alguna predicción se crea un
modelo de la situación
► Este modelo se desarrolla a partir de una
muestra de la población
 Muestras sesgadas
Dr. Francisco J. Mata
9
Los datos pueden estar en un
nivel equivocado de detalle
¿Cayeron las ventas en octubre?
Dr. Francisco J. Mata
10
Aprender cosas que aunque
ciertas no son útiles
► Aprender
cosas que ya son conocidas
► Aprender cosas que no pueden ser
utilizadas
Dr. Francisco J. Mata
11
Aprender cosas que ya son
conocidas
► Muchos
de los patrones en los datos
representan cosas que ya conocemos
 Personas retiradas no responden a ofertas para
planes de retiro
 Personas que viven donde no hay torres de
celular tienden a no comprar téléfonos celulares
Dr. Francisco J. Mata
12
Aprender cosas que ya son
conocidas
► Aprender
cosas que ya conocemos tiene sin
embargo un propósito útil
 Demuestra que la minería de datos está
funcionando y que los datos son
razonablemente precisos
Dr. Francisco J. Mata
13
Aprender cosas que no pueden
ser utilizadas
► La
minería de datos puede descubrir relaciones
que son tanto ciertas como desconocidas per
difíciles de utilizar
 Problemas regulatorios
► Historia
de crédito de un cliente puede predecir futuros
reclamos de seguro, pero la ley no permite discriminar a los
clientes
 No se puede cambiar el ambiente en que se opera
► Un
producto puede ser más apropiado para ciertos climas que
otros pero no se puede cambiar el clima
► Un servicio puede ser peor en ciertas condiciones topografía
pero no se puede cambiar estas condiciones
Dr. Francisco J. Mata
14
CRISP-DM
► Cross
Industry Standard Process for Data
Mining
 Desarrollada en 1996 por
► Daimler
Benz (ahora Daimler Chrysler)
► ISL (ahora parte de SPSS), que lanzara en 1994 Clementine
(software para minería de datos)
► NCR creador de Teradata (software para bodega de datos)
 Independiente de la herramientas de minería de datos
utilizados
 Guía CRISP-DM Versión 1.0 (http://www.crispdm.org/CRISPWP-0800.pdf)
Dr. Francisco J. Mata
15
Divisiones de CRISP-DM
Dr. Francisco J. Mata
16
Fases de CRISP-DM
Dr. Francisco J. Mata
17
Fases de CRISP-DM
► Entendimiento
del negocio
 Comprender los objetivos y requerimientos del
proyecto desde la perspectiva del negocio
 Este conocimiento es luego convertido en la
definición de un problema de minería de datos y
un plan preliminar es desarrollado para alcanzar
estos objetivos
Dr. Francisco J. Mata
18
Fases de CRISP-DM
► Entendimiento
de los datos
 Recolección inicial de datos
 Continúa con actividades para
►Familiarizarse
con los datos
►Identificar problemas con la calidad de los datos
►Descubrir percepciones de su naturaleza interna o
detectar subconjuntos interesantes para formar
hipótesis
Dr. Francisco J. Mata
19
Fases de CRISP-DM
► Preparación
de datos
 Actividades para construir el conjunto de datos
final, el cual será utilizado como entrada a las
herramientas de modelaje
 Las tareas se pueden aplicar múltiples veces y
sin un orden pre-establecido
►Incluyen
extracción, transformación y carga (ETL)
Dr. Francisco J. Mata
20
Fases de CRISP-DM
► Modelado
 Varias técnicas de modelado son seleccionadas
y aplicadas y sus parámetros calibrados a
valores óptimos
►Existen
varias técnicas de minería de datos que se
pueden aplicar a un mismo problema
 Dichas técnicas tienen diferentes requerimientos de datos
haciendo en muchas ocasiones necesario volver a la etapa
de preparación de datos
Dr. Francisco J. Mata
21
Fases de CRISP-DM
Modelado
Dr. Francisco J. Mata
22
Fases de CRISP-DM
► Evaluación
 Determina si el modelo construido satisface los
objetivos del negocio
►¿Existen
aspectos del negocio que no hayan sido
considerados suficientemente?
 Evaluar resultados
►Resultados=Modelos+Descrubimientos
Dr. Francisco J. Mata
23
Fases de CRISP-DM
► Aplicación
del modelo o sus resultados
 Tan simple como generar un reporte o tan
complejo como implementar un proceso
continuo de minería de datos a través de la
empresa
Dr. Francisco J. Mata
24
Tareas genéricas
Dr. Francisco J. Mata
25
Tareas genéricas y salidas para
entender el negocio
Dr. Francisco J. Mata
26
Tareas genéricas y salidas para
entender los datos
Dr. Francisco J. Mata
27
Tareas genéricas y salidas para
preparación de datos
Dr. Francisco J. Mata
28
Tareas genéricas y salidas para
modelado
Dr. Francisco J. Mata
29
Tareas genéricas y salidas para
evaluación
Dr. Francisco J. Mata
30
Tareas genéricas y salidas para
aplicación del modelo o sus resultados
Dr. Francisco J. Mata
31
Fases, tareas, salidas, actividades
► Guía
del usuario para CRISP-DM (página 35)
Dr. Francisco J. Mata
32
Metodología de Berry y Linoff
Dr. Francisco J. Mata
33
Metodología SEMMA
► Desarrollada





por SAS
Sample: Muestreo
Explore: Exploración
Modify: Modificar
Model: Modelaje
Assess: Evaluar
► Apoyada
por el Enterprise Data Miner
Dr. Francisco J. Mata
34
Comparación metodologías
Traducir probl. negocio
en probl. minería
Seleccionar datos
Arreglar problema datos
Transformar datos
Construir modelo
Evaluar modelo
Entendimiento del
negocio
Entendimiento de los
datos
Preparación de datos
Modelaje
Evaluación
(objetivos del negocio)
Puesta en operación
Evaluar resultados
Berry y Linoff
Muestro
Exploración
Modificación
Modelaje
Evaluación
SEMMA
Puesta en operación
CRISP
Dr. Francisco J. Mata
35
Descargar

Metodologías para Minería de Datos