CRISP-DM (http://www.crisp-dm.org/)
CRoss Industry Standard Process for Data Mining
Es un modelo de proceso de data-mining que
es independiente de la herramienta, la
aplicación y la industria. La versión 1.0 de la
guía se publicó en 2000
El consorcio que promueve el uso de CRIPS
actualmente está inactivo, pero la metodología
todavía se encuentra en uso
Marcelo A. Soria [email protected]
La metodología CRISP es un modelo jerárquico compuesto por
cuatro niveles de abstracción:
•
•
•
•
Fases: etapas del proceso
Tareas genéricas: tareas generales, completas y estables
Tareas especializadas: especificación de las tareas generales
Instancias de procesos: acciones y decisiones concretas
Fases
Tareas genéricas
Tareas especializadas
Instancias de procesos
Marcelo A. Soria [email protected]
El modelo de referencia y la guía del usuario
Modelo de
referencia
Fases, descripción general de
las tareas del proyecto y salidas
esperadas
Guía del usuario
Instrucciones más detalladas de
cada fase y tarea
Marcelo A. Soria [email protected]
Mapeando tareas generales y específicas
¿Cómo mapear?

Describir y analizar el contexto específico
de una aplicación

Eliminar detalles innecesarios y que no se
apliquen al contexto

Agregar aquellos detalles específicos del
modelo

Especializar las partes genéricas del
modelo de acuerdo al contexto
Marcelo A. Soria [email protected]
Mapeando tareas generales y específicas
Contextos de data mining
Dominio de
aplicación
Area específica de aplicación del proyecto de
data mining (p.ej. bioinformática)
Tipo de problema
Objetivos del proyecto de data-mining (p.ej.,
clasificación)
Aspectos técnicos
Temas específicos de data-mining que se
refieren a las dificultades y particularidades
del proyecto (p.ej., presencia de genes con
secuencias desconocidas)
Técnicas y
herramientas
Herramientas y técnicas de data mining que
se utilizan en el proyecto (p.ej, Blast,
Bioconductor)
Marcelo A. Soria [email protected]
Mapeando tareas generales y específicas
Mapeando con contextos
Mapeando para el presente
Se aplica un modelo de procesos genéricos para resolver
un problema único. Se mapean los procesos genérícos a
tareas específicas para un único uso
Mapeando para el futuro
Los procesos genéricos se especializan continuamente de
acuerdo a los requerimientos de un contexto pre-existente
o se generalizan las experiencias de casos únicos.
Marcelo A. Soria [email protected]
El modelo de referencia
Contiene las fases del proyecto, sus tareas respectivas y
algunas relaciones entre tareas.
A este nivel no es posible identificar todas las relaciones.
Fases
1.
2.
3.
4.
5.
6.
Comprensión del dominio
Comprensión de los datos
Preparación de los datos
Modelado
Evaluación
Despliegue / implementación
Marcelo A. Soria [email protected]
1. Comprensión del dominio
1. Determinar objetivos
1.1 Información general del dominio
1.2 Definir objetivos
1.3 Definir el criterio de éxito
2. Evaluar la situación
2.1 Recursos
2.2 Requerimientos, supuestos, condicionantes
2.3 Condiciones de riesgo y contingencias
2.4 Terminología
2.5 Determinar costos y beneficios
3. Objetivos de data mining
3.1 Determinar los objetivos
3.2 Definir el criterio de éxito
4. Producir el plan del proyecto
4.1 Redacción del proyecto
4.2 Evaluación inicial de técnicas y herramientas
Marcelo A. Soria [email protected]
2. Comprensión de los datos
1. Colección inicial de datos
Informe inicial de colección de datos
2. Describir los datos
Informe de descripción de datos
3. Exploración de datos
Informe de exploración de datos
4. Verificar la calidad de los datos
Informe de calidad de los datos
Marcelo A. Soria [email protected]
3. Preparación de los datos
1. Obtener / Seleccionar el conjunto inicial de datos
2. Limpiar datos
3. Construir datos
Crear atributos derivados
Crear nuevos registros
Aplicar transformaciones
4. Integración de los datos
5. Formateo de los datos
Conjunto de datos
listo para el análisis
Marcelo A. Soria [email protected]
4. Modelado
1. Seleccionar la técnica de modelado
2. Generar el diseño de prueba
Crear conjuntos de entrenamiento y de prueba
3. Construir el modelo
Determinar parámetros del modelo
Modelar
Describir el modelo
4. Analizar el modelo
Evaluación (comportamiento, ranking de modelos)
Reajuste de los parámetros del modelo
Modelos
Marcelo A. Soria [email protected]
5. Evaluación
1. Evaluación de resultados
Análisis de los resultados de DM
Selección de modelos
2. Proceso de revisión
3. ¿Próximos pasos?
Lista de posibles acciones
Decisiones
Marcelo A. Soria [email protected]
5. Despliegue / Implementación
1. Plan de despliegue / implementación
Análisis de los resultados de DM
Selección de modelos
2. Plan de monitoreo y mantenimiento
Informe de descripción de datos
3. Preparación del informe final
4. Revisión del proyecto
Proyecto terminado
Marcelo A. Soria [email protected]
Data Mining Group (http://www.dmg.org/)
Es otra iniciativa, en este caso activa, para establecer
estandares en DM.
Este consorcio no intenta producir una metodología de
data-mining, sino establecer estandares para las
herramientas y el modelado.
Su producto principal es el Predictive Model Markup
Language (PMML)
PMML permite describir en forma estandarizada con
esquemas XML un modelo de análisis, que luego se puede
implementar con cualquier herramienta que lo soporte
Algunos participantes del consorcio: IBM, MicroStrategy,
SAS, SPSS, Salford Systems, NASA, VISA, etc..
Descargar

Diapositiva 1