Tema 9
Parte práctica
Minería de datos
Dr. Francisco J. Mata
Árboles de decisión en SQL
2008 Analysis Services

Algoritmo híbrido
 Pureza: entropia por defecto (C4.5)
 Clasificación y regresión (CART)
○ Outputs categóricos o continuos
Minería de datos
Dr. Francisco J. Mata
Ejemplo

Output

Input
 Age
 Purchase Bike
 Cars
 Children
 Commute Distance
 Education
 Gender
 Home Owner
 Income
 Marital Status
 Occupation
 Region
Table Analysis Tool Sample
SQL 2005 Analysis Services
Excel Add-ins
Minería de datos
Dr. Francisco J. Mata
Árbol de decisión
3 niveles
Minería de datos
Dr. Francisco J. Mata
Árbol de decisión (VISIO)
Minería de datos
Dr. Francisco J. Mata
Dependencias
Minería de datos
Dr. Francisco J. Mata
Dependencias (VISIO)
Minería de datos
Dr. Francisco J. Mata
Resultados clasificación
Clasificado 1
Clasificado 0
Realmente 1
Verdadero positivo
Falso negativo
Realmente 0
Falso positivo
Verdadero negativo
Minería de datos
Dr. Francisco J. Mata
Matriz de confusión
Total correct:
Total misclassified:
Results as Percentages
Predicted
No
Yes
63,70 %
36,30 %
No(Actual) Yes(Actual)
74,76 %
48,23 %
25,24 %
51,77 %
Correct
Misclassified
74,76 %
25,24 %
Falso positivo
Minería de datos
Dr. Francisco J. Mata
51,77 %
48,23 %
Falso
negativo
Gráfico de precisión (ROC)
ROC: “receiving operating
characteristics”
 A veces llamado como “lift chart”
 Despliega la sensitividad del modelo

 Verdaderos positivos entre el total de
positivos reales por deciles

Requiere una variable binaria
Minería de datos
Dr. Francisco J. Mata
Gráfico de precisión (ROC)
para Purchase Bike=Yes
Lift=SUM(Table10[Classify Purchased Bike])/SUM(Table10[Percentile])=115,82%
Minería de datos
Dr. Francisco J. Mata
Gráfico de ganancia para
Purchase Bike=Yes
Fixed cost
Population
Individual cost
Revenue per individual
Maximum profit
Probability threshold
Minería de datos
Dr. Francisco J. Mata
150000
50000
500
1000
₡2.900.000,00
60,74 %
Gráfico de ganancia para
Purchase Bike=Yes
Minería de datos
Dr. Francisco J. Mata
Reglas para Purchase Bike=Yes con
umbral de probabilidad de 60,74%
Age >= 32 and < 39 (68,42% correcto)
 Age >= 39 and Cars = 1 (60,74%
correcto)

Minería de datos
Dr. Francisco J. Mata
Descargar

Slide 1