Data Mining
Hugo M. Castro
Data Mining

Es un proceso automático que permite
extraer esquemas interesantes, no
triviales y previamente desconocidos,
de los datos y descubrir relaciones
entre variables
Data Mining

Trabajo conjunto






Negocios
Especialista
Problema puntual
Datos al nivel más detallado
No un solo enfoque
No una sola solución
Data Mining
Dos tipos de modelos
 Predictivos



Clasificación
Regresión
Descriptivos


Asociación
Segmentación
Data Mining
Modelos Predictivos
 Clasificación

Predice un valor discreto



Sí / No
Alto / Mediano / Bajo
Regresión

Predice un valor continuo


Importes
Cantidades
Data Mining
Modelos Descriptivos
 Asociación

Análisis de Canasta



Soporte
Confianza
Segmentación
Modelos de Data Mining

Entrenamiento




Supervisado
No supervisado
Prueba
Evaluación
Modelos de Data Mining
PRUEBA
De los casos históricos disponibles se
destina una cierta cantidad para
entrenar el modelo y se reserva una
porción de ellos para probar el modelo
Se presentan los casos como si fueran
nuevos y se coteja la respuesta del
modelo con los valores reales
Modelos de Data Mining
Matriz de confusión
Cantidad de casos
Predicción
No
Sí
Sí
455
29
No
32
384
Matriz de confusión
Sobre un total de 900 casos el modelo
predijo
455 como sí y en realidad era sí
384 como no y en realidad era no
839 predicciones correctas (93,2%)
El resto (6,8%) los predijo en forma
incorrecta
PRECISION
Modelos predictivos





Los atributos (variables) son columnas de la
tabla
Variables de entrada (atributos descriptivos)
Variable objetivo (atributo objetivo)
El entrenamiento tiene por objeto descubrir
las relaciones entre las variables de entrada y
la variable objetivo
En producción usa ese conocimiento para
predecir el valor de la variable objetivo
Modelos predictivos
Pautas para la evaluación
 Precisión


Interpretabilidad


No hay un algoritmo que sea siempre más preciso
que otro u otros
Facilidad para interpretar los resultados
Velocidad


Entrenamiento
Producción
Modelos de clasificación





Predicen el valor de un atributo con una
cantidad finita de valores posibles
Bayes
Redes Neuronales
K-vecinos (CBR)
Árboles de decisión
Bayes
Construcción y entrenamiento
 De los 10 casos hay 6 con calificación B y 4
con calificación M.
 Sin saber nada más, la probabilidad a priori
de que la calificación sea B es 0,6 y de que
sea M es 0,4
 La información sobre Nivel de Ingresos, Nivel
de Deudas y si es casado o no apunta a
calcular la probabilidad a posteriori de que
sea calificado B o M.
Bayes




Nivel de Ingresos
De los que tienen Nivel de Ingresos A
hay 3 B y 0 M.
De los que tienen Nivel de Ingresos M
hay 2 B y 1 M.
De los que tienen Nivel de Ingresos B
hay 1 B y 3 M.
Bayes



De los 6 B hay 3 que tienen Nivel del
Ingresos A. Luego P(B/Ingresos A) = 3/6 =
0.5
De los 6 B hay 2 que tienen Nivel del
Ingresos M. Luego P(B/Ingresos M) = 2/6 =
0.33
De los 6 B hay 1 que tiene Nivel del Ingresos
B. Luego P(B/Ingresos B) = 1/6 = 0.17
Bayes




De la misma manera
P(M/Ingresos A) = 0
P(M/Ingresos M) = 0.25
P(M/Ingresos B) = 0.75
Bayes
Nivel de Deudas
 De los que tienen Nivel de Deudas A
hay 1 B y 3 M.
 De los que tienen Nivel de Deudas M
hay 3 B y 0 M.
 De los que tienen Nivel de Deudas B
hay 2 B y 1 M.
Bayes
Calculamos las probabilidades de la misma
forma que en el caso anterior
 P(B/Deudas A) = 0.17
 P(B/Deudas M) = 0.50
 P(B/Deudas B) = 0.33
 P(M/Deudas A) = 0.75
 P(M/Deudas M) = 0
 P(M/Deudas B) = 0.25
Bayes
Casado
De los que tienen Casado sí hay 4 B y 1 M
 De los que tienen Casado no hay 2 B y 3 M
Con lo que
 P(B/Casado sí) = 0.67
 P(B/Casado no) = 0.33
 P(M(Casado sí) = 0.25
 P(M/Casado no) = 0.75

Bayes
Frecuencias
Bueno
Nivel de
ingresos
Alto
Mediano
Bajo
Probabilidades
condicionales
Malo
Bueno
Malo
6
3
4
0
0,60 0,40
0,50
0
2
1
1
3
0,33 0,25
0,17 0,75
Bayes
Frecuencias
Bueno
Nivel de
Deudas
Alto
Mediano
Bajo
Casado
Sí
No
Probabilidades
condicionales
Malo
Bueno
Malo
6
1
4
3
0,60 0,40
0,17 0,75
3
2
4
2
0
1
1
3
0,50
0
0,33 0,25
0,67 0,25
0,33 0,75
Bayes
PRODUCCION
Tomás tiene
 Nivel de Ingresos A
 Nivel de Deudas B
 Casado no
Bayes
La probabilidad a posteriori de que Tomás
tenga una calificación B sale del producto de
 P(B) = 0.6
 P(B/Ingresos A) = 0.5
 P(B/Deudas B) = 0.33
 P(B/Casado no) = 0.33
 Esta probabilidad resulta 0.6 x 0.5 x 0.33 x
0.33 = 0.03267
Bayes






La probabilidad a posteriori de que Tomás
tenga una calificación M sale del producto de
P(M) = 0.4
P(M/Ingresos A) = 0
P(M/Deudas B) = 0.25
P(M/Casado no) = 0.75
Esta probabilidad resulta 0.4 x 0 x 0.25 x 0.75
=0
Bayes
Como la probabilidad de tener calificación
B es mayor que la de tener M, resulta
que
El modelo predice queTomás va a tener
calificación B
Bayes
Por su parte Lucía tiene
 Nivel de Ingresos M
 Nivel de Deudas B
 Casado sí
Bayes
En base a estos datos, Lucía tiene


probabilidad de calificación B igual a 0,6
x 0,33 x 0,33 x 0,67 = 0,04378
probabilidad de calificación M igual a
0,4 x 0,25 x 0,25 x 0,25 = 0,00625
Bayes
Como la probabilidad de tener calificación
B es mayor que la de tener M, resulta
que
El modelo predice queLucía va a tener
calificación B
Bayes
A su vez Horacio tiene
 Nivel de Ingresos B
 Nivel de Deudas A
 Casado sí
Bayes
En base a estos datos, Horacio tiene


probabilidad de calificación B igual a 0,6
x 0,17 x 0,17 x 0,67 = 0,0116
probabilidad de calificación M igual a
0,4 x 0,75 x 0,75 x 0,25 = 0,0562
Bayes
Como la probabilidad de tener calificación
M es mayor que la de tener B, resulta
que
El modelo predice que Horacio va a tener
calificación M
Redes Neuronales
COMPONENTES
CONEXION
NODO
W
FACTOR DE PONDERACION
NODO
Redes Neuronales
X1
NODO
ENTRADAS
w1
x2
w2
w3
x3
v
SALIDA
Puede ser más
de una, pero
todas tienen el
mismo valor
Redes neuronales




Estructura
Nodos
Conexiones
Factores de ponderación
Perceptrón de tres capas





Aprendizaje supervisado
Se presentan los casos de
entrenamiento con sus respuestas
Errores
Cambios en los factores de ponderación
Prueba
Perceptrón de tres capas
wji
wkj
Datos de
entrada
Respuesta
Respuesta
deseada
Corrección de
factores de
ponderación
Entrada
Intermedia
Salida
K-vecinos

También llamada CBR




Razonamiento basado en casos
Resuelve un problema tomando en cuenta
casos parecidos
Función de vecindad o de distancia
Función de combinación
K-vecinos




El modelo de los K-vecinos no tiene
fase de entrenamiento
Entra directamente en la fase de
producción
K indica la cantidad de casos parecidos
(vecinos) que se van a considerar
En este caso vamos a tomar K = 3
K-vecinos
Función de vecindad
 para nivel de ingresos y nivel de deudas





0 si son iguales
1 si uno tiene A y el otro M
1 si uno tiene M y el otro B
2 si uno tiene A y el otro B
para casado


0 si son iguales
1 si son distintos
K-vecinos
Función de vecindad



Para cada caso a resolver se confronta
con todos los casos testigo
Se suman los 3 valores
Se eligen los 3 (K) casos testigo que
tienen el menor valor de esta función
Jorge
Carlos
Andrea
Débora
Sergio
Vanesa
Mario
Gala
Paola
Román
Tomás
Lucía
Horacio
021 =3
120=3
200=2
120 =3
021=3
101=2
010=1
111=3
211=4
100=1
001=1
121=4
220=4
121=4
001=1
211=4
110=2
010=1
221=5
120=3
000=0
200=2
101=2
021=3
001=1
100=1
220=4
111=3
010=1
110=2
K-Vecinos






Tomás tiene como vecinos a
Andrea (1), Débora (1), Paola (1)
Lucía tiene a
Débora (1), Paola (1), Román (1)
Y Horacio a
Sergio (1), Vanesa (1), Mario (0)
K-Vecinos
Función de combinación
 Vamos a tomar como valor de la
predicción sobre la calificación aquella
que corresponda a la mayoría de los
vecinos.
 Ejemplos
 Vecinos: B B M - Predicción: B
 Vecinos: M B M - Predicción: M
K-Vecinos
PREDICCIONES
 Andrea B, Débora B, Paola B
 Predicción para Tomás: B
 Débora B, Paola B, Román B
 Predicción para Lucía: B
 Sergio M, Vanesa B, Mario M
 Predicción para Horacio: M
Árboles de decisión



ID3
Elección de los mejores separadores
Entropía


Mide la incertidumbre sobre un suceso
Entropía (S) = Σi –pi log2 pi
Arbol de decisión
Niv. ingresos
A
B
M
B
Niv. deuda
A
M
M
M
Casado
B
No
Sí
B
Niv. deuda
A
M
M
B
M
B
B
Arbol de decisión
Niv. ingresos
A
B
M
B
Niv. deuda
A
M
M
M
Casado
B
Sí
B
Niv. deuda
Tomás B
Lucía
A
B
Horacio M
No
M
M
B
M
B
B
Modelos de regresión





El más difundido es una versión del
modelo de los k-vecinos
Función de vecindad
Equilibrio
Función de combinación
Mayor peso de los más cercanos
Los compradores
Función de vecindad
 Debe ser un coeficiente que sea mayor
cuando el caso es más cercano
 Deben influir en él en forma pareja los
valores de las variables de entrada
(sexo y edad)
 Tomamos como vecinos a los cinco
casos
Los compradores
Función de vecindad
 Para la edad




abs (edad del caso – edad testigo) / rango
máximo de edades
Ejemplo: para Natalia
|45 – 33| / 25 = 0,48
Para el sexo:


0 si son iguales
1 si son distintos
Los compradores
FUNCIÓN DE COMBINACIÓN
 El valor que vamos a adjudicar a la
predicción del monto de la compra de
María es la suma de los montos de
compra de los casos testigo ponderada
por el coeficiente obtenido
Los compradores
Edad
Sexo
Total
2 - Total
Norm.
Compra
Aporte
Carla
0,72
0
0,72
1,28
0,24
190
45,6
Fernando
0,24
1
1,24
0,76
0,14
640
89,6
Alberto
0,28
1
1,28
0,72
0,14
750
105,0
Natalia
0,48
0
0,48
1,52
0,29
500
145,0
0
1
1
1
0,19
400
76,0
5,28
1,00
Oscar
TOTALES
461,2
Los compradores



La predicción de la compra de María es
461,2
En números redondos
460
Pautas de evaluación

Precisión




Proporción de aciertos en la matriz de confusión
No hay un algoritmo que siempre sea más preciso
que otros
Interpretabilidad
Velocidad


Entrenamiento
producción
Modelos descriptivos




No realizan predicciones
Analizan otros aspectos de los datos
Asociación
Segmentación
Modelo de asociación





Análisis de canasta
¿La venta de Cordon Bleu incide sobre
la venta de papas fritas?
Búsqueda sistemática
Umbral de soporte
Umbral de confianza
Análisis de Canasta con un
Modelo de Asociación





Caso 1: Dos productos
Cantidad total de tickets: 500.000
Cantidad de tickets que contienen cerveza:
30.000
Cantidad de tickets que contienen pañales:
20.000
Cantidad de tickets que contienen pañales y
cerveza: 10.000
Soporte y confianza




Valores clave
Soporte (p+c) =10.000/500.000 = 0,02. Esto
significa que el 2% de todos los clientes
compra pañales y cerveza
Confianza (pc) = (p+c)/p = 10.000/20.000
= 0,50. O sea que el 50% de los que
compran pañales compran cerveza
Confianza (cp) = (p+c)/c = 10.000/30.000
= 0,33. O sea que el 33% de los que
compran cerveza compran pañales
Confianza esperada y Empuje
(lift)





Confianza esperada (c) = 30000/500000 =
0,06 = 6%
Empuje (lift) de los pañales sobre la cerveza
E(pc) = confianza (pc) / confianza
esperada ( c )
Vemos que el empuje de los pañales sobre la
cerveza es 50/6 = 8,33
Esto significa que los clientes que compran
pañales compran 8.33 más cerveza que el
común de los clientes.

El soporte depende sólo de los
productos que se combinan. La
confianza y la confianza esperada
dependen del sentido de la influencia.
Reglas de asociación : pañales y
cerveza

Si compra pañales entonces compra
cerveza con un soporte del 2%, una
confianza esperada del 6% una
confianza del 50% y un empuje del
8,33%
Reglas de asociación : cerveza y
pañales

Si compra cerveza entonces compra
pañales con un soporte del 2%, una
confianza esperada del 4% una
confianza del 33% y un empuje del
8,33%
Conclusiones




El soporte y el empuje en ambas reglas es el
mismo
La confianza y la confianza esperada son
diferentes.
Si se fija el umbral de confianza en el 50% no
aparece la segunda regla.
DEPENDE de cuál es el antecedente y cuál el
consecuente en la regla (sentido de la
influencia)
Modelos de segmentación

Mapas auto-organizados de Kohonen


Entrenamiento no supervisado
Dos capas




Entrada
Salida
Centroides (RBF)
Mecanismo de entrenamiento
Mapas de Kohonen



El propósito de los Mapas de Kohonen
es separar los registros de datos de
entrada en una cierta cantidad de
categorías
Los registros de cada categoría tienen
características similares y distintas de
los de las otras categorías
Segmentación
Mapas de Kohonen
Salida
Entrada
Mapas de Kohonen





Dos capas de nodos
Entrada: un nodo por cada dato
Salida: un nodo por cada categoría
Los nodos de la capa de salida están
conectados entre sí
La suma de los w que llegan a cada
nodo de salida es constante
Mapas de Kohonen
El entrenamiento es no supervisado
 Se presenta un registro a la capa de
entrada
 Cada uno se los nodos de la capa de
salida recibe impulsos de los de los de
la capa de entrada
 Cada nodo de salida produce una salida
Mapas de Kohonen
Salida
Entrada
El nodo 3 es el que produce la salida mayor
Mapas de Kohonen



Por haber sido el ganador, el nodo 3
adquiere el derecho a aprender
Para ello va a aumentar los w que
corresponden a entradas no nulas
Como la suma de los w que llegan al
nodo 3 es constante debe disminuir los
w que corresponden a los ceros
Mapas de Kohonen



Si se presenta un registro de entrada
parecido al anterior, es muy posible que
el ganador sea el mismo nodo 3.
Por eso los registros semejantes van a
parar a la misma categoría
Una vez entrenado, el mapa de
Kohonen se puede usar para
categorizar nuevos registros
Redes de Función de Base
Radial




Sirven para segmentación de grandes
cantidades de registros
Se basan en la definición de centroides
Centros de gravedad en espacios de
muchas dimensiones
Cada centroide agrupa casos similares
Centroides



Se definen tantos centroides como
categorías
En el caso del banco se definen 3
centroides
Arbitrariamente se toman los tres
primeros casos como centroides
Antigüedad
Centroides





Calculamos la distancia de cada caso a
cada uno de los centroides
La distancia se calcula como
D = x2 + y2
Adjudicamos cada caso al centroide
más próximo
Atención al caso 12
Centroides
Caso
Antig.
Serv.
1
2
3
3
4
5
A
B
C
Grupo
(3,3) (4,5) (5,2)
3
0
5
5
A
5
5
0
10
B
2
5
10
0
C
4
5
6
7
1
1
2
2
5
2
1
4
8
5
5
2
9
18
20
5
25
16
10
13
A
A
A
A
Centroides
Caso Antig. Serv.
9
10
11
12
13
14
15
4
5
5
6
7
8
7
1
4
6
4
2
5
6
A
B
C
Grup
(3,3) (4,5) (5,2)
o
5
16
2
C
5
2
4
B
13
5
16
B
10
5
5 C
17
18
4
C
29
16
18
B
25
20
20
B
Centroides

Al grupo A pertenecen los casos






1
4
5
6
7
(3;3)
(1;5)
(1;2)
(2;1)
(2;4)
Su centro de gravedad (promedio de
coordenadas) es
A ( 1,8 ; 3)
Centroides


De la misma manera, el centro de
gravedad del grupo B es
B (5,3 ; 5,3)
Y el centro de gravedad del grupo C es
C (5,5 ; 2,2)
Centroides



Ahora volvemos a efectuar los cálculos de
distancias con los nuevos centroides A, B y C.
Como antes, se asigna cada caso al grupo
cuyo centroide está más próximo
Para el caso 12 las distancias con




B: 2,18
C: 3,49
Con lo que el caso 12 pasa al grupo B
El proceso termina cuando de un paso a otro
ya no hay cambios
B
A
C
Antigüedad
Centroides
Hemos separado los clientes en tres
grupos:




A: Clientes nuevos con un buen potencial
de aceptación de productos
B: Clientes antiguos buenos compradores
de servicios
C: Clientes antiguos que no se
engancharon con el banco
Campañas de marketing diferenciadas
El proceso de Data Mining

Se define el problema



Hay que entender el negocio
Hay que entender los datos
Se construye la base de datos para Data
Mining





Recolección
Selección
Depuración
Carga
Actualización
El proceso de Data Mining

Se exploran los datos




Distribución
Relación
Influencia
Se preparan los datos




Se
Se
Se
Se
eligen variables
eligen las filas
crean nuevas variables
transforman las variables
El proceso de Data Mining


Se construye el modelo
Se entrena y ejecuta el modelo






Se
Se
Se
Se
Datos para entrenamiento
Datos para prueba
prueba el modelo
evalúan los resultados
rehacen corridas si es necesario
guardan los resultados
El análisis de riesgos



600.000 préstamos
50.000 con problemas ¿Cuáles?
Calificación del préstamo





Sin problemas
Sub stándard
Perdido
No clasificado
Nodisponible
El análisis de riesgos

Muestra: 12.000 casos



Valor de la cuota


Entrenamiento: 8.000
Prueba: 4.000
U$s 0 – u$s 60.000
Categorización

5 franjas de u$s 12.000
Datos relevantes

El préstamo





Tipo de préstamo
Monto
Cuota
Plazo
El propósito


Tipo de propiedad
Destino
Datos relevantes

El tomador




Edad
Estado civil
Nivel de ingresos
La región



Estado
Zona
Minorías
Primer modelo




Categorización errónea
Montos pequeños tienden a tener más
problemas
80% de las cuotas no llegan a u$s 400
99% de los préstamos cae en la
primera franja
Nueva categorización


Cinco categorías con 1/5 de los casos
en cada una
Precisión



Acierto en el 67% de los casos
Acierto en el 76 % de los casos sin
problemas y perdidos
Es demasiado bueno (!)
¿Por qué?




Un atributo descriptivo que están
usando es el monto de la deuda
Esto permite predecir bisn casos sub
standard o perdidos
Pero en realidad ese monto es alto
porque ya tiene problemas
Se elimina
Cambios


Se elimina el monto de la deuda como
atributo descriptivo
La precisión se reduce a


46% en general
37% de los casos perdidos
Nuevo modelo

Se eliminan las categorías




Menos del 1% del total
Se unifican



No clasificado
No disponible
Sub standard
Perdidos
Casos con problemas
Nuevo modelo




Quedan dos categorías
OK (sin problemas)
No OK (con problemas)
La precisión en la predicción es


82% en general
20% de casos con problemas
Arboles de decisión

Usando un modelo de árboles de
decisión se llega a una precisión

85% en general
23% en préstamos con problemas

¿Hay algo más para hacer?

Hagamos cuentas




Hay alrededor de 50.000 préstamos con
problemas por año
No detectarlo a tiempo cuesta a USDA
u$s 5.000 cada uno
Intervenir en un caso cuesta u$s 500
Se supone que interviniendo a tiempo
se evitan problemas en el 30% de los
casos
Hagamos cuentas


Aún con un porcentaje bajo de
identificación de casos con problemas
USDA ahorra por año u$s 11,9 millones
Dado que el 29% de las predicciones
No OK eran realmente OK (con lo que
se interviene inútilmente)
El ahorro es de u$s 9,1 millones
Conclusiones




No solamente cuenta la precisión
No hay que guiarse solamente por la
matriz de confusión
No necesariamente un nivel bajo de
aciertos en la predicción invalida el uso
del modelo
Hay que tener en cuenta otros factores
Data Mining
Dónde se puede utilizar








Marketing: Segmentación, campañas, rentabilidad,
lealtad,...
Ventas: Esquemas de comportamiento, hábitos de
compra
Finanzas: Inversiones, administración de cartera
Bancos y Seguros: Aprobación de créditos y pólizas
Seguridad: Detección de fraudes
Medicina: Análisis de tratamientos
Fabricación: control de calidad, adjudicación de
recursos
Internet: Análisis de clicks (Web mining)
Data Mining







Trabajo conjunto
Problema puntual
Modelos predictivos
Modelos descriptivos
Algoritmos
El proceso de Data Mining
Áreas de aplicación
Descargar

Data Mining - materia