Valores de atributos desconocidos
(Unknown values)
Outlook
Temp (ºF)
Humidity
Windy
Class
sunny
85
85
false
Don't Play
sunny
80
90
tue
Don't Play
overcast
83
78
false
Play
rain
70
96
false
Play
rain
68
70
true
Play
rain
65
70
true
Don’t Play
overcast
64
65
true
Play
sunny
72
95
false
Don’t Play
sunny
69
70
false
Play
rain
75
80
false
Play
sunny
75
70
true
Play
?
72
90
true
Play
overcast
81
75
false
Play
rain
71
80
true
Don’t Play
Tres preguntas a responder
1.
Si dos posibles tests difieren en la cantidad de valores
desconocidos, ¿cómo se toma este dato en cuenta para el cálculo
de la ganancia de información?
2.
Una vez que se seleccionó un test, aquellas instancias de
entrenamiento que posean valores desconocidos en el atributo
relevante no puede ser asociada a un resultado del test. ¿Cómo se
tratan estos casos al realizar el particionado?
3.
Cuando el árbol es utilizado para clasificar un caso nuevo, ¿cómo
debe proceder el algoritmo si la instancia tiene un valor
desconocido para el atributo a testear?
C4.5
(pregunta 1)
Ganancia(T, X) = Info(T) – InfoX(T)
Ganancia(T, X) = probabilidad A sea conocido *
(Info(T) – InfoX(T))
Ejemplo
(pregunta 1)
Outlook Play Don’t Play Total
sunny
2
3
5
overcast
3
0
3
rain
3
2
5
Total
8
5
13
Info(S) = -8/13 x log2(8/13) - 5/13 x log2(5/13) = 0.961
Info(S, Outlook) = 5/13 x (-2/5 x log2(2/5) - 3/5 x log2(3/5)) +
3/13 x (-3/3 x log2(4/3) - 0/3 x log2(0/3)) +
5/13 x (-3/5 x log2(3/5) - 2/5 x log2(2/5)) =
0.747
Ejemplo
(pregunta 1)
Outlook Play Don’t Play Total
sunny
2
3
5
overcast
3
0
3
rain
3
2
5
Total
8
5
13
Ganancia(S, Outlook) =
13/14 x (0.961 - 0.747) = 0.199
Div-Info(S) = -5/14 x log2(5/14) - 3/14 x log2(3/14) –
5/14 x log2(5/14) - 1/14 x log2(1/14) = 1.809
Ganancia-razón(S, X) = 0.199 / 1.809 = 0.110
 0.156
C4.5
(pregunta 2)
Outlook
Temp (ºF)
Humidity
Windy
Class
?
72
90
true
Play
Es asignado a todos sunny, overcast y rain
Ej: sunny
Outlook Temp (ºF) Humidity Windy
Class
Pesos
sunny
75
70
true
Play
1
sunny
80
90
true
Don't Play
1
sunny
85
85
false
Don't Play
1
sunny
72
95
false
Don't Play
1
sunny
69
70
false
Play
1
?
72
90
true
Play
5/13 = 0.4
Ejemplo
(pregunta 2)
Outlook = sunny
Humidity  75
Humidity > 75
: Play (2.0)
: Don't Play (3.4 / 0.4)
Outlook = overcast
: Play (3.2)
Outlook = rain
Windy = true
Windy = false
: Don't Play (2.4 / 0.4)
: Play (3.0)
C4.5
(pregunta 3)
• La clasificación ya no es más una clase sino una
distribución de clases.
• La clase con mayor probabilidad es la clase asignada.
Ejemplo:
sunny, 70, ?, false  ?
Play: 2.0/5.4 x 100% + 3.4/5.4 x 12% = 44%
Don't Play: 3.4/5.4 x 88% = 56%
Descargar

Don`t Play