Representando para
Aprender
Consideraciones para el proyecto
Luis Villaseñor Pineda
Laboratorio de Tecnologías del Lenguaje
Coordinación de Ciencias Computacionales,
Instituto Nacional de Astrofísica, Óptica y Electrónica
Objetivo del proyecto

Nuestro proyecto trata sobre la clasificación de textos

Se trata de una clasificación no-temática binaria

Movie Review Data
http://www.cs.cornell.edu/People/pabo/movie-review-data/
Subjectivity datasets



Utilizar diferentes representaciones:


Dos tipos de representación de la función objetivo
Diversas representaciones de las instancias
Laboratorio de Tecnologías del Lenguaje
2
Conceptos relacionados

Clasificación temática



Noticias sobre: deportes, política, economía, etc.
Artículos sobre: medicina, biología, computación, leyes, etc.
La presencia y frecuencia de los términos nos da
elementos suficientes para su identificación y/o
discriminación

Mientras más se repite un término más sabemos sobre el tema
que aborda el texto
Laboratorio de Tecnologías del Lenguaje
3
Conceptos relacionados

Clasificación no-temática


Subjetividad, estilo, autoría, etc.
¿podemos hacer la misma suposición?


Distinguir un autor vs Distinguir el tema
Distinguir objetividad vs subjetividad
Laboratorio de Tecnologías del Lenguaje
4
Algunos conceptos básicos en la
clasificación de textos

El conjunto de formas gráficas es el vocabulario


El número total de ocurrencias en un texto es su tamaño


word-type ó formas léxicas
word-tokens u ocurrencias
Estas nociones son la base para el cálculo de riqueza de
vocabulario

Tamaño del vocabulario entre el tamaño del documento
Laboratorio de Tecnologías del Lenguaje
5
Un ejemplo

Proponer un método para la atribución de autoría

Determinar los atributos adecuados para la clasificación por autor
Poeta
Octavio Paz
Rosario Castellanos
Rubén Bonifaz Nuño
Jaime Sabines
Efraín Huerta
Laboratorio de Tecnologías del Lenguaje
1914 - 1998
1925 - 1974
1923 1926 - 1999
1914 - 1982
Instancias
75
80
70
80
48
Vocabulario
13.031
12,156
12,890
12.885
12.423
6
Experimentos

Caracterizando las instancias:




Todas las palabras con excepción de palabras vacías (método tradicional)
Con únicamente palabras vacías
Todas las palabras incluyendo las palabras vacías
En todos los casos aplicando Ganancia de Información
como método de selección de atributos
Laboratorio de Tecnologías del Lenguaje
7
Al clasificar por autoría (5 clases)
Atributos 9,909
Palabras (sin palabras vacías)
70.5382%
IG > 0 158 Atributos
Atributos 224
sólo palabras vacías
56.3739%
IG > 0
50 Atributos
Atributos 10,133
todas las palabras
71.1048%
IG > 0 213 Atributos
Laboratorio de Tecnologías del Lenguaje
8
Escogiendo los mejores atributos

Los escogeremos a partir de una propiedad estadística llamada
Ganancia de Información
Para empezar necesitamos introducir el concepto de Entropía

Conceptos asociados



desorden, número de estados, información entre otros
Media del desorden


¿Qué es el desorden?
el número de estados posibles de un sistema
Laboratorio de Tecnologías del Lenguaje
9
Entropía

Ejemplo:



tu escritorio tiene un número de estados posibles – donde
colocas los apuntes, los libros, los lápices, etc.
Idealmente un sólo estado “cada cosa en un sitio” pero la realidad
es otra! existen muchos estados posibles… en ocasiones más
de los que tu supones!!!
Mientras más estados posibles – más desorden
Laboratorio de Tecnologías del Lenguaje
10
Entropía en la teoría de la información

En la Teoría de la información la entropía es una
medida de magnitud de la información contenida en
un flujo de datos

¿Un mismo mensaje puede aportarnos cantidades de
información distintas?


Depende de los estados posibles en que puede encontrarse
nuestro sistema
“La calle está mojada”


Dado que ha llovido es un estado posible
Si no ha llovido la información que aporta este mensaje es diferente !!
Laboratorio de Tecnologías del Lenguaje
11
Entropía en la teoría de la información

Entonces mientras menos probable se presente un
evento, mayor información traerá consigo

La información debe estar en función de la probabilidad del
evento
E(X) = - Σ p(i) log p(i)
La entropía es medida en función de bits
Laboratorio de Tecnologías del Lenguaje
12
Entropía en la teoría de la información
Ejemplo de Cover & Thomas


Nuestra chamba es recibir apuestas y transmitirlas al
hipódromo
Tenemos un sistema automático para ello, cada caballo está
codificado (usando una representación binaria)



Caballo 1 – 001, caballo 2 – 010
Sabemos que sólo tenemos 8 caballos así que usaremos 3 bits
para codificarlos a todos
Sin embargo, conocemos las probabilidades de ganar de cada
caballo


El mensaje más común será el del caballo con más probabilidades de ganar
Entonces por que no cambiar la codificación y usar un sólo bit 0 para el caballo
más probable, 1 para el que le sigue 10, para el siguiente, 11, 100, etc.
Laboratorio de Tecnologías del Lenguaje
13
Entropía en la teoría de la información
Ejemplo de Cover & Thomas

Probabilidades

p(c1)=0.5, p(c2)=0.25, p(c3)=0.125 , p(c4)=0.06 , p(c5)=0.015,
p(c6)=0.015, p(c7)=0.015, p(c8)=0. 015
E(X) = - Σ p(i) log p(i)
E(X) = 2 bits
Laboratorio de Tecnologías del Lenguaje
14
Aplicamos esto a atributos
Tomado de Rob Callan

Para el caso de c clases y un atributo a en que para todos los
ejemplos se tiene un valor de v, la entropía la definimos así:


Donde pi es la probabilidad de que el valor v ocurra en la categoría i
Así una distribución de frecuencias no uniforme nos permitirá
reducir el número de bits necesarios
Laboratorio de Tecnologías del Lenguaje
15
Ganancia de Información

La ganancia de información de un atributo es la reducción
esperada en entropía si los ejemplos son particionados de
acuerdo a dicho atributo:

Donde T es un conjunto de ejemplos de entrenamiento y Tj es el
subconjunto de ejemplos con el valor j para el atributo A.
Laboratorio de Tecnologías del Lenguaje
16
Por ejemplo


Supongamos que tenemos 20 instancias, y tenemos dos
categorías {POS, NEG} donde tenemos 11 instancias
clasificadas como POS y 9 instancias como NEG.
La clasificación deseada la podemos tratar como un atributo
con dos valores entonces la entropía es:
Laboratorio de Tecnologías del Lenguaje
17
Por ejemplo

La ganancia para cada atributo será entonces:
Laboratorio de Tecnologías del Lenguaje
18
Algunas medidas de evaluación

La exactitud – nos da una idea general del comportamiento del
clasificador.

Es el porcentaje de instancias correctamente clasificadas



Supongamos un problema de dos clases con 31 instancias a clasificar
Ex = (11 + 6) / 31 = 55%
Sin embargo, que pasa si tenemos esto:

Ex = (17 + 0) / 31 = 55%
Laboratorio de Tecnologías del Lenguaje
19
Algunas medidas de evaluación

Precisión


Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance)


El porcentaje de instancias correctamente clasificadas de entre
todas las que se predijo que pertenecían a la clase.
porcentaje de instancias clasificadas correctamente de entre
todas las instancias de la clase
F-mesure

1    presición

2
F
Laboratorio de Tecnologías del Lenguaje
 alcance
  precisión  alcance
2
20
Sobre la evaluación en el aprendizaje
Clase Predicción A


Predicción B
A
a
b
B
c
d
Las instancias a + b son de la clase A, el sistema predice que
a instancias pertenecen a la clase A y que las b restantes son
de la clase B.
Las instancias c + d son de la clase B, el sistema predice que
c instancias pertenecen a la clase A y que las d restantes son
de la clase B.
Laboratorio de Tecnologías del Lenguaje
21
Sobre la evaluación en el aprendizaje
Clase Predicción A



Predicción B
A
a
b
B
c
d
El número de instancias correctamente clasificadas es a + d
c + b es el número de instancias clasificadas incorrectamente.
Esta es una matriz de confusión, donde b recibe el nombre de
Falsos Negativos y c son los Falsos Positivos.
Laboratorio de Tecnologías del Lenguaje
22
Relación precisión - recuerdo

Tenemos dos clases ( A = 21; B = 10)
Laboratorio de Tecnologías del Lenguaje
Clase
Predicción A
Predicción B
A
B
a
c
b
d
23
Relación precisión - recuerdo

El sistema predice que algunos objetos como pertenecientes a
la clase A
Laboratorio de Tecnologías del Lenguaje
Clase
Predicción A
Predicción B
A
B
11
4
10
6
24
Relación precisión - recuerdo


Precisión - porcentaje de instancias correctamente clasificadas
entre todas las que se predijo que pertenecían a la clase.
P = a / (a+c) = 11/15 = 73%
Laboratorio de Tecnologías del Lenguaje
Clase
Predicción A
Predicción B
A
B
11
4
10
6
25
Relación precisión - recuerdo


Recuerdo - porcentaje de instancias clasificadas correctamente
de entre todas las instancias de la clase.
R = a / (a+b) = 11/21 = 52%
Laboratorio de Tecnologías del Lenguaje
Clase
Predicción A
Predicción B
A
B
11
4
10
6
26
Relación precisión - recuerdo

Normalmente mientras más alto sea nuestro recuerdo nuestra
precisión será menor.
Laboratorio de Tecnologías del Lenguaje
27
Relación precisión - recuerdo

Normalmente mientras más alto sea nuestro recuerdo nuestra
precisión será menor.
Laboratorio de Tecnologías del Lenguaje
28
Relación precisión - recuerdo



Normalmente mientras más alto sea nuestro recuerdo nuestra
precisión será menor.
P = a / (a+c) = 21/31 = 68%
R = a / (a+b) = 21/21 = 100%
Laboratorio de Tecnologías del Lenguaje
Clase
Predicción A
Predicción B
A
B
21
10
0
0
29
Consideraciones en la evaluación

El modelo construido es dependiente de las instancias
usadas durante el entrenamiento

¿Cómo asegurar que nuestra evaluación es correcta?


Dividir el conjunto de instancias en un conjunto de entrenamiento
y otro de prueba
Utilizar una técnica de validación cruzada en pliegues
Laboratorio de Tecnologías del Lenguaje
30
Descargar

Consideraciones para el proyecto