Minería de textos
y
datos para-textuales
Universitat Autónoma de Barcelona
SEA
2 de febrero 2007
Mónica Bécue Bertaut
Universitat Politècnica de Catalunya
Minería de textos y datos para-textuales
Indice:
1. Introducción
2. Métodos de análisis. Codificación y distancia
3.
Primer ejemplo: evaluación de un producto
mediante una nota y comentarios abiertos
4. Segundo ejemplo: clasificación de los
entrevistados a partir de sus preguntas cerradas
y abiertas
Minería de textos y datos para-textuales
1. Introducción:
La minería de textos analiza textos en lengua natural
mediante procedimientos automáticos para:
• extraer los temas
• determinar la estructura de un texto: localización de
las rupturas…
• visualizar la proximidad entre documentos y/o entre
términos
• indexar les documentos (multi-indexación)
• construir bases de documentos para una
interrogación automática posterior
•…
Minería de textos y Estadística textual
Búsqueda de información BI versus
Extracción de información EI
• BI: tratamiento global de un gran número de
documentos, búsqueda de temas, construcción
de una tipología de los documentos
• EI: búsqueda de información “ciblada”, para
alimentar una base de datos estructurada
(relleno automático de los campos de la base)
Minería de textos y Estadística textual
Estadística léxica, Lexicometría y
estadística textual, Minería de textos
Medida del vocabulario: recuento de las palabras
• Estadística
léxica (Muller, Labbé, Holmes).
Estructura de un texto o de una obra. Análisis
de textos clásicos. Modelos de urnas.
• El corpus visto como una tabla de
frecuencias (J.P. Benzécri, L. Lebart).
Métodos multidimensionales
• Más
recientemente, métodos de data mining,
como LSI, SVM, Market basket analysis
Minería de textos y Estadística textual
Tipos de textos analizados
• Encuestas de opinión
• Encuestas de satisfacción de clientela
• Entrevistas semi-abiertas en estudios de clientela
• Revistas de prensa
• Vigilia tecnológica: resúmenes de artículos
contenidos en las bases científicas, patentes, …
Minería de textos y datos
Textos e información complementaria
• Encuestas:
preguntas abiertas + preguntas
cerradas
• más generalmente, textos acompañados de una
información complementaria “cerrada”
- guía de vinos: comentarios + nota dada al vino
- sentencias de tribunal: texto de la sentencia + fecha, juez-ponente,
delito
Métodos que analizan simultáneamente los textos
y la información cerrada
No hay una única manera de hacerlo. La elección del méetodo depende
de los objetivos y de los datos.
Minería de textos y datos
2. Métodos de análisis
Dos puntos importantes:
• la
codificación: se debe saber cómo se
codifica el corpus (algunas veces, el software
opera
una
codificación
parcialmente
transparente para el usuario)
• el papel fundamental de la distancia escogida
en el análisis estadístico de textos. Distancia
entre que elementos (entrevistados, categorías
de entrevistados, palabras, etc.)
Minería de textos y datos
Codificación del corpus: tabla léxica
Variable textual
pal1 palt2
Individuos/
textos
kij
La codificación transforma el
corpus en una tabla que se
puede analizar mediante
métodos estadísticos
Minería de textos y Estadística textual
Utilizar la información cerrada
Tabla mixta
Variables
textuales
Variables
Variables
cualitativas cuantitativas
Individuos
Information a analizar: ¿cuál es la parte activa? ¿cuál es la parte
suplementaria?
Minería de textos y Estadística textual
La codificación escogida tiene una incidencia
sobre la distancia
2
¿A partir de que
información se
calcula la distancia?
A partir
1
1
• de las palabras,
• de los lemas
• de las palabras y de
las preguntas cerradas
¿Cuál es la distancia
escogida?
Minería de textos y Estadística textual
Representación gráfica :
Análisis de correspondencias
Tipología de documentos:
Clasificación
Tipología a partir de tablas múltipes:
Análisis factorial múltiple y clasificación
Minería de textos y Estadística textual
•Enfoque geométrico que visualiza las
proximidades entre filas, las proximidades entre
columnas, y las interrelaciones
G2
F
2
k
.
.i
.
.
.
.
.
.
.
F
G1
1
O
G
.
.
.
.
.
.
.
Análisis de correspondencias
Minería de textos y Estadística textual
• Formación de clases homogéneas
Clasificación
Primer ejemplo:
Evaluación de vinos mediante notas y
comentarios
Minería de textos y Estadística textual
Castilla y León
5 denominaciones:
Bierzo, Cigales, Ribera del Duero, Rueda, Toro
Minería de textos y Estadística textual
Ejemplo: guía de vinos de Castilla y León
---- Note= 80 Valdelosfriales-2003
Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso.
---- Note=91 Tares P3-2001 premium
Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra,
cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de
hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la
lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final.
Minería de textos y Estadística textual
Doble objetivo
•
Estudiar la relación entre la nota y la evaluación en forma de
comentario libre
•
Si esta relación existe, sería posible construir un nuevo score que
tenga en cuenta a la vez la nota y los comentarios (mediante el
recuenta de las palabras utilizadas)?
Problemática similar a la abordada por los métodos multicanónicos: buscar la(s)
variable(s) general(es) que constituye la mejor síntesis de varios grupos de
variables
Minería de textos y Estadística textual
Tabla a analizar
Grupo textual Jf columnas
Grupo notas Jc columnas
Columnas Tabla de frecuencias 
Tabla
cuantitativa
Filas
Palabras
1
1
Vinos
i
j
1
Jf
proporciones
f ij 
n ij
n
j
Jc
Valores
cuantitativos
f i.
x ij
I

f.j
Método de
referencia: AC
1
Métode de
referencia: ACP
Minería de textos y Estadística textual
Tabla léxica activa
Minería de textos y Estadística textual
Nota y commentarios activos
Minería de textos y Estadística textual
A PARTIR DE AQUÍ,
SÓLO LOS VINOS TINTOS
Minería de textos y Estadística textual
F irs t P rin c ip a l P la n e
Nota y commentarios activos
W IN E S & M A R K S
A x is 2 : 1 .7 5 %
M e s o n e ro s d e C a s tilla (0 3 )
6 .0
4 .5
V a ld e lo s fra ile s (0 3 )
G ra n R e se rva
F u e n te n a rro (0 2 )
T in to jo v e n
3 .0
T in to c ria n z a
T o ro n d o s (0 2 )
V e g a S ic ilia 'Ú n ic o ' (9 4 )
G a yu b a r (0 2 )
V iñ a S a s tre P e s u s (0 1 )
1 .5
V a ld e tá n (0 2 )
94
78
Eje de calidad
79
93
80
81
-3 .0
-1 .5
82
83
88
84
85
86
89
87
C a rra m im b re (0 3 )
90
1 .5
91
97
J a ro s C h a fa n d ín (0 1 )
92
A x is 1 : 3 .5 2 %
S a n R o m á n (0 1 )
N u m a n th ia (0 2 )
B ie n v e n id a S itio d e E l P a lo (0 1 )
B ie n v e n id a S itio d e E l P a lo (0 2 )
9 5 T e rm a n th ia (0 2 )
T a re s P 3 (0 1 )
G ra n E lía s M o ra (0 0 )
-1 .5
V iñ a E re m o s (0 3 )
M a rq u é s d e P e ñ a m o n te (0 1 )
T in to r e s e r v a
T in to r o b le
Minería de textos y Estadística textual
tempranillo
Axis 2 : 1.75%
2.25
First Principal
NOUNS
Plane
1.50
tiempo
equilibrio
estructura
concentración
0.75
intensidad
n ciruela vino
cuerpo
aroma
tinto
paladar
Ribera recuerdo acidez
cuero
paso
roble
mineral
frutosidad
madurez
estilo
crianza
Axis 1: 3.52%
sequedad expresi ón
coco
tacto
0
-1.0
-0.5
0.5
1.0
consistencia
bouquet
capa
sobremadurez
chocolate
vez
tuestes
sílex
potencial
carne
gominola
monte
frutillos
fondo
bosque
-0.75
pó lvora
hierba% caf é
grosella
torrefacto
ceniza
zumo
cascajo
tierra
Minería de textos y Estadística textual
First Principal Plane
ADJECTIVES
joven
amable
típico
Axis2 : 1.75%
2.25
1.50
corto
franco frutoso
limpio
americano
primer
gran
0.75
vivo
vigoroso
tostado sabroso
accesible
voluptuoso
ensamblado
todo
complejoenérgico
linealabierto
rústico
concentrado
salado Axis1: 3.52%
medio
0
magnífico
-1.50
-0.75
0.75
agradable
granuloso
noble
denso
tradicional
largo
pulido
ligero
integrado
silvestreoscuro potente
frutal
impresionante
jugoso
amargo
-0.75
rico
salino
graso
aromá tico
precioso
fácil
herbáceo
mojado
Minería de textos y Estadística textual
lowest marks
highest marks
agradable
reducido
sobremadurez
discreto
frutal
sequedad
frutosidad
crianza
tuestes
medio
ensamblado
algo
cierto
tempranillo
seco
limpio
abierto
rojo
ligeramente
clásico
ligero
algún
típico
americano
beber
demasiado dominar expresión
evolucionar capa
franco
compotado
fácil
suave
Ribera
tradicional
cesta
rústico
toque
joven
roble
lineal
corto
amable
herbáceo
consistencia
-1,9
-1,5
Mark81
-1,1
82
-0,7
83
84
salino
fino
donde
mucho
ser
bouquet
sílex
intenso
firme
vino
chocolate
-0,3
potente estilo
puro
concentrado
dejar
necesitar
mineral potencial
primer
sabroso
moderno sorprende
carnoso tacto
amargo complejo
largo
todo
noble
cascajo
coco
pólvora
voluptuoso
magnífico
0,1
85
denso
vez
salado
graso
torrefacto impresionante
granuloso
gran
enérgico
tiempo
86
Averagemark: 85.16
0,5
87
0,9
88 89
1,3
90
Minería de textos y Estadística textual
lowest marks
highest marks
agradable
reducido
sobremadurez
discreto
frutal
sequedad
frutosidad
crianza
tuestes
medio
ensamblado
algo
cierto
tempranillo
seco
limpio
abierto
rojo
ligeramente
clásico
ligero
algún
típico
americano
beber
demasiado dominar expresión
evolucionar capa
franco
compotado
fácil
suave
Ribera
tradicional
cesta
rústico
toque
joven
roble
lineal
Algunos defectos:
sequedad, sobremadurez,
corto
amable
herbáceo
evolucionado
consistencia
-1,9
defectos
importantes
en el
-1,1
-1,5
-0,7
mundo del vino
Mark81
82
83
84
salino
fino
donde
mucho
ser
bouquet
sílex
intenso
firme
vino
chocolate
potente estilo
puro
concentrado
dejar
necesitar
mineral potencial
primer
sabroso
moderno sorprende
carnoso tacto
amargo complejo
largo
denso
vez
salado
graso
torrefacto impresionante
granuloso
gran
enérgico
tiempo
Criterio dominante:
todo
potencia del vino;
noble las
palabras denso,cascajo
graso,
concentradococo
pólvora
voluptuoso
magnífico
Se oponen a ligero, fácil,
-0,3
0,1
85
86
Averagemark: 85.16
0,5
87
0,9
88 89
1,3
90
Minería de textos y Estadística textual
Factor 2 :
Variables suplementarias
1,75%
Separate Axis 2
of free comments
Price
Length
responses
Separate Axis 1
of free comments
Mark
- 0,8
- 0,4
+ 0,4
+ 0,8
Factor 1 : 3,52
Minería de textos y Estadística textual
Axis2
Variables suplementarias
Mesoneros de Castilla (03)
Jaros Chafandín (01)
Vega Sicilia 'Único' (94)
Viña Sastre Pesus(01)
4.5
Valdelosfrailes (03)
Punta Esencia (01)
Gran Reserva
Fuentenarro (02)
Astrales (02)
3.0
0-4,9€ 5-9,9€
Torondos (02)Valdecuadrón (02)
Tinto joven
Gayubar (02)
25-29,9€
50-99,9€
Tinto crianza
1.5
94
100-300€
79
78
Viña
15-19,9€
10-14,9€
Viñatorondos (03)
Valdetán (02)
20-24,9€
80
Valdable (03)
- 3.0
Marqués de Olivara (98)
Rauda (01)
El Marqués (02)
Carramimbre (03)Valsotillo (01)
Viña Eremos (03)
93
81
82
- 1.5
88
83
84
85
86
87
30-49,9€90
89
1.5
91
97
92
Axis1
95
- 1.5
San Román (01)
Marqués de Peñamonte (01)
Tinto reserva
Tinto roble
Numanthia (02)
Bienvenida Sitio de El Palo (01)
Termanthia (02)
Bienvenida Sitio de El Palo (02)
Gran Elías Mora (00)Tares P3 (01)
Minería de textos y Estadística textual
Importancia relativa de los comentarios y de la nota
Z (i )   
 1
 f
 1   1

La nota aporta 51.7%
palabra
nota
de la varianza del
score global y las

 xi  x 
 G 1 ( x )  palabras 48.3%
f ij G 1 ( j )  


j J
f

SX

Contribución de cada palabra al score global


Z ( i )        n ij G 1 ( j )    G 1 ( x ) 
 j J f


Minería de textos y Estadística textual
Punto de vista global/
Tares P3-2001 premium:
• score global máximo
punto de vista parcial
• nota inicial 91
• emplea 8 de las 20 palabras con coordenadas mayores sobre
el primer eje (impresionant/, gran/ vez graso/ cascajo, pólvora
largo/and tacto/
Vega Sicilia 'Único' -1.994
• Es sólo el tercero en score global
• nota inicial 97
• 4 de las 20 palabras con coordenadas mayores sobre el
primer eje (enérgico, tiempo, gran, y largo)
Legaris-2001 (85):
• lejos (por abajo) de los otros vinos con la misma nota
• Note incial 85
• 4 de las 20 palabras de coordenadas más
negativas(consistencia, lineal, frutal y algo)
Minería de textos y Estadística textual
---- Wine 212 (mark= 85) Legaris-2001
Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de
este crianza. En boca aparece muy lineal, con consistencia media; el retrogusto
frutal todavía tapado por una madera algo rústica.
---- Wine 30 (mark=91) Tares P3-2001 premium
Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex,
pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta
madura de hueso. concentrado, tacto graso sobre el paladar; impresionante
viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el
largo final.
---- Wine 314 (mark=97) Vega Sicilia 'Único-1994
Hay que realizar un ejercicio de disciplina gustativa de primer rango para
describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se
ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una
madera que se manifiesta pero que resulta difícil de localizar y menos de
concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo
sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su
cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos
taninos saltamontes que quedan para domesticar. Largo y vibrante final que
mezcla madurez con una notable finura fresca.
Minería de textos y Estadística textual
Presentación detallada de la metodología en:
Bécue-Bertaut, M. & Pagès J.
“Analysis of a mixture of quantitative, categorical and frequency data
through an extension of multiple factor analysis. Application to survey
data.”
aceptado para publicación por Computational Statistics and Data Analysis
Segundo ejemplo:
Los niños y la lectura
Encuesta Lectura
Preguntas cerradas
1. En la escuela, leemos
2. En casa, tenemos
3. Leo
4. Leo
5. Libros dados por maestro
6. Leo cuando
7. Prefiero leer
8. Leer los libros escolares
Nuria Rajadell, UB
(poco, bastante, mucho)
(pocos, bastantes, muchos libros)
(poco, bastante, mucho)
(muy fácilmente, fácilmente, con dificultades)
(me gustan, no me gustan)
(me gusta, hago trabajos, los dos)
(en silencio, en voz alta, las dos cosas)
(me gusta, no me gusta, depende)
Preguntas abiertas (datos textuales)
• Para mí leer es…
• Creo que leer es importante porque…
Minería de textos y Estadística textual
Ejemplos de respuestas
----A130
es un rollo porque hay muchas letras
++++
si no sabes leer no sabes escribir
----D214
como vivir otra clase de vida, aprendo, me divierto y
me entrego, no sé como explicarlo, pero me gusta leer
++++
aprendes cosas nuevas
ABIERTO y
J127
CERRADO
Respuestas cerradas: leo bastante, leo muy fácilmente
Respuestas abiertas:
---- para mí, leer es
es muy interesante porque te puedes ir al mundo de la fantasía. por
ejemplo puedes viajar a la edad media o estar en la prehistoria
++++ Leer es importante por que
sin la lectura no podría viajar
N314
Respuestas cerradas: leo bastante, leo muy fácilmente
Respuestas abiertas:
---- para mí, leer es
aprender
++++ Leer es importante por que
se aprenden cosas nuevas
Minería de textos y Estadística textual
En el ejemplo: tabla múltiple mixta
Preguntas cerradas categóricas
Q1
I1
Ind1
Ind i
Ind n
Q2
1000
Pregunta abierta 2
Aprender Aventura…
Aprender Importante
Q3
Ik 1
001
Pregunta abierta 1
0100
…
1
… 2
0
0
0 ……2
Minería de textos y Estadística textual
Primer plano factorial: Individuos
3.0
Axis 2
Factor 2
2=1.2; 1.7%
N314
1.5
0
Axis 1
1=1.4; 2%
-1.5
-3.0
-2
J127
0
2
4
6
Factor 1
Minería de textos y Estadística textual
eje 2 (2=1.2, 1.7%)
entretenido
importantes
1.50
roll
aprende
interesante
divierto
divertido
divertirme
CLASE SOCIAL ELEVADA
entretenimiento
0.75
PADRE EST. SUP
aburrido
Ieo poco
aprendo
aprender NOTA GLOBAL: EXCELENTE
Leo mucho
aprendes
NOTA GLOBAL:
importante
SUSPENSO
0
importante
fantasia
diversion
-1
PADRE.: SIN ESTUDIOS 1
imaginación
aventuras
diviertes
aventuras
saber
Leo bastante
leo fácilmente
imaginacion
enseña
Leo con dificultades
aburrimiento
Leo muy fácilmente
aventura -0.75
mundo
entrar
divertida
-1.50
sino
2
eje 1
(  =1.4, 2%)
1
3
Minería de textos y Estadística textual
Análisis Cluster de los individuos a partir de
sus coordenadas sobre los 7 primeros ejes
Método jerárquico, con el criterio de Ward
7 clases (una residual cluster con 11 niños)
Minería de textos y Estadística textual
GRUPO
220 NIÑOS
CERRADAS
Leo mucho (50% ; 28%)
Leo muy fácilmente (81%; 58%)
….
PARA MI, LEER ES
PALABRAS SOBRE-REPRESENTADAS
pasar (pasar un buen rato), diversión, aventura, rato
tiempo, divertirme, mundo, libro entrar, fantasia,
forma
MEDIA: 8.8 PALABRAS
RESPUESTAS MODALES
-Entrar en el libro que estoy leyendo y pasar las
aventuras que hay en el libro
-Entrar en el libro, ser el protagonista y pasar
aventuras leyendo
MEDIA EN LA MUESTRA
6.8 PALABRAS
CREO QUE LEER ES PALABRAS SOBRE-REPRESENTADAS
IMPORTANTE PORQUE… imaginación, hace , aprende, vocabulario,
MEDIA EN LA MUESTRA
7.4 PALABRAS
divertido, ayuda, aventura
MEDIA: 8.7 PALABRAS
RESPUESTAS MODALES
-Te enseña palabras nuevas. Viajas a paises con la
imaginación
-Aprendo ortografía, se me abre la imaginación
Minería de textos y Estadística textual
Pregunta
Coef. de Cramer
V 
En casa tenemos (cantidad de libros)
Leer los libros escolares
Leo (cantidad de lectura)
Para mí, leer es (abierta)
Leo (facilidad de lectura)
Leer es importante porque (abierta)
Los libros dados por el maestro
Prefiero leer (forma de leer)
Leo cuando (contexto de la lectura)
En la escuela leemos (cantidad de lectura
escolar)

2
n  min( r  1 , c  1 )
0.52
0.44
0.41
0.38
0.35
0.27
0.26
0.20
0.20
0.14
Minería de textos y Estadística textual
Si sólo se tiene en cuenta las preguntas cerradas,
tomando las palabras y respuestas como ilustrativas
Se obtiene…
Minería de textos y Estadística textual
GRUPO
168 NIÑOS
CERRADAS
CATEGORIAS SOBREREPRESENTADAS
LEO MUCHO (82%; 28%)
LEO MUY FÁCILMENTE (93%; 58%)
…
PARA MI, LEER ES
PALABRAS SOBRE-REPRESENTADAS
NINGUNA
MEDIA EN LA MUESTRA
6.8 PALABRAS
MEDIA, 7.6 PALABRAS
CREO QUE LEER ES PALABRAS SOBRE-REPRESENTADAS
IMPORTANTE PORQUE…
Aprende, cosas
MEDIA EN LA MUESTRA
7.4 PALABRAS
MEDIA 7.8 PALABRAS
RESPUESTAS MODALES
-Se aprende
-Se aprende
Minería de textos y Estadística textual
Pregunta
Leo (cantidad de lectura)
Leo con (facilidad de lectura)
Leo cuando (contexto de lectura)
Los libros dados por el maestro
Leer los libros escolares
En la escuela, leemos (cantidad)
I prefer reading (manera de leer)
At home, we have (cantidad de libros)
For me, to read means (open-ended)
Reading is important because (openended)
Coeficiente de
Cramer
0,62
0.50
0.45
0.43
0.39
0.39
0.32
0.30
0.17
0.15
Minería de textos y Estadística textual
Conclusión: textos e
información paratextual
Olvidaros
Es práctico
Todo es automático
Minería de textos y Estadística textual
Bibliografía
Lebart, Salem, Bécue, 2000, Análisis estadístico de textos
Editorial MILENIO, Lleida
Presentación detallada de la metodología en:
Bécue-Bertaut, M. & Pagès J.
“Analysis of a mixture of quantitative, categorical and frequency data through an
extension of multiple factor analysis. Application to survey data.”
aceptado para publicación por Computational Statistics and Data Analysis
Sobre el estudio de los vinos:
Bécue-Bertaut M., Pagès J., Alvarez-Esteban R., Vásquez Burguete J.L. Détermination
d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres.
Application aux études de marché.
Actes des JADT2006.
http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/tocJADT2006.htm
Descargar

ANÁLISIS ESTADÍSTICO DE TEXTOS Mónica Bécue Universitat