Applying Summarization
Techniques for Term
Selection in Relevance
Feedback
Adenike M. Lam-Adesina
Gareth J. F. Jones
Presenta:
Esaú Villatoro Tello
Contenido
Introducción
al problema
Retroalimentación
Generación
de relevancia
del Resumen
Recuperación
de información
Experimentos
Conclusiones
Laboratorio de Tecnologías del Lenguaje
Introducción

El problema de IR
query
WEB
Buscador (IR)
Colección
de documentos
Laboratorio de Tecnologías del Lenguaje
Documentos
recuperados
Introducción

El problema de IR incluyendo RF
query
WEB
Buscador (IR)
Colección
de documentos
Laboratorio de Tecnologías del Lenguaje
Documentos
recuperados
Introducción

El problema de IR incluyendo Pseudo-RF (PRF)
query
WEB
Buscador (IR)
Colección
de documentos
PRF
Laboratorio de Tecnologías del Lenguaje
Documentos
recuperados
Problemas de RF y PRF



El problema que acarrea tanto RF como PRF
 Información (términos) no relacionados con la relevancia de la consulta
original pueden ser seleccionados
 Se desvía el foco de relevancia
La solución propuesta es:
 Utilizar los resúmenes de los documentos relevantes con la finalidad de
seleccionar sólo términos relevantes en el proceso de PRF
Dos formas de obtener resúmenes:
 Independientes del contexto
 Basados en un query
Laboratorio de Tecnologías del Lenguaje
Retroalimentación de Relevancia

Muy a menudo sucede que


Una de las razones de esto es que:



El emparejamiento de términos entre la consulta y los documentos recuperados es
impreciso
Queries muy cortas y formadas a partir de términos aislados
Hay evidencia que muestra:


Máquinas de IR no son capaces de satisfacer las necesidades de información de los
usuarios
El proporcionar consultas más grandes (completas) reduce la ambigüedad asociada a
consultas cortas
RF y PRF son estrategias lideres, sin embargo tienen algunos
problemas cuando:
Laboratorio de Tecnologías del Lenguaje

Términos seleccionados desvían el foco de la consulta
original



“What is the economic impact of recycling tires ”
Entre los primeros 20 documentos, los términos seleccionados
por un proceso de PRF fueron “glass”, y “plastic”
Los documentos de la colección son multi-tópico


Sólo porciones de los documentos son relevantes a la consulta
Pasajes relevantes
Laboratorio de Tecnologías del Lenguaje
Generación del Resumen

Luhn’s Cluster Method




Determina el vocabulario de un documento ordenándolo por
frecuencias
Palabras con alta frecuencia y las de menor frecuencia son
consideradas insignificantes
Al final, Luhn considera que dos palabras están relacionadas si
están separadas por no más de 5 palabras insignificantes
Así entonces, lo que hace es crear cluster de palabras
significativas
Laboratorio de Tecnologías del Lenguaje
Generación del Resumen

Frecuencia de los términos del título
Laboratorio de Tecnologías del Lenguaje
Generación del Resumen

Posición de las oraciones



Para sus experimentos sólo las primeras dos lineas de cada
documento incluían este score
Si existían sub-secciones dentro del documento, las primeras
oraciones de la sub-sección también incluían este score
Resumen orientado al query


Query: falkland petroleum exploration
Sentence: The british minister has decided to continue the
ongoing petroleum exploration talks in the falkland area
Laboratorio de Tecnologías del Lenguaje
Generación del Resumen



El score final es la suma combinada de los scores de
los atributos anteriores
El tamaño del resumen se fijo al 15% (razón de
compresión)
Dos tipos de resúmenes


Resúmenes independientes del contexto
Resúmenes orientados a la consulta
Laboratorio de Tecnologías del Lenguaje
La máquina de IR

El motor de búsqueda se configuró con el modelo
probabilístico BM25

Retroalimentación de relevancia

El método para rankear los términos en el proceso de RF fue el
propuesto por Robertson
Laboratorio de Tecnologías del Lenguaje
Experimentos

Baseline
Laboratorio de Tecnologías del Lenguaje
Laboratorio de Tecnologías del Lenguaje
Laboratorio de Tecnologías del Lenguaje
Laboratorio de Tecnologías del Lenguaje
Laboratorio de Tecnologías del Lenguaje
Experimentos adicionales

Variando la importancia de los atributos para generar
el resumen
Laboratorio de Tecnologías del Lenguaje
Conclusiones




Una mejora del 15% en el desempeño del recuperador
comparado con el método que no emplea PRF
Comparado con el método tradicional de PRF se
obtienen resultados mejores en un 11%
No hay una diferencia significativa entre el usar
resumenes independientes del contexto y los basados
en el query
Rsúmenes de mayor tamaño tienden a decrementar el
desempeño de la máquina de IR
Laboratorio de Tecnologías del Lenguaje
Preguntas??
Laboratorio de Tecnologías del Lenguaje
Descargar

temas de tesis