Generación Automática de
Resúmenes de Tweets sobre
Reputación Empresarial
Motivación
 Las empresas necesitan conocer qué se dice de ellas
en los medios, para

Reaccionar frente a comentarios negativos (alertas)

Sacar partido de los comentarios positivos

Conocer el impacto y alcance de sus campañas publicitarias
(Online) Reputation Management
Acción
Seguimiento
Valoración
Seguimiento (Monitoring)
Generación Automática de
Resúmenes (GAR)
 ¿En qué consiste?

Identificar las ideas más importantes de uno o varios documentos y
presentarlas al usuario de forma concisa y útil.
 ¿Por qué es necesaria?

Hacer frente a la sobrecarga de información

Su origen se remonta a mediados del siglo XX (Luhn, 1958), pero su
popularidad aumenta con la generalización de Internet
 Tipologías de resúmenes

Indicativos versus informativos

Mono-documento versus multi-documento

Genéricos versus adaptados al usuario

Resumen por extracción versus resumen por abstracción
Generación Automática de
Resúmenes
La petrolera china CNPC estudia la
compra, según un diario de Hong
Kong, de la filial argentina de
Repsol, YPF, por 12.000 millones de
euros.
La petrolera china CNPC estudia la
compra, según un diario de Hong Kong, de
la filial argentina de Repsol, YPF, por
12.000 millones de euros. Repsol, que
controla un 85 por 100 de YPF, reconoció
que ha recibido “propuestas de distinta
naturaleza y de diferentes compañías” para
entrar en el accionariado de YPF, sin que
“haya ninguna en firme”. La compañía
recordó en la comunicación que lleva meses
informando de que pretende incorporar
nuevos accionistas al capital de YPF.
Original
La compañía recordó en la
comunicación que lleva meses
informando de que pretende
incorporar nuevos accionistas al
capital de YPF.
Extracción
La petrolera china CNPC estudia la
compra de YPF, por 12.000 millones
de euros.
Por su parte, Repsol reconoce haber
recibido ofertas, así como su deseo
de incorporar nuevos accionistas.
Abstracción
Generación Automática de
Resúmenes
 Factores de contexto
Entrada: forma, especificidad y multiplicidad de la fuente.
 Propósito: situación, audiencia y función.
 Salida: extensión, formato y estilo.

 Técnicas


Puntuar las oraciones en función de:

las frecuencias de sus términos,

su posición en el documento,

su relación con un determinado tema o consulta de usuario,

su similitud con el título del documento, etc.
Métodos basados en grafos, plantillas, etc.
CASO DE ESTUDIO: Resúmenes de
Tweets sobre Reputación Empresarial
 Entrada: Conjunto de tweets en los que se
menciona a una empresa objetivo
Máximo 140 caracteres
 Lenguaje coloquial
 Gran cantidad de errores gramaticales y ortográficos
 Hashtags, menciones a usuarios, enlaces externos
(webs, imágenes, etc.)

CASO DE ESTUDIO: Resúmenes de
Tweets sobre Reputación Empresarial
 Propósito:



Servir a los analistas/consumidores
como sustituto de los tweets originales
mostrando únicamente la información relevante
para la toma de decisiones
 ¿Qué información es relevante cuando se
monitoriza la reputación de una empresa?


Diferencias con la generación automática de
resúmenes tradicional
Necesidad de métodos específicos
CASO DE ESTUDIO: Resúmenes de
Tweets sobre Reputación Empresarial
 Salida:


Difiere de los formatos habituales en GAR y se asemeja a un
informe
A priori:
 Listado de temas ordenados por importancia relativa,
junto con los tweets más representativos
 Listado de los n tweets más negativos y más positivos
 Listado de los n tweets más relevantes por dimensión
reputacional
 Estadísticas, incluyendo:
• Número total de tweets con menciones a la empresa
• Número de tweets positivos/negativos
• Distribución por áreas geográficas
• Usuarios influyentes
• Etc.
¿Qué Información es Relevante cuando
se Monitoriza la Reputación?
Contenido del mensaje
 La que es potencialmente peligrosa para su imagen
 La que ensalza sus productos/comportamiento
Difusión del mensaje
 La que se difunde con rapidez
 La que se propaga globalmente
Emisor del mensaje
 La emitida por usuarios influyentes
¿Qué Información es Relevante?:
Contenido del Mensaje
 ¿De qué depende?
De la positividad/negatividad
del mensaje
 De la subjetividad/objetividad
del mensaje


De la prioridad del tema y la dimensión reputacional
¿Qué Información es Relevante?:
Contenido del Mensaje
 ¿Qué algoritmos tenemos?



Clasificadores de polaridad (Acc. ≈ 66)
Sistema de detección de temas (F(R,S) ≈ 47)
Ranking de temas por prioridad (F(R,S) ≈ 30)
 Colecciones RepLab:





Polaridad – POSITIVO / NEGATIVO / NEUTRAL
Subjetividad – OPINIONADO / NO OPINIONADO
Temas – Ej. HIPOTECAS, COMISIONES, DESAHUCIOS
Prioridad – ALERTA / MEDIA / BAJA
Dimensiones reputacionales – PRODUCTS AND SERVICES /
WORKPLACE / GOVERNANCE / CITIZENSHIP / INNOVATION /
FINANCIAL / LEADERSHIP
¿Qué Información es Relevante?:
Difusión del Mensaje
 Tweets diferentes con el mismo mensaje (GAR):
 Propagación en Twitter:
Compartición directa del mensaje (retweets)
 Retweets modificados (modified tweets)
 Respuestas al mensaje (replies)

¿Qué Información es Relevante?:
Difusión del Mensaje
 ¿Qué algoritmos tenemos?

Retweets y Modified Retweets: Información
proporcionada por el API de Twitter

Mensajes con mismo significado:
Algoritmos básicos de similitud textual (Jaccard, Dice-Sorensen,
solapamiento de jerarquías de conceptos, distancia de edición en
grafos)
 Textual entailment
 Problema: Complejidad computacional

¿Qué Información es Relevante?:
Características del Emisor
 Reputación del autor
Número de seguidores
 Número de tweets publicados
 Número de tweets retweeteados
 Etc.

 Ámbito geográfico
Procedencia del autor
 Nacionalidades de sus seguidores
 Etc.

 Características socio-culturales del autor
Sexo
 Grupo de edad
 Profesión
 Etc.

¿Qué Información es Relevante?:
Características del Emisor
 ¿Qué tenemos? - RepLab 2013 y 2014

Número de seguidores (API Twitter)

Perfiles anotados como INFLUYENTE/ NO INFLUYENTE

Perfiles etiquetados con categorías de usuario
relevantes para la reputación (Ej. EMPLEADO /
ACCIONISTA / INSTITUCIÓN / PRENSA)

Perfiles etiquetados con SEXO/EDAD
¿Qué Información es Relevante?:
Recopilación
 Un tweet es relevante si …






Su mensaje afecta negativamente a la imagen de la
empresa
Su mensaje ensalza las virtudes de la empresa
Trata de un tema de especial importancia para la empresa
Se difunde rápidamente por la red
Alcanza a usuarios de muchos países
Es emitido/retweeteado por un usuario influyente
¿Tienen todos los Criterios de
Relevancia la misma Importancia?
 ¿Qué peso dar a cada uno de los criterios para
obtener un ranking de tweets?

Aprendizaje supervisado


Construcción de una colección de entrenamiento y test
Reglas de experto
Los tweets negativos son más relevantes que los positivos
 Los tweets de temas prioritarios son muy relevantes
independientemente de su dimensión reputacional
 Los tweets que se difunden rápidamente pero sin polaridad no
son relevantes

¿Cómo Construir y Presentar el
Resumen?
 Tenemos un ranking de tweets, cada uno con una
puntuación que indica su importancia relativa
 Muchos de estos tweets serán redundantes 
Detección y eliminación de redundancia


Similitud textual
Textual entailment
 Presentar al analista únicamente los top N tweets del
ranking, clasificados por tema y por dimensión
reputacional
 Completar la información con estadísticas relevantes
Evaluación
 Colección de evaluación

Creación de una colección de evaluación, de forma
semi-automática, a partir de las anotaciones del
RepLab 2013
Para un subconjunto de entidades,
 restringimos la colección a los tweets de temas con
prioridad ALERT
 dentro de estos, restringimos la colección a los tweets con
polaridad (POSITIVO y NEGATIVO)
 y extraemos manualmente los N tweets más
representativos de cada tema para formar el resumen

Evaluación
 Estrategias de evaluación

Etiquetado manual


Polaridad, Temas, Prioridad y Dimensiones
Etiquetado automático

Sistemas presentados en RepLab 2013 y 2014
 Métricas de evaluación
Métricas de evaluación automáticas (ROUGE,
Precisión y Cobertura)
 Evaluación manual sobre un subconjunto

Descargar

Generación Automática de Resúmenes de Información sobre