Cómo analizar
noticias al segundo
JORGE MARTÍN-LUENGO
Director de Factoría Diximedia Digital
PREMISA GENERAL
INTERNET ES UN MEDIO MUCHO MÁS PROFUNDO QUE CUALQUIER OTRO SOPORTE.
PESE A LA BONDAD QUE ESTO SUPONE, TAMBIÉN
IMPLICA CIERTO DESORDEN.
DESDE EL COMIENZO DE LA RED, EXISTEN IMPORTANTES ACTORES
EN LA RECOPILACIÓN,
TRATAMIENTO Y
ORDENACIÓN DE LA INFORMACIÓN:
ROBOTS
Robots, nuestros aliados tecnológicos
MÁS ALLÁ DE LA ACTUALIZACIÓN
DE DATOS, LAS MÁQUINAS VAN
APRENDIENDO A SER MÁS
INTELIGENTES Y PUEDEN
DESARROLLAR LABORES
BÁSICAS, PERO MASIVAS, DE
RECOPILACIÓN Y
ESTRUCTURACIÓN DE
INFORMACIÓN.
Sobreabundancia de información
Por mucha atención y fuentes que manejen los seres humanos, es muy difícil estar
al tanto de todo lo que existe en la Red, de lo que pasa, de lo que se lee o interesa y
de aquello que no.
En décimas de segundo, las máquinas pueden ver y procesar alertas, tendencias y
modas, al tiempo que analizan lo que otras máquinas, periodistas o lectores están
haciendo con la información: aquella que destacan, guardan o comentan.
“
J. CHENERY, Business Development Manager at Thomson Reuters
“Utilizar ese tipo de información y tecnología
nos permitirá que los periodistas dediquen más
tiempo al desarrollo de exclusivas o a escribir
más información“.
”
¿cómo aplicar esto a un medio de comunicación?
LAINFORMACION.COM
un hipermedio y un monitor semántico de información en tiempo real
Qué es lainformacion.com
Un medio de calidad
lainformacion.com pretende ser un medio de calidad, riguroso, innovador e
independiente. Abogamos por la producción de contenido propio y las nuevas narrativas,
con el vídeo y la infografía animada como elementos claves. Para ello, contamos con una
importante redacción propia y con automatismos que permiten “liberar” a la redacción de
tareas rutinarias.
Un buscador semántico
Además de generar contenido propio de calidad, hay una parte de nuestro medio en la
que no somos un destino final sino un buscador. Se analizan en tiempo real más de
1.800 fuentes en español para localizar, catalogar y ordenar las noticias a medida que se
vayan generando. ¿Cómo lo hacemos? Mediante novedosas y revolucionarias técnicas
de web semántica, que “leen” y “traducen” los datos de los sites y hacen la información
comprensible para las máquinas. Estas la procesan y ordenan intentando hacerla más
accesible y fácil de encontrar para los lectores.
Objetivos
- Cubrir el mayor ámbito informativo posible
- Ofrecer la mejor información en el menor tiempo
- Responder a la demanda informativa de
lectores con distintos intereses.
lainformacion.com
La apuesta de lainformacion.com viene del cruce de contenidos generados por parte de
máquinas, periodistas y usuarios. Este triángulo ayuda a conceptualizar nuestro web.
El primer vértice de nuestro triángulo es el de la información generada, recopilada y jerarquizada por robots,
los realmente nativos y puros representantes del territorio digital.
Cómo funciona
1.- Monitorización en tiempo real
2.- Extracción de entidades
3.- Clasificación temática
4.- Geoposicionamiento
5.- Agrupación de noticias
6.- Mejora continua de la calidad
1.- Monitorización en tiempo real
En lainformacion.com se analizan más de
20.000 noticias diarias procedentes de
distintas fuentes: propias, agencias, medios de
comunicación, administraciones públicas,
organismos…
En tiempo real se cataloga y ordena cada
noticia a medida que se va generando.
¿Cómo lo hacemos?
Con la ayuda de DAEDALUS mediante
técnicas lingüísticas para el procesamiento
automático y avanzado de noticias, que “leen”
y “traducen” los datos y hacen la información
comprensible para las máquinas.
2.- Extracción de entidades
Etiquetado semántico de noticias
Con la ayuda de DAEDALUS hemos desarrollado un
sistema que extrae automáticamente entidades de
los textos de las noticias buscando aproximaciones
sobre un conjunto de diccionarios.
Es una herramienta que interpreta semánticamente y
es capaz de detectar y clasificar empresas,
organismos y personajes. Interpreta sinónimos,
contextualiza, encuentra relaciones entre las
entidades, etc…
Se basa en técnicas de reconocimiento de entidades
y se realiza en tiempo real a medida que las
noticias se van generando.
Portadas por entidades
Con estas técnicas analizamos la información de modo inteligente y la agrupamos
en torno portadas de personajes, organismos, empresas, grupos….
2.- Extracción de entidades
La dificultad de la detección estriba en que dichas entidades pueden aparecer en
diferentes formas, por ejemplo:
* López, Julián (El July)
* Windsor, Enrique (Enrique de Inglaterra, príncipe Enrique)
* Banco Santander Central Hispano (BSCH)
También pueden surgir problemas de ambigüedad para su clasificación, ya sea
entre diferentes categorías o incluso dentro de la misma categoría:
* Madrid (ciudad, equipo de fútbol, apellido…)
* Alonso (Fernando Alonso, José Antonio Alonso)
La solución está basada en patrones, sinónimos y en reconocimiento contextual de
los tipos de entidades (Empresas, Organismos o personajes)
3.- Clasificación automática de noticias
En lainformacion.com realizamos una clasificación
automática de noticias por área temática, aplicando la
taxonomía de la IPTC (International Press
Telecommunications Council).
Esto permite que lainformacion.com tenga no una, sino
hasta 975 portadas de temáticas diferentes.
Con ello podemos responder mejor a la demanda
informativa de lectores con distintos intereses
(Literatura, Fútbol, Educación, Medio ambiente…)
En un futuro será la base de proyectos de
personalización, alertas…
100.000 portadas
4.- Geoposicionamiento
Cada noticia se geolocaliza automáticamente y en tiempo real asociándose a cada término
geográfico que aparece en el texto. Se realiza un reconocimiento contextual de los lugares
que aparecen en el texto. En total contamos con cerca de 45.000 localidades.
100.000 portadas
970 temas
25.000 personajes
45.000 lugares
30.000 empresas y organismos
5.- Agrupación de noticias
Clustering
Las noticias se agrupan mediante la técnica de ‘clustering’ con 3 objetivos:
- Relacionar noticias sobre el mismo tema
- Detectar noticias duplicadas procedentes de fuentes diferentes
- Mostrar “otras perspectivas de la noticia”
5.- Agrupación de noticias
Y todo en tiempo real
Rendimiento
- Etiquetado automático (con 100.000 entidades):
Tiempo de respuesta inferior a 4 ms/noticia
- Clasificación automática (sobre IPTC-2008):
Tiempo de respuesta inferior a 100 ms/noticia
- Agrupamiento (dependiente del número de noticias y de clusters)
Tiempo de respuesta inferior a 5 ms/noticia
[Sobre Intel Xeon E5410 a 2.33GHz, 64bits, 16GB RAM]
6.- Mejora continua
Servicio de mejora diaria de la calidad
- Muestreo sistemático de los resultados de los procesos de extracción de
entidades y de clasificación conforme a criterios de relevancia y visibilidad
- Mejora del sistema de clasificación
- Actualización de la base de datos de entidades
- Mejora del sistema de reconocimiento de entidades
Muchas gracias
Descargar

Diapositiva 1