Acceso a la Información en
Internet: retos para la Ingeniería
Lingüística
Julio Gonzalo
[email protected]
UNED
“Lenguaje Natural”



Todo hombre ama o besa a una mujer
Juan busca un unicornio
Juan regaló un libro a María y unos guantes a
Alicia.
“Lenguaje Natural”



“Cuando se lleva dos años con una mujer, debe haber
algo más que ... otra cosa” (Jesulín de Ubrique).
“Sacaré a los jugadores que me parezca, ya sean
italianos, rusos o extranjeros” (Javier Clemente).
“Ahora tengo más tiempo libre que nunca, porque,
aunque hago un programa en directo, es decir, que se
emite todos los días, es grabado” (Mar Flores).
Algunas aplicaciones PLN





Correctores ortográficos y de estilo.
Traducción automática.
Interfaces voz en servicios telefónicos.
Sistemas de dictado automático.
Sistemas de traducción voz - voz
Tareas intermedias


Análisis morfológico
Reducción de la ambigüedad léxica:
–
–
–


Etiquetado de categoría sintáctica (tagging)
Etiquetado semántico (word sense disambiguation)
Parsing (detección de sintagmas, etc.)
Recursos: bases de datos léxicas, corpora
anotado.
Alineamiento de corpora paralelo
Herramientas
EWN/ITEM Lexical Data Base
move
travel
go
English
Wordnet
Top-Ontology
mou re’s
2ndOrderEntity
III
Location
ride
III
Dynamic
conduir
drive
I
II
II
conduc ir
III
II
II
Inter-Lingual-Index
III
eraman
joan
III
III
Spanish
Wordn et
I = Language I ndependent link
moverse
ir
anar
ILI -record
{drive}
III
cabalgar
III
Cat alan
Wordn et
II = Link from Language Specific to
Inter Lingual Index
III = Language Dependent Link
mugitu
Basque
Wordn et
Anotación semántica (WSD)




Decidir cuál es, en un contexto determinado, el
sentido en que se usa una palabra. (spring is
my favourite season)
¿Cuántos sentidos tiene una palabra?
¿Para qué utilizaremos esa información?
SENSEVAL: competición de sistemas de
anotación semántica.
Ingenería Lingüística en Acceso a
Información en Internet






Motores de búsqueda (Google, Terra), filtrado,
categorización, etc.
Question answering (pregunta/respuesta)
Extracción de información.
Extracción de resúmenes.
Traducción automática.
Búsqueda multilingüe.
Motores de búsqueda



Consulta, exploración, filtrado, categorización.
Recolección y actualización de páginas:
spiders, crawlers, worms.
Representación de índices: Tokenización, stop
words, stemming, asignación pesos,
estructura.
Tamaño consultas en Internet
English
1999
1998
Other European
Languages (German,
French, Italian, Dutch,
Swedish)
1997
0
1
2
3
Number of Terms Per Query
Fuente: Oard 2000
Evaluación: TREC


Organizada por NIST (EEUU).
Ad-Hoc track:
–
–
–
–
–
colección varios Gb de documentos.
“topics” (consultas con tres niveles de detalle)
Juicios de relevancia realizados por evaluadores.
Efectividad: precisión / recall.
Eficiencia? Usabilidad?
Mean Interpolated Prec.
Precision/recall
1.0
0.5
0.353
0.0
0.0
0.2
0.4
0.6
Recall
0.8
1.0
Potencial de las Tecnologías de la
Lengua en motores de búsqueda




Tokenización (vg Chino)
Unidades mayores de indexación (v.g.
“Ingeniería Lingüística”)
Reconocimiento de entidades (v.g “Al Gore”,
“the vice-president”)
Distinción de sentidos, detección de
sinónimos.
Vínculos semánticos entre índices
Abono  festival de música
 Abono  agricultura
 Mantillo, estiércol  abono
 “diseño de zapatos de verano” vs.
“sandalias diseñadas en Italia ... Han sido
diseñadas para la comodidad veraniega”

Question answering



Respuesta concreta vs. Documentos
relacionados (tipo Trivial Pursuit).
Filtrado inicial de documentos + procesamiento
de Lenguaje Natural.
Cuanto más se limita el tamaño de la
respuesta, más utiles son las técnicas de
Ingeniería Lingüística.
Extracción de información
Extracción de Información

New York Times Co. named Russell T. Lewis, 45, president and general
manager of its flagship New York Times newspaper, responsible for all
business-side activities. He was executive vice president and deputy
general manager. He succeeds Lance R. Primis, who in September was
named president and chief operating officer of the parent.
<ORGANIZATION-1>
NAME
: "New York Times Co."
<ORGANIZATION-2>
NAME
: "New York Times"
<PERSON-1>
NAME
: "Russell T. Lewis"
<PERSON-2>
NAME
: "Lance R. Primis"
<SUCCESSION-1>
ORGANIZATION : <ORGANIZATION-2>
POST
: "president"
WHO_IS_IN
: <PERSON-1>
WHO_IS_OUT : <PERSON-2>
Aplicaciones EI
Análisis de periódicos para encontrar casos de fusiones
empresariales.
Monitorización de noticias de agencia y transcripciones de radio
y TV para extraer descripciones de actividades terroristas por
tipos de acción, sospechosos, lugar y fecha.
Análisis de historiales clínicos, extrayendo diagnóstico,
síntomas, tests, tratamientos, etc.
Búsqueda de información (vs. Documentos)!!!
Extracción de resúmenes

Tipos:
–
–
–
–

Extracto vs. resúmen
Genérico vs. basado en consulta (UMICH)
Informativo vs. indicativo
Neutral vs. Sesgado (UEM)
Técnicas:
–
–
Búsqueda de información
Extracción de información + generación
Traducción automática


Las diferencias de idioma son una barrera para
la transmisión de información en Internet.
¿La Ingeniería Lingüística puede prevenir el
efecto empobrecedor de Internet sobre la
diversidad lingüística?
Traducción automática






The spring was not strong enough and lost its shape (El muelle no
tenía fuerza suficiente y se deformó).
la primavera no era muy bien bastante y perdido su forma.
I like to hike mountains in spring (Me gusta caminar por las
montañas en primavera).
Me gusta hacer una caminata las montañas en primavera.
We drunk water from the spring (Bebimos agua de la fuente).
Nosotros el agua bebido de la primavera.
They spring when they are frightened (Ellos saltan cuando se
asustan). Ellos saltan cuando ellos se asustan.
(http://www.el-mundo.es/traductor)
Búsqueda de Información
Multilingüe
¿Para qué?

Usuarios bi/multilingües:
–
–

Una sola consulta
Uso del idioma más fluido (vocabulario activo)
Usuarios monolingües:
–
–
–
Junto con un sistema de traducción
Junto con extracción de información
Búsqueda por pies de imagen, etc.
Global Internet User Population
2000
2005
5%
9%
8%
12%
32%
6%
English
8%
8%
5%
English
40%
5%
3%
6%
52%
5%
Chinese
4%
4%
4%
6%
3%
3%
2%
2%
Spanish
Japanese
Chinese
Scandanavian
Korean
Portuguese
5%
2%
6%
3%
German
French
Italian
Spanish
Other
Chinese
Dutch
Japanese
English
Scandanavian
Korean
21%
8%
Portuguese
2%
5%2%
2%
5%
Spanish
French
German
Italian
Italian
Portuguese
Other
5%
Japanese
Chinese
French
Dutch
Dutch
Other
English
2%
German
Scandanavian
Korean
Fuente: Global Reach
Source:
English
Retos de la búsqueda multilingüe
segmentación
incorrecta
¿qué traducción
seleccionar?
cymbidium
goeringii
restrain
¿No
hay traducción?
oil
petroleum
probe
survey
take samples
Fuente: Oard 2000
Enfoques




Traducción de la consulta
Traducción de los documentos
Traducción a una representación interlingua.
Recursos:
–
–
–
–
Diccionarios bi o multilingües.
Bases de datos léxicas bi o multilingües.
Extracción de corpora paralelo.
Traducción de terminología, nombres propios, etc.
Es suficiente usar MT?
¿Qué es un término?
• La granularidad depende de la tarea
– Larga para traducir, más fina para recuperar.
• Las palabras compuestas y colocaciones:
– Son menos ambiguas que las palabras aisladas.
– Las expresiones idiomáticas se traducen como un solo
concepto.
• Formas de identificar palabras compuestas:
– semántica
(v.g. Aparece en un diccionario)
– sintáctica
(v.g. Se analiza como sintagma n.)
– Co-ocurrencia (aparecen juntas a menudo)
Ingeniería Lingüística y
Recuperación de Información en
la UNED
Spanish
Celebraciones del milenio en la capital de Italia
celebración (N)
50% n04769909
An occasion for special
festivities to mark
some happy event
milenio(N)
50% n00295295
The public performance
of a sacrament or
Solemn ceremony
100% n09084966
A span of 1000 years
Capital_de_Italia (N)
100% n05523414
InterLingual Index
Celebration
solemnization
celebration
English
celebració
Catalan
celebració
Italian_capital
Capital_of_Italy
Roma, Rome
millenium
Mil.lenni
Capital_d’Italia
Roma
English tools:
wordnet morph
Brill tagger
Document
Base forms, multiwords, category
África vuelve a escena.
Los tópicos sobre
el continente africano
ya no son tan ciertos
como hace tan sólo
unas décadas. El...
Lexical
Processing
<WRD VAL="escena">
<LEX LEM="escena" PAR="NCFS000">
</LEX>
</WRD>
</S>
</P>
<P>
<S>
<WRD VAL="Los">
<LEX LEM="el"PAR="TDMP0"/>
</WRD>
<WRD VAL="tópicos">
<LEX LEM LEX="tópico" PAR="NCMP000">
...
Spanish/Catalan tools:
MACO+ (morphology)
RELAX tagger
EWN/ITEM Lexical Data Base
move
travel
go
English
Wordnet
Top-Ontology
mou re’s
2ndOrderEntity
III
Location
ride
III
Dynamic
conduir
drive
I
II
II
conduc ir
II
II
Inter-Lingual-Index
III
eraman
joan
III
III
Spanish
Wordn et
I = Language I ndependent link
moverse
ir
anar
III
ILI -record
{drive}
III
cabalgar
III
Cat alan
Wordn et
II = Link from Language Specific to
Inter Lingual Index
mugitu
Basque
Wordn et
III = Language Dependent Link
Word Sense Disambiguation
First sense indexes
Synsets w. probabilities
<WRD VAL="escena">
<LEX LEM="escena" PAR="NCFS000">
<FST SYN="n08529162"/>
<EWN SCR="13" SYN="n08529162"/>
<EWN SCR="0” SYN="n05457541"/>
<EWN SCR="79" SYN="n04543589"/>
<EWN SCR="6"SYN="n04545176"/>
<EWN SCR="0" SYN="n02788565"/>
</LEX>
</WRD>
</S>
</P>
<P>
<S>
<WRD VAL="Los">
<LEX LEM="el"PAR="TDMP0"/>
</WRD>
<WRD VAL="tópicos">
<LEX LEM LEX="tópico" PAR="NCMP000">
<FST SYN="n04622698"/>
<EWN SCR="100" SYN="n04622698"/>
n08529162
Los
n04622698
All senses indexes
n08529162 n05457541 n04543589 n04545176 n02788565
Los
n04622698
Conceptual density indexes
...
n08529162 n05457541
Los
n04622698
...
Synsets are filtered
according to their
probabilities
Idioma de la consulta
Selección de la estrategia de
Desambiguación semántica
Representación textual implica traducción de la
Consulta; representación conceptual implica indexación
En términos del índice interlingua.
La selección
Del periódico
Determina el idioma
De los documentos
Once the query
is processed and
documents are
retrieved,
the user can directly
refine the target
language query
adding or deleting
query terms.
Documentos
recuperados
¿Y el futuro?
Descargar

retos para la Ingeniería Lingüística