Inteligencia Artificial
Introducción a la comprensión del
lenguaje natural
Primavera 2009
profesor: Luigi Ceccaroni
Objetivos generales
• Conocer el ámbito del PLN y sus
principales aplicaciones
• Comprender la problemática asociada a la
comprensión del LN y los niveles de
análisis sintáctico y semántico
• Conocer las bases de la programación del
análisis con gramáticas de cláusulas
definidas (DCGs)
2
Ámbitos del PLN
• El PLN consiste en construir sistemas
computacionales capaces de comprender i
generar lenguaje humano en todas sus formas.
• Para esto se necesita:
– Saber cómo las personas generan expresiones
correctas y comprensibles
– Conocer cómo las personas comprenden
expresiones de otras personas
– Ser capaces de formalizar el conocimiento y los
procesos necesarios de manera que sean tratables
por un sistema computacional
3
Interdisciplinariedad
• Disciplinas asociadas al PLN:
– Inteligencia artificial
• Representación del conocimiento
• Razonamiento
• Aprendizaje
– Lingüística computacional
– Teoría de lenguajes formales
• Compiladores
4
Comprensión y generación
• Son las dos operaciones básicas de las
interfaces en LN.
Sistema
de PLN
Consulta
Emisor
Respuesta
Comprensión
Generación
Actuación
• La consulta y la respuesta pueden ser en
lenguaje oral: speech recognition and
synthesis
5
Comprensión y traducción
Representación
interna texto
LN origen
Transformación
(traducción)
Comprensión
Texto LN
origen
Representación
interna texto
LN destino
Generación
Texto LN
destino
• En lugar de texto puede haber una
intervención oral.
6
Comprender el LN
• La comprensión exige:
– Extraer el significado individual de las
palabras
– Comprender las relaciones entre las palabras
– Referir el significado literal al contexto de
actuación del sistema
• Todo esto se alcanza a través de un
análisis de los componentes del lenguaje
a diferentes niveles.
7
Aplicaciones
•
•
•
•
•
•
•
•
Traducción y resumen automáticos
Extracción de información a partir de textos
Interfaces y sistemas de diálogo
Sistemas de consulta telefónica
Clasificación y filtro de documentos, email
Question answering
Web semántica
Búsqueda de información en Internet
8
Ejemplo de análisis
“Em parlarà sens dubte de la reestructuració
urbana a Barcelona”
•Ejemplos de cosas que hay que detectar:
– Palabras individuales: em, parlarà, sens...
– El papel (categoría) de las palabras en la
frase: nombre, nombre propio, nombre
compuesto, verbo, artículo...
– La relación entre categorías (papel sintáctico)
para establecer el significado global: sujeto,
objeto directo...
9
Niveles de análisis
•
•
•
•
•
•
•
•
•
Fonológico
Textual
Morfológico
Léxico
Sintáctico
Lógico
Semántico
Pragmático
Ilocutivo
10
Niveles de análisis
• Fonológico
– Se aplica en el procesamiento del lenguaje
oral.
– Es el tratamiento de los sonidos para detectar
unidades de expresión (palabras).
11
Niveles de análisis
• Textual
– Filtrado de información no relevante: los
textos a tratar vienen a menudo
acompañados de otros materiales que deben
ser eliminados o extraídos (por ejemplo, si la
fuente de información es una página web,
diferentes tipos de marcas que definen las
características de visualización de la página).
12
Niveles de análisis
• Textual
– Segmentación y localización de unidades
tratables:
• El texto debe ser segmentado en fragmentos que
puedan tratarse de forma hasta cierto punto
independiente (párrafos, oraciones, intervenciones
de diversos interlocutores...).
• Las unidades básicas de tratamiento son las
palabras; localizar las palabras ortográficas es
sencillo si el espacio o los signos de puntuación
actúan como separadores.
13
Niveles de análisis
• Textual
– Localización de unidades tratables
• Métodos basados en localización de marcas de
puntuación: “.”, “?”, “!”, ”…”
• Problemas: ?
– siglas
– iniciales
14
Niveles de análisis
• Morfológico
– La morfología estudia la estructura de las palabras y
su relación con las categorías del lenguaje.
– El objetivo del análisis morfológico automático es
llevar a cabo una clasificación morfológica de las
palabras.
– Por ejemplo, el análisis de la palabra gatos resulta en
gato+Noun+Masc+Pl,
que nos indica que se trata de un sustantivo plural con
género masculino y que su forma normalizada (lema)
es gato.
15
Niveles de análisis
• Morfológico
– Versión simple: utilización de formarios (listas
de formas con información morfológica y los
lexemas correspondientes)
• Morfemas = lexemas (o raíz) o gramemas
Lexema Gramema
cant
o
es
a
em
en
16
Niveles de análisis
• Morfológico
– Analizadores morfológicos:
• Diccionarios de morfemas:
– de raíces (lexemas), de sufijos, de prefijos, de infijos
• Morfotáctica: reglas de combinación de morfemas
• Variaciones fonológicas: cambios al combinar
morfemas (ej., ploure, plovisquejar)
17
Niveles de análisis
• Léxico
– Distingue entre palabras ortográficas y
palabras gramaticales.
– Obtiene información léxica de diccionarios,
ontologías...
18
Niveles de análisis
• Léxico
– Detecta unidades de significado
• Reconoce y fragmenta adecuadamente las palabras:
“/Parlarà/ /sens dubte/ /de/ /les/ /reestructuracions/
/urbanes/ /a/ /Sant Cugat/”
– Recoge información útil y facilita las fases de
análisis posterior
• Asocia categorías gramaticales a las unidades léxicas
• Asocia información semántica a las unidades léxicas
(uso de ontologías y diccionarios)
• Detecta y clasifica entidades con nombre propio
19
(named entity recognition, NER)
Niveles de análisis
• Léxico
– Correspondencia palabras ortográficas/gramaticales
• Detecta, por ejemplo, los casos siguientes:
– “dóna-m’ho”, “dímelo” (1 p. ortográfica, 3 p.
gramaticales)
– “sens dubte”, “sin embargo” (2 p. ortográficas, 1 p.
gramatical)
– Homonimia
• Misma forma, diferentes categorías gramaticales
– “roda” (verbo, 3a persona), “roda” (nombre) -> conexión
con sintaxis
– Polisemia
• Misma forma y categoría, diferentes sentidos
20
– p.e.: “banco”
Niveles de análisis
• Léxico
– Sigles
• “Un cop s’ha generat un PCB es pot enviar a una cua
FIFO”
• “The cell’s DNA sample was identified by PRC, a process
approved by the official UBI”
– Abreviatures
• “El Dr. Pirvo va parlar del Tract. del Lleng. Natural…”
– Fórmules i mesures
• “Afegir dos mg de DM-oxano i guardar dins d’un vial de
PVC”
• “Si tenim en compte que x=y*2 + k, on k és una
constant...”
– Volum d’informació
21
Niveles de análisis
• Ambigüedad léxica
– “Pinchó la rueda de delante”
• “rueda” puede ser nombre o verbo (part-of-speech
tagging - POS-tagging)
– “Vio el banco”
• “banco” puede ser el mueble para sentarse, la entidad
financiera o un grupo de peces (word sense
disambiguation - WSD)
22
Ejemplo
“Quina es la capital de França?”
• Resultado del análisis morfológico:
quina
és
la
capital
de
França
?
quin
ésser
el
capital
de
frança
?
DT0FS00
VMIP3S0
TDFS0
AQPCS00
SPS00
NP00000-loc
Fit
quina
NCFS000
ell
capital
PP3FSO00
NCFS000
la
capital
I
NCMS000
23
Ejemplo
“Quina es la capital de França?”
• Resultado del POS-tagging:
quina
és
la
capital
de
França
?
quin
ésser
el
capital
de
frança
?
DT0FS00
VMIP3S0
TDFS0
NCFS000
SPS00
NP00000-loc
Fit
24
Niveles de análisis
• Utilización de lexicones
– “Diccionarios léxicos”
– Reúnen información útil para reconocer y
categorizar las palabras y su ubicación en el
texto.
Lexema Informació
cant-
cantar
V / Infinitiu
-o/-es/-a/-em/-eu/-en
25
Problemática: representación
• Decidir el tipo de información que
contiene:
– Categoría sintáctica
• determinante, proposición, nombre propio,
sustantivo, verbo, etc.
• Problema de la granularidad (verbo ->
transitivo/intransitivo)
– Propiedades sintácticas de concordancia
•
•
•
•
género (masculino/femenino)
número (singular/plural)
persona (primera, segunda...)
caso (acusativo, dativo...)
Problemática: representación
• Otras propiedades sintácticas:
– Tipo de complemento del verbo
– Preposiciones que acepta una palabra
• Categoría semántica
• Información morfológica
– Derivación: prefijos/infijos/sufijos
plov + -isquej- + ar
re- + estructura + -cio + -ns
prefijo
raíz
sufijo
sufijo
Problemática: representación
– Información léxica
repetición
nombre
plural
re- + estructura + -cio + -ns
prefijo
raíz
sufijo
sufijo
Problemática: representación
– Información léxica
diminutivo
infinitivo
plov + -isquej- + ar
raíz
infijo
sufijo
Niveles de análisis
• Sintáctico
– Reconoce, extrae y representa estructuras
sintácticamente válidas (o inválidas):
Els gat vell menja bacallà
El gata menja bacallà
El gat menja bacallà
| |
|
|
Det Noun Verb Noun
SN
SV
F
30
Niveles de análisis
• Ambigüedad sintáctica
– “El vendedor de diarios del barrio” (prepositionalphrase attachment - PP-attachment)
– “Vio un hombre con unos prismáticos”
31
Niveles de análisis
• Lógico
– Extrae y representa el significado literal de
una oración a través de un lenguaje formal:
cálculo de predicados de primer orden (CP1),
ontologías, mapas conceptuales...
– En el caso de CP1, expresiones en términos
de predicados, variables, funciones,
constantes, conectivas lógicas...
“El gat menja bacallà”
existen x, y (Gat(x) & Bacallà(y) & Menja(x,y))
32
Niveles de análisis
• Semántico
– Interpretación de la forma lógica: Relación de les entidades
lógicas (constantes, variables, términos) con el mundo real (o su
representación)
– El gato es un felino, el bacalao es un pez comestible, el actor de
comer tiene que ser un ser vivo...
– Extraer sentido global a partir de sentidos individuales y
relaciones
• Ambigüedad semántica
– “Dio un pastel a los niños”
• Puede ser 1 a todos o 1 a cada niño
– “Las ideas verdes duermen furiosamente”
Niveles de análisis
• Pragmático
– Interpretación en un contexto determinado
(incorpora referencias implícitas)
• “Le dio un libro”
• “No les gustó”
– Relación con el resto del discurso
• “L’avió va detectar el banc”
• “El gat vell” (perro viejo)
Niveles de análisis
• Ilocutivo
– Problema de asignación de intenciones
• “Los platos están sucios”
– ¿Es una frase declarativa neutra?
– ¿Es una invitación a la acción? (¡Lávalos!)
– ¿Es un reproche? (Siempre los dejas sucios y
me toca lavarlos a mí)
Descargar

Inteligencia Artificial