Tema 4: Diccionario o Base de datos
léxicos
Margarita Alonso Ramos
Master LUP 2011
Organización de la exposición
Qué
léxico
computacional
1.1.Qué
eses
un un
léxico
computacional
• Qué elementos son una unidad léxica
Qué información
contiene
2.•Cómo
representar
launa
información
entrada lexicográfica
léxica
3. Aplicaciones de la LexComp
4. Proyectos de LexComp
1. ¿Qué es un léxico computacional?
No es solo un diccionario en soporte informático
http://elies.rediris.es/elies24/pampillon.htm
Los diccionarios en línea o en CD pueden ser una buena
herramienta pero el usuario es un humano, no un sistema
http://www.diccionarios.com/consultas.php#
http://www.ideasafines.com.ar/buscador-ideas-relacionadas.php
VOLGA: http://www.realacademiagalega.org/volga/index.jsp
DRAE: www.rae.es
DicoPortugués: http://www.priberam.pt/dlpo/dlpo.aspx
WordReference: http://www.wordreference.com/es/
Bilingüe inglés: http://www.babylon.com/definition/give/Spanish
Cambridge: http://dictionary.cambridge.org
Merrian-Webster:
www.m-w.com/cgi-bin/dictionary?book=Dictionary&va=purchase&x=0&y=
htttp://oesi.cervantes.es/TLTODOS/recursos_linguisticos_1.htm
1. ¿Qué es un léxico computacional?
Un “almacén” de información
léxica
accesible por medios manuales o automáticos
para sistemas de PLN
1.1.¿Qué se entiende por unidad léxica?
Unidades léxicas (UL): sentidos o acepciones
Actuar
1 intr. Ejercer una persona o cosa actos propios de su naturaleza
2 Ejercer las funciones propias de un oficio: ~ de secretario.
3 Representar en el teatro o en el cine.
4 Trabajar en un espectáculo público.
5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición.
6 DER. Realizar actuaciones
Concepto de acepción (polisemia):
Difícil delimitación
Diferente según el objetivo aplicativo
¿Qué se entiende por unidad léxica? (2)
Granularidad en la diferenciación de sentidos (diccionarios)
libro
cerdo
monosémico
monolingües: animal, carne, piel, ....
bilingües (desajustes: pig, pork)
El tipo semántico no implica que haya una o más
acepciones.
diferentes sentidos
matices de un mismo sentido
¿?
Polisemia
Criterios para limitar la polisemia
-semánticos:
-Diferente estructura argumental
¿Cuándo dejar de subdividir
un sentido en nuevas
-Diferentes restricciones selectivas
acepciones?
-sintácticos:
good
- diferente subcategorización
12 acepciones
-- WordNet
diferente construcción
Webster
25 acepciones
American Heritage 20 acepciones
 Definición de principios
 Dependiente de la aplicación
1.2. ¿Qué información contienen ? (1)
Dependiendo de los objetivos del léxico:
 La trascripción fonética
 La categoría gramatical y paradigma
morfológico
dar {vdtr}, 1ªconj.
 La estructura argumental, patrón sintácticosemántico básico
¿Qué información contienen ?
 La estructura argumental, patrón sintácticosemántico básico
SYNSEM
| LOC
HEAD
| MAJOR V
| SUBCAT = <SN [1], SN[2], SP [3]>
SEM [dar agente [1], tema [2], beneficiario [3]]
¿Qué información contienen ?
 Información semántica: tipo semántico
definido en una ontología.
chico [HUMANO]
ordenador [ARTEFACTO]
 Restricciones selectivas
 Relaciones léxicas:
Paradigmáticas: sinonimia, antonimia, hiponimia
Sintagmáticas: colocaciones
Las equivalencias con otras lenguas, ...
Organización de la exposición
1. Qué es un léxico computacional
Cómorepresentar
representarlalainformación
información
2.2.Cómo
léxica
léxica
3. Aplicaciones de la LexComp
4. Proyectos de LexComp
2. ¿Cómo representar la información?
Condiciones del lenguaje
de representación del conocimiento
1. Adecuado para mecanismos de inferencia:
herencia, reglas léxicas, etc.
2. Eficiente en el acceso a la información
Modelos de representación
computacionales
 Bases de datos
 Modelos textuales
 Bases de conocimiento léxico
 Ontologías
Modelos de representación computacionales
Bases de datos relacionales
las entradas se representan en tablas
 cada tabla consta de diversos rasgos que toman valores
Cat = N
Gen = Fem
ventajas
 software convencional de gestión de base de datos (Access de Microsoft)
mantenimiento, eficiencia y facilidad de interrogación
 gran capacidad expresiva
limitaciones:
- falta de estructura jerárquica
– excesiva uniformidad
– poco apropiadas para los rasgos de tipo textual
Modelos de representación computacionales
Modelos textuales
Corpus en bruto:
Frecuencias léxicas
 Coapariciones de dos o más palabras
Corpus etiquetados:
 morfológicamente
 sintácticamente
 semánticamente
 identificación de colocaciones
Modelos de representación computacionales
Representaciones orientadas a objetos
NOMBRE-F-REG
cat= n
tipo = común
género= femenino
morfología=
NFAAS
CLASE
CLASE
EJEMPLARES
casas
casa
es-un: NOMBRE-F-
REG
número= singular
es-un: NOMBRE-F-REG
número= plural
Modelos de representación computacionales
Representaciones basadas en la unificación
 Estructuras de Rasgos (ER)
 Relación de orden parcial: subsunción
 Operación básica: unificación
 Entradas léxicas: implementadas como ER
 Dos grandes clases:
 Formalismos de unificación libre
 Formalismos de unificación tipificada
Modelos de representación computacionales
Estructuras de rasgos tipificadas
género (OR masculino femenino
neutro)
número (OR singular plural)
categoría (OR nombre verbo adjetivo
determinante adverbio pronombre)
...
Modelos de representación computacionales
Reglas léxicas
Acquilex
lex-noun-sign
INPUT
orth = [1]
cat : count = +
rqs = ind_obj
grinding
(LEX-RULE)
lex-noun-sign
OUTPUT
orth = [1]
cat : count = rqs = substance
Modelos de representación computacionales
Ontologías
semántica basada en una ontología
lengua
cada sentido
se diferencia
por uno o
más rasgos
+ lengua
semítica
+ lengua
+ semítica
árabe
+ lengua
+ semítica
semántica basada en una ontología
lenguaje
programación
indoeuropea
hebreo
lengua
semítica
árabe ...
+ lengua
+ lengua
+ semítica
+ lengua
+ semítica
+ árabe
Modelos de representación computacionales (15)
Ontologías
WordNet
- Red de conocimiento léxico-semántica
- Relaciones semánticas:
sinonimia, hiperonimia, hiponimia, meronimia...
- Unidad de descripción: synset
Modelos de representación
computacionales (16)
vehículo
Redes semánticas
es-un
automóvil 1 ; coche 2 ; carro 2
es-un
es-un
se-compone-de
ambulancia
ranchera;furgón
es-un
taxi
motor
rueda
volante
Modelos de representación computacionales (17)
Problemas
incompleto: dominios poco o nada representados
sentidos básicos que no aparecen
Granularidad excesiva:
Hombre=
el que sirve en el ejército
(10)
opuesto a hembra
opuesto a esposa
carácter de hombre
...
Criterio poco claro de sinonimia 
hiperonimia/hiponimia
Ejemplos de entrada léxica (1)
Lexical Conceptual Structure (R. Jackendoff)
Descomposición de los predicados en primitivos
Representación abstracta de los significados
Interacción sintaxis-semántica
drink
V
_____ <NPj>
[Event CAUSE ([Thing ]i [Event GO ([Thing LIQUID]j,
[Path TO ([Place IN ([Thing MOUTH OF ([Thing ]i)])])])])]
Ejemplos de entrada léxica (2) (Somers)
Entrada por defecto para verbos de emoción
Emotion-frame
(case-Exp)
(case Pat)
(Synt Form (NP))
(Sem Features (human))
(Synt Function (Subj))
(Synt Form (NP))
(Sem Features (any))
(Synt Function (Dir. Obj Scomp))
(Stype (infinitive gerundive))
Entrada para TO LOVE
(LOVE
(SyntFor (V))
(class (emotion)))
Ejemplos de entrada léxica (3)
Léxico generativo (Pustejovsky)
Tipos complejos
book
ARGSTR =
QUALIASTR =
ARG1 = x: information
ARG2 = y:phys_obj
information·phys_obj
FORMAL = hold(y,x)
TELIC = read(e1,w,x·y)
AGENT = write(e2,v,x·y)
Ejemplos de entrada léxica (4)
Lexicología Explicativa y
Combinatoria (Mel’cuk)
Cada UL dispone de tres secciones:
•
Zona semántica:
--> etiqueta semántica o definición
--> estructura argumental
•
Zona sintáctica:
--> medios de realización superficial de los
argumentos
•
Zona de funciones léxicas (FFLL)
Ilustración de la Zona Semántica:
 DISGUSTO 1: Disimulaba el disgusto de estar haciendo algo que no
quería hacer
etiqueta semántica: ‘estado’ Syn: desgana, desagrado
forma proposicional: ‘disgusto de individuo X por hecho Y’

DISGUSTO 2a: Se llevará un disgusto cuando lo sepa
etiqueta semántica: ‘sentimiento’ Syn: sofocón, padecimiento
forma proposicional: ‘disgusto de individuo X por hecho Y’

DISGUSTO 2b: Aquello fue un gran disgusto para María
etiqueta semántica: ‘hecho’ Syn: penalidad, golpe
forma proposicional: ‘[hecho Y es] un disgusto para individuo X’

DISGUSTO 3: Ha tenido un disgusto con su cuñada
etiqueta semántica: ‘situación’
Syn: disputa, querella
forma proposicional: ‘disgusto de individuo X con individuo Y por Z’
Ilustración de la zona de Régimen
 DISGUSTO 2a
Disgusto de individuo X por hecho Y
X = I:
de N
el disgusto de Juan
Apos
su disgusto
A
disgusto familiar
Y = II:
por N
por Vinf
ante N
disgusto por el suspenso
disgusto por haber suspendido
disgusto ante su marcha
Ilustración de la zona de FFLL
 DISGUSTO 2a
tener un D. (Oper1):
tener, sufrir, recibir,
llevarse, pasar [un ˜] ;
Y causa que X tenga un D.(CausFunc1):
dar, producir, acarrear,
traer, costar [un ˜ a X]
//disgustar [a X]
X causa que X tenga un D.(Caus1Func1):
cosechar [˜s]
intentar no causar un D (nonCausFunc1) :
ahorrar, evitar [un ˜ a X]
X no manifiesta el D.(nonPerm1Manif):
ocultar, disimular [ART ˜ ]
el D. de X desaparece(FinFunc1):
olvidarse, pasarse [a X]
Organización de la exposición
1. Qué es un léxico computacional
2. Cómo representar la información
3. Aplicaciones de la LexComp
Aplicaciones
Técnicas que incorporan conocimiento lingüístico
Sistemas de tratamiento de la información
Extracción de información
Recuperación de información
TA
 Aplicaciones: usuario final
Lexicografía
Autoaprendizaje,
Buscadores, etc.
Recursos (léxicos)
Aplicaciones (1) Clasificación
ENTR
á b a co
E T IM
ACEP
S IG N
(D el lat. A b acu s // g r. ab ax )
1
In stru m en to d e cálcu lo co n sisten te en u n tab lero d e
m ad era co n ala m b res h o rizo n tales y p aralelo s, y u n as
b o las ag u jeread as q u e co rren a lo larg o d e ésto s , u sad o
CATG
ACEP
S IG N
S IN O
CATG
ACEP
S IG N
TEM A
p ara realizar o p eracio n es d e aritm ética y p ara
co n tab ilizar lo s tan to s o b ten id o s en alg u n o s ju ego s co m o
el b illar.
s.m .
2
G ráfico d e escalas p ara ab rev iar lo s cálcu lo s aritm ético s.
n o m o g ra m a
s.m .
3
P arte su p erio r en fo rm a d e tab lero q u e co ro n a el cap itel d e
la co lu m n a.
A R Q U IT E C T U R A
ábaco
ábaco
NCMS000
Aplicaciones (2)
Clasificación semántica
S A N ID A D
P roblem as de con gestión en los cen tros h ospitalarios catalan es
P u jol m atiza a R iu s y an u n cia
plazos de las listas_de_espera
in version es
L a_V an gu ardia - 02:30 h oras - 26/05/2000
para redu cir los
M A R T A _ R IC A R T
JO SEP_CO RB ELLA BA RCE LO N A . -
inversiones
inversión
NCFP000
Aplicaciones (3)
Traducción Automática
Diccionario monolingüe
("llegir" VST
ALO
[raíz] "lleg"
ARGS ((($SUBJ N1 (TYPE P1))
OPT ($DOBJ N1 (TYPE P0) N0 (FCP 0)
(MD-0 IND))))
CL
[modelo de flexion] (IR-E)
CMT
[prototipo flexivo] "Model: servir"
ON
CO
PLC
(NF)
TAL
[admite -eix-] -EIX
AUTHOR
"elisabel"
DATE
"1-Mar-99"
SITE
"FB52")
Aplicaciones (5)
Traducción Automática
Diccionario Bilingüe Incita/SailLabs
"fer" VST --> "retroceder" VST =
Tests (XFR-VST-CTEST :MW T :FIXEXPR T
:EXPR "enrere")
Comment "no ens farem enrere =no retrocederemos"
<< Fb52 FB52 Elisabel 23-Mar-99 >>
"fer" VST --> "llegar" VST =
Tests(XFR-VST-CTEST :MW T :FIXEXPR T :
EXPR "tard")
Comment "fer tard =llegar tarde"
<< Fb52 FB52 Elisabel 24-Mar-99 >>
"fer" VST --> "pesar" VST =
<< Fb52 FB52 Elisabel 23-Mar-99 >>
Organización de la exposición
1. Qué es un léxico computacional
2. Cómo representar la información
3. Aplicaciones de la Lexicografía computacional
4. Proyectos
4. Proyectos lexicográficos
DiCE (Diccionario de colocaciones del español)
http://www.dicesp.es
 DiCoInfo (Dicctionario de informática)
http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi?ui=es
EuroWordNet
http://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl
FrameNet
http://framenet.icsi.berkeley.edu
 Spanish FrameNet
http://sato.fm.senshu-u.ac.jp/sfn20/notes/index2.html
Descargar

Document