Diccionario o Base de datos léxicos
Margarita Alonso Ramos
Master LUP 2012
Organización de la exposición
Qué
léxico
computacional
1.1.Qué
eses
un un
léxico
computacional
• Qué elementos son una unidad léxica
Qué información
contiene
2.•Cómo
representar
launa
información
entrada lexicográfica
léxica
3. Aplicaciones de la LexComp
4. Proyectos de LexComp
1. ¿Qué es un léxico computacional?
No es solo un diccionario en soporte informático
http://elies.rediris.es/elies24/pampillon.htm
Los diccionarios en línea o en CD pueden ser una buena
herramienta pero el usuario es un humano, no un sistema
http://www.diccionarios.com/consultas.php#
http://www.ideasafines.com.ar/buscador-ideas-relacionadas.php
VOLGA: http://www.realacademiagalega.org/volga/index.jsp
DRAE: www.rae.es
DicoPortugués: http://www.priberam.pt/dlpo/dlpo.aspx
WordReference: http://www.wordreference.com/es/
Bilingüe inglés: http://www.babylon.com/definition/give/Spanish
Cambridge: http://dictionary.cambridge.org
Merrian-Webster:
www.m-w.com/cgi-bin/dictionary?book=Dictionary&va=purchase&x=0&y=
htttp://oesi.cervantes.es/TLTODOS/recursos_linguisticos_1.htm
1. ¿Qué es un léxico computacional?
Un “almacén” de información
léxica
accesible por medios manuales o automáticos
para sistemas de PLN
1.1.¿Qué se entiende por unidad léxica?
Unidades léxicas (UL): sentidos o acepciones
Actuar
1 intr. Ejercer una persona o cosa actos propios de su naturaleza
2 Ejercer las funciones propias de un oficio: ~ de secretario.
3 Representar en el teatro o en el cine.
4 Trabajar en un espectáculo público.
5 Defender, en las universidades, conclusiones públicas o practicar ejercicios de oposición.
6 DER. Realizar actuaciones
Concepto de acepción (polisemia):
Difícil delimitación
Diferente según el objetivo aplicativo
¿Qué se entiende por unidad léxica? (2)
Granularidad en la diferenciación de sentidos (diccionarios)
libro
cerdo
monosémico
monolingües: animal, carne, piel, ....
bilingües (desajustes: pig, pork)
El tipo semántico no implica que haya una o más
acepciones.
diferentes sentidos
matices de un mismo sentido
¿?
1.2. ¿Qué información contienen ?
Dependiendo de los objetivos del léxico:
 La trascripción fonética
 La categoría gramatical y paradigma morfológico
dar {vdtr}, 1ªconj.
 La estructura argumental, patrón sintáctico-semántico básico
SYNSEM
| LOC
HEAD
| MAJOR V
| SUBCAT = <SN [1], SN[2], SP [3]>
SEM
[dar agente [1], tema [2], beneficiario [3]]
¿Qué información contienen ?
 Información semántica: tipo semántico
definido en una ontología.
chico [HUMANO]
ordenador [ARTEFACTO]
 Restricciones selectivas
 Relaciones léxicas:
Paradigmáticas: sinonimia, antonimia, hiponimia
Sintagmáticas: colocaciones
Las equivalencias con otras lenguas, ...
Organización de la exposición
1. Qué es un léxico computacional
Cómorepresentar
representarlalainformación
información
2.2.Cómo
léxica
léxica
3. Aplicaciones de la LexComp
4. Proyectos de LexComp
2. ¿Cómo representar la información?
 Bases de datos
 Modelos textuales
 Bases de conocimiento léxico
 Ontologías
Modelos de representación computacionales
Bases de datos relacionales
las entradas se representan en tablas
 cada tabla consta de diversos rasgos que toman valores
Cat = N
Gen = Fem
ventajas
 software convencional de gestión de base de datos (Access de Microsoft)
mantenimiento, eficiencia y facilidad de interrogación
 gran capacidad expresiva
limitaciones:
- falta de estructura jerárquica
– excesiva uniformidad
– poco apropiadas para los rasgos de tipo textual
Modelos de representación computacionales
Modelos textuales
Corpus en bruto:
Frecuencias léxicas
 Coapariciones de dos o más palabras
Corpus etiquetados:
 morfológicamente
 sintácticamente
 semánticamente
 identificación de colocaciones
Modelos de representación computacionales
Representaciones orientadas a objetos
NOMBRE-F-REG
cat= n
tipo = común
género= femenino
morfología=
NFAAS
CLASE
CLASE
EJEMPLARES
casas
casa
es-un: NOMBRE-F-REG
número= singular
es-un: NOMBRE-F-REG
número= plural
Modelos de representación computacionales
Ontologías
semántica basada en una ontología
lengua
cada sentido
se diferencia
por uno o
más rasgos
+ lengua
semítica
+ lengua
+ semítica
árabe
+ lengua
+ semítica
semántica basada en una ontología
lenguaje
programación
indoeuropea
hebreo
lengua
semítica
árabe ...
+ lengua
+ lengua
+ semítica
+ lengua
+ semítica
+ árabe
Modelos de representación computacionales
Ontologías
WordNet
- Red de conocimiento léxico-semántica
- Relaciones semánticas:
sinonimia, hiperonimia, hiponimia, meronimia...
- Unidad de descripción: synset
Modelos de representación
computacionales
vehículo
Redes semánticas
es-un
automóvil 1 ; coche 2 ; carro 2
es-un
es-un
se-compone-de
ambulancia
ranchera;furgón
es-un
taxi
motor
rueda
volante
Modelos de representación computacionales
Problemas
incompleto: dominios poco o nada representados
sentidos básicos que no aparecen
Granularidad excesiva:
Hombre=
el que sirve en el ejército
(10)
opuesto a hembra
opuesto a esposa
carácter de hombre
...
Criterio poco claro de sinonimia 
hiperonimia/hiponimia
Organización de la exposición
1. Qué es un léxico computacional
2. Cómo representar la información
3. Aplicaciones de la LexComp
Aplicaciones
Técnicas que incorporan conocimiento lingüístico
Sistemas de tratamiento de la información
Extracción de información
Recuperación de información
TA
 Aplicaciones: usuario final
Lexicografía
Autoaprendizaje,
Buscadores, etc.
Recursos (léxicos)
Aplicaciones (1) Clasificación
ENTR
ETIM
ACEP
SIGN
ábaco
(Del lat. Abacus // gr. abax)
1
Instrumento de cálculo consistente en un tablero de
madera con alambres h orizontales y paralelos, y unas
bolas agujereadas que corren a lo largo de éstos , usado
para realizar operaciones de aritmética y para
contabilizar los tantos o btenidos en algunos juegos como
el billar.
CATG s.m.
ACEP 2
SIGN
Gráfico de escalas para abreviar los cálculos aritméticos.
SINO
nomograma
CATG s.m.
ACEP 3
SIGN
Parte superior en forma de tablero que corona el capitel de
la columna.
TEMA ARQUITECTURA
ábaco
ábaco
NCMS000
Aplicaciones (2)
Clasificación semántica
SANIDAD
Problemas de congestión en los centros hospitalarios catalanes
Pujol matiza a Rius y anuncia inversiones para reducir los
plazos de las listas_de_espera
La_Vanguardia - 02:30 horas - 26/05/2000 MARTA_RICART
JOSEP_CORBELLA BARCELONA . -
inversiones
inversión
NCFP000
Aplicaciones (3)
Traducción Automática
Diccionario monolingüe
("llegir" VST
ALO
[raíz] "lleg"
ARGS ((($SUBJ N1 (TYPE P1))
OPT ($DOBJ N1 (TYPE P0) N0 (FCP 0)
(MD-0 IND))))
CL
[modelo de flexion] (IR-E)
CMT
[prototipo flexivo] "Model: servir"
ON
CO
PLC
(NF)
TAL
[admite -eix-] -EIX
AUTHOR
"elisabel"
DATE
"1-Mar-99"
SITE
"FB52")
Aplicaciones (5)
Traducción Automática
Diccionario Bilingüe Incita/SailLabs
"fer" VST --> "retroceder" VST =
Tests (XFR-VST-CTEST :MW T :FIXEXPR T
:EXPR "enrere")
Comment "no ens farem enrere =no retrocederemos"
<< Fb52 FB52 Elisabel 23-Mar-99 >>
"fer" VST --> "llegar" VST =
Tests(XFR-VST-CTEST :MW T :FIXEXPR T :
EXPR "tard")
Comment "fer tard =llegar tarde"
<< Fb52 FB52 Elisabel 24-Mar-99 >>
"fer" VST --> "pesar" VST =
<< Fb52 FB52 Elisabel 23-Mar-99 >>
Organización de la exposición
1. Qué es un léxico computacional
2. Cómo representar la información
3. Aplicaciones de la Lexicografía computacional
4. Proyectos
4. Proyectos lexicográficos
DiCE (Diccionario de colocaciones del español)
http://www.dicesp.es
 DiCoInfo (Dicctionario de informática)
http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi?ui=es
EuroWordNet
http://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl
FrameNet
http://framenet.icsi.berkeley.edu
 Spanish FrameNet
http://sato.fm.senshu-u.ac.jp/sfn20/notes/index2.html
Descargar

Document