Descubriendo las reglas para
construir nuevas palabras
Morfología
Luis Villaseñor Pineda
Laboratorio de Tecnologías del Lenguaje
Coordinación de Ciencias Computacionales,
Instituto Nacional de Astrofísica, Óptica y Electrónica
Morfología

Entrada:


Salida:


Secuencia de fonemas (letras)
Secuencia de pares (lema, tag(s))
Estudia:

Composición de fonemas/grafemas en formas léxicas (palabras)
a partir de sus raíces (lema) + categorías morfológicas (inflexión,
derivación, composición).
Laboratorio de Tecnologías del Lenguaje
2
Contenido



¿Cómo construimos nuevas palabras?
¿Qué es una palabra?
Funciones de la Morfología



Inflexión
Derivación y Composición
Algunos enfoques para su resolución
Laboratorio de Tecnologías del Lenguaje
3
¿Para qué la morfología?

Usos corrientes

Corrigiendo la ortografía





*presición => inherente a la palabra
Yo caminabas => concordancia número y género
termino / término => contexto / categoría gramatical
sólo / solo => contexto / categoría gramatical
Separando en sílabas



ta-re-a
trans-crip-ción
dí-a
Laboratorio de Tecnologías del Lenguaje
4
¿Para qué la morfología?

Recuperando su origen – significado

Para clasificación de textos: mientras más se mencione una
palabra (un significado) con mayor seguridad el texto versa
sobre ese tema



huracán, huracanes
lluvia, lluvias
Como primer paso de un analizador sintáctico
Laboratorio de Tecnologías del Lenguaje
5
¿Para qué la morfología?

Recordemos:



Recuperación de información: recopilación de documentos
pertinentes
Extracción de información: extracción de piezas de información
de interés a partir de documentos
Minería de texto: descubriendo nuevas asociaciones entre las
piezas de información extraídas
Laboratorio de Tecnologías del Lenguaje
6
Morfología computacional
Trata con el procesamiento de las palabras tanto en su
forma escrita (grafemas) como su forma hablada
(fonemas).
Sistematización para la creación de nuevas palabras así
como formas léxicas a partir de unidades más pequeñas.


Nuevas palabras deberán considerar la fonología del
lenguaje




déjà vu
bougambillia – bugambilia
computadora – ordenador
Laboratorio de Tecnologías del Lenguaje
7
Conceptos básicos

Morfemas - los bloques básicos, entidades
abstractas expresando características básicas

Conceptos semánticos (raíces)


Puerta, lápiz
Características abstractas

Puerta-s plural
Conceptos básicos

¿qué es una palabra?


“algo” entre blancos – ¿entonces en el habla?
“algo” con significado –

Dímelo - una sola palabra pero son tres “algos”
Laboratorio de Tecnologías del Lenguaje
9
Conceptos básicos

¿qué es una palabra?


“algo” entre blancos – ¿entonces en el habla?
“algo” con significado –



Dímelo - una sola palabra pero son tres “algos”
Unidades a partir de las cuales se forman oraciones
Las palabras se agrupan por su función estructurando
una frase (parte de la oración)
Laboratorio de Tecnologías del Lenguaje
10
Funciones de la morfología
• Varía considerablemente entre idiomas:
•
Inglés/Español
•
•
I speak – hablo
---
I will speak –hablaré
Náhuatl
•
•
Popocatépetl
Popocitlali
Laboratorio de Tecnologías del Lenguaje
11
Funciones de la morfología I

Inflexión

Cambia su categoría gramatical pero no su categoría de parte de
la oración.



comeré – comiste
ladrón – ladronzuelo
Tres clases en función de su inflexión



Partículas o palabras sin inflexión (conjunciones, artículos, etc.)
Verbos – admiten la conjugación
Nominales – palabras con declinación (adjetivos, adverbios, etc.)
Laboratorio de Tecnologías del Lenguaje
12
Funciones de la morfología II

Derivación

Proceso para crear nuevas palabras. Cambia su categoría
gramatical y cambia su categoría de parte de la oración.


La derivación es incompleta no se puede aplicar a todas las
palabras de una determinada clase


Comer - comestible
Correr – *corrible
Depende de su origen (es una raíz latina o griega)


Triste – tristeza
Feo – *feeza
Laboratorio de Tecnologías del Lenguaje
13
Funciones de la morfología III

Composición

Proceso para crear nuevas palabras. A partir de dos palabras
(dos raíces) creamos una nueva




Cabizbajo
Maniatado
malhablado
No es claro donde termina la derivación y empieza la
composición


Dinosaurio
Televisión
Laboratorio de Tecnologías del Lenguaje
14
¡Los límites no son claros!












Pasta – pasto
Foco – foca
Campana – campanilla
Raya – rayo
Velo – vela
Taza – tazo
Punto – punta
Marco – marca
Fila – filo
Pilón – piloncillo
Manzana – manzanilla
Manzano – manzanillo
Laboratorio de Tecnologías del Lenguaje
15
Construyendo palabras



Una palabra es una secuencia / concatenación de
morfemas
El morfema principal o libre es la raíz
Un afijo es un morfema secundario o atado

Prefijo – afijo concatenado frente a la raíz


Feliz – infeliz
Sufijo – afijo concatenado al final de la raíz


Marca – marcas
Árbol – árboles
Laboratorio de Tecnologías del Lenguaje
16
Ejemplos

Pseudohospitalización







Pseudo – hospitalización
Hospitalizar – hospitalización
Hospital – hospitalizar
Destruir
Mano
Capital
Sucio
Laboratorio de Tecnologías del Lenguaje
17
Restricciones sobre los afijos

Tenemos restricciones semánticas, por ejemplo, no es posible
adjetivar negativamente un nombre que ya tiene una carga
negativa:





Feliz – infeliz
Triste – *intriste
Correcto – incorrecto
Errado – *inerrado
Existen muchas más incluyendo restricciones fonológicas



Propio – impropio
Tonantzintla – Tonanzintla
Cempoaxochitl – Cempaxúchil
Laboratorio de Tecnologías del Lenguaje
18
Etiquetando en partes de la oración

Usamos las características morfológicas de las palabras junto
con su contexto para determinar su parte de la oración (su
función gramatical)

La ayuda desinteresada de mi parte






La – artículo femenino singular
Ayuda – sustantivo femenino singular
Desinteresada – adjetivo femenino singular
De – preposición
Mi – adjetivo posesivo primera persona singular
Parte – sustantivo femenino singular
Laboratorio de Tecnologías del Lenguaje
19
El contexto es indispensable

*parte ayuda mi desinteresada de la

¿Qué pasa con estas frases?






dímela
Él ayuda a su madre
Las notas son: do, re, mi, fa, sol
La muy desinteresada se fue con otro
Dé el nombre de un árbol
Él parte el pastel con cuidado
Laboratorio de Tecnologías del Lenguaje
20
El contexto y nuestra expectativa

¿Qué tanto leemos y que tanto “inventamos”?
Laboratorio de Tecnologías del Lenguaje
21
El contexto y nuestra expectativa

¿Qué tanto leemos y que tanto “inventamos”?

"Sgeun un etsduio de una uivenrsdiad ignlsea, no ipmotra el
odren en el que las ltears etsan ersciats, la uicna csoa ipormtnate
es que la pmrirea y la utlima ltera esten ecsritas en la psiocion
cocrrtea. El rsteo peuden estar ttaolmntee mal y aun pordas lerelo
sin pobrleams. Etso es pquore no lemeos cada ltera por si msima
snio la paalbra cmoo un tdoo. Pesornamelnte me preace
icrneilbe..."
Laboratorio de Tecnologías del Lenguaje
22
¿Qué hay detrás de un etiquetador?

Un sistema de reglas aplicadas a un lexicón de base
Junto con un proceso estocástico para incluir el
contexto (Modelos Ocultos de Markov)

Sistema con el que trabajaremos



FreeLing
LingPipe
Laboratorio de Tecnologías del Lenguaje
23
Aplicación:
clasificación de preguntas

Objetivo: agrupar las preguntas por el tipo de
respuesta esperada

¿Dónde nació Benito Juárez? – LUGAR
¿Quién inventó el teléfono? – PERSONA
¿Cuándo cayó la primera bomba atómica? – FECHA

¿Quién invadió a Kuwait?


Laboratorio de Tecnologías del Lenguaje
24
Solución con aprendizaje automático
Caracterizamos las preguntas:

1.
Los pesos de las palabras objetivo de la pregunta con respecto
al tipo de pregunta

2.
Usamos la Web

”President is a person”

”President is a place”

”President is a date”

”President is a measure”

”President is an organization”
Las palabras de la pregunta (bolsa de palabras)
Laboratorio de Tecnologías del Lenguaje
25
¿Cómo obtener
las palabras objetivo?


Las obtenemos al consultar sobre la Web:
Por ejemplo: Who is the President of the French Republic?
1.
2.
3.
Eliminamos las palabras vacías (partículas sin contenido)
Eliminamos los adverbios o pronombres interrogativos
Reformulamos la consulta con el resto de las palabras:


Si el motor de búsqueda no regresa ningún resultado entonces eliminamos
palabras de derecha a izquierda:



”President French Republic is a si” donde
si є {Person, Organization, Place, Date, Measure}.
”President French is a si”
”President is a si”
En particular, para este último caso tenemos respuesta para todas las clases
semánticas excepto FECHA
Laboratorio de Tecnologías del Lenguaje
26
Usando la Web
para caracterizar una pregunta
Laboratorio de Tecnologías del Lenguaje
27
Usando las palabras de la pregunta

Usamos todas las palabras de la pregunta


Problema: los plurales, las conjugaciones !!




La presencia de una palabra caracteriza una pregunta
Quién, Quienes
Es, eran, fue
Cuánto, Cuántas
Solución: un analizador morfológico
Laboratorio de Tecnologías del Lenguaje
28
Usando las palabras de la pregunta


Problema: depende del idioma
Solución: truncado

Quién – quienes



A 4 caracteres >quie<
A 5 caracteres >quien<
Se hicieron cálculos para tres idiomas:

Español, italiano e inglés
Laboratorio de Tecnologías del Lenguaje
29
Resultados al clasificación usando
palabras, prefijos y la Web
Laboratorio de Tecnologías del Lenguaje
30
Resultados al clasificación usando
palabras, prefijos y la Web
Laboratorio de Tecnologías del Lenguaje
31
Resultados al clasificación usando
palabras, prefijos y la Web
Laboratorio de Tecnologías del Lenguaje
32
Descargar

Morfología - Ciencias Computacionales