FONAMENTS DE PROCESSAMENT
DEL LLENGUATGE NATURAL
13305 – Lingüística - UPF
[email protected]
Classe 9
N.Bel - FPLN
Programa
Anàlisi sintàctica probabilística amb
gramàtiques lliures de context.
Anàlisi probabilística lexicalitzada.
N.Bel - FPLN
Recapitulem
N.Bel - FPLN
Processament del Llenguatge Natural
Processar es reconèixer elements i assignar-los una
representació per tal de poder manipular-los i
prendre decisions.
Representació és informació explícita sobre l’ítem
lingüístic
I és necessària perquè:
– els ítems lingüístics no tenen una única
interpretació. El sistema lingüístic està fonamentat
en un principi d’economia: pocs elements poden
fer diferents funcions i es produeix ambigüitat
– el sistema lingüístic és productiu: mai no podríem
tenir un inventari de tots els ítems lingüístics
N.Bel - FPLN
Gramàtiques i analitzadors
Problemes pràctics
Les CFG i les gramàtiques d’unificació estan
pensades per donar totes les
representacions possibles, totes les
interpretacions.
– És indispensable?
– És una bona estratègia pràctica?
No totes les aplicacions demanen una
representació detallada: Traducció
automàtica i Extracció d’Informació
N.Bel - FPLN
Un cas pràctic
Extracció d’informació
Els sistemes d’extracció d’informació
“Analitzen text no restringit per extreure tipus
específics d’informació. No pretenen més que
identificar aquelles parts de cada document
que contenen informació rellevant. La
rellevància ve definida per l’aplicació i el
domini, i s’han d’especificar a priori per
desenvolupar el sistema”
N.Bel - FPLN
Productes comercials d’extracció
El producte: http://www.netowl.com/products/extractor.htm
Aplicacions: http://www.netowl.com/solutions/litigation.html
Este producto fue uno de los pioneros en la aplicación de la tecnología de
extracción de información. SRA empezó a comercializar la gama de productos
de minería de textos en 1996, pero ya había estado trabajando con contratos
para el Gobierno de los Estados Unidos desde principios de los noventa del
siglo XX. Ha sido el mejor sistema en las evaluaciones realizadas por el NIST,
en extracción de entidades con nombres, con una puntuación no igualada
después por ningún otro sistema, y está también a la cabeza en la tecnología de
extracción de relaciones y sucesos.
Su principal cliente sigue siendo el Gobierno de los Estados Unidos, aunque
también consta en su página web que tiene clientes en otros sectores,
principalmente en el de servicios de valor añadido, por ejemplo Edgar Online
People, servicios relacionados con una base de datos de personas y cargos que
ocupan, o Thomson Gale™ empresa que comercializa información
especializada.
N.Bel - FPLN
Plataformes de gestió de documentació
http://www.xrce.xerox.com/competencies/cros
s-language/home.html
http://www.spss.com/lexiquest/lexiquest_mine
.htm
N.Bel - FPLN
Topic detection and Tracking
Otra de las herramientas que ha suscitado gran interés en el
mundo de la extracción de información ha sido la identificación
y seguimiento de asuntos (en inglés, Topic Detection and
Tracking, abreviado TDT) en flujos de datos no segmentados,
típicamente prensa hablada o escrita. El objetivo es identificar y
hacer el seguimiento de historias o sucesos a lo largo de
diferentes textos. Esto es, son herramientas con técnicas de
extracción de información pero en las que la identificación de
sucesos se extiende a lo largo de una serie de documentos, con
lo que hay que identificar sucesos enlazados. La investigación
más reciente está llevando las técnicas de TDT a aplicaciones
concretas: seguimiento de noticias sobre descubrimientos
científicos, asignación de autoría a ideas científicas, realizar
análisis de grabaciones de Call Centers, etc.
N.Bel - FPLN
MUMIS-DFKI
www.lt-demo.org
Lübeck (dpa) - Die Lübecker Possehl-Gruppe, ein im Produktions-,
Handel- und Dienstleistungsbereich tätiger Mischkonzern, hat 1994
den Umsatz kräftig um 17 Prozent auf rund 2,8 Milliarden DM
gesteigert. In das neue Geschäftsjahr sei man ebenfalls
„mitSchwung“
gestartet. Im 1. Halbjahr 1995 hätten sich die Umsätze des Konzerns
im Vergleich zur Vorjahresperiode um fast 23 Prozent auf rund 1,3
Milliarden erhöht.
type
=
c-name =
year
=
amount =
tendency=
diff
=
N.Bel - FPLN
turnover
Possehl1
1994
2.8e+9DM
+
+17%
type
=
c-name =
year
=
amount =
tendency=
diff
=
turnover
Possehl1
1995/1
1.3e+9DM
+
+23%
SRI-FASTUS Appelt & Israel (1997):
Building information extraction systems.
www.ai.sri.com/~appelt/ie-tutorial
“San Salvador, 19 Apr 89 (ACAN-EFE) -- [TEXT] Salvadoran Presidentelect Alfredo Cristiani condemned the terrorist killing of Attorney
General Roberto Garcia Alvarado and accused the Farabundo Marti
National Liberation Front (FMLN) of the crime.
Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas
on his vehicle exploded as it came to a halt at an intersection in
downtown San Salvador.
Incident:
Date - 19 Apr 89 Incident:
Vice President-elect Francisco Merino said that when the attorney
Location
El Salvador: San Salvador (CITY)
general's car stopped at a light on a street in downtown San Salvador,
Incident:
Type Bombing
an individual
placed a bomb on the roof of the armored vehicle.
Perpetrator:
ID "urban
guerrillas“
AccordingIndividual
to the police
and Garcia
Alvarado's driver, who escaped
Perpetrator:
Organization
"FMLN“was traveling with two bodyguards.
unscathed,
the attorneyIDgeneral
One of them
was injured.
Perpetrator:
Organization
Suspected or Accused by Authorities: "FMLN"
Confidence Physical Target: Description "vehicle“
Physical Target: Effect Some Damage: "vehicle"
Human Target: Name "Roberto Garcia Alvarado"
N.Bel - FPLN
Human Target: Description "attorney general": "Roberto Garcia Alvarado"
Tècniques pràctiques d’anàlisi
Shallow-Partial Parsing (Anàlisi parcial)
FASTUS, Appelt & Israel (1997) usen autòmats “en
cascada” per reconèixer “grups”. Per exemple, un
grup nominal està format pel nucli (N) i els
modificadors a la esquerra.
“En cascada” es refereix a la tècnica d’aplicar
autòmats que reconeixen diferents seqüències en
forma de paquets que es passen un darrera de
l’altre, i de forma iterativa.
N.Bel - FPLN
Tècniques pràctiques d’anàlisi
Chunking (a pedaços)
També es parla de “Chunking” quan volem
reconèixer porcions de text i agrupar-los per
donar-li ja no tant una representació de la
estructura, com una etiqueta.
S’usen formalismes basats amb expressions
regulars que defineixen patrons de cerca.
El chunking també està relacionat amb el que
se’n diu: Named Entity Recognition: podem
reconèixer: dates, noms propis (de persones,
empreses o de lloc), xifres, etc.
N.Bel - FPLN
Exemples de patrons
Candidats per apedaçar
seis de junio de 1990
6-06-1990
Del 1 de agosto al diez de septiembre.
6º de temperatura.
6ºC de temperatura.
6º C de temperatura;
un 40% de
40,000 personas.
40.000 personas
300 millones de euros
300.000.000 de euros
300 M€
CC.OO.
Mayor Oreja
N.Bel - FPLN
Anàlisi probabilística per resoldre
ambigüitat
És aplicar probabilitat per assignar una (i no
més una) representació d’una expressió.
Una
gramàtica
probabilística
assigna
solament l’anàlisi més probable (que serà la
correcta en la major part dels casos).
Redueix el problema d’eficiència
Una gramàtica probabilística es construeix
calculant les anàlisis més freqüents d’un
corpus ja analitzat. Redueix el problema de
desenvolupament.
N.Bel - FPLN
Mètodes d’anàlisi probabilística (1)
Augmentar una CFG amb informació probabilística
(PCFG) (o també Stochastic Context Free Grammar
(Booth 1969)).
En aquest model cada regla de la gramàtica
s’augmenta
amb
informació
de
probabilitat
condicionada.
A → β [p]
La probabilitat p de que donat un no-terminal A,
aquest s’expandeixi en la seqüència β:
P(A→ β) o P(A → β|A)
N.Bel - FPLN
Mètodes d’anàlisi probabilística (2)
La probabilitat d’una anàlisi determinada (una
representació) es defineix com el producte de les
probabilitats de totes les regles r que s’han aplicat
per expandir cada nus n en l’arbre d’anàlisis.
P(Arbre,Oració) = Π p(r(n))
nεT
La probabilitat resultant P(Arbre,Oració) es tant la
probabilitat conjunta de l’anàlisi i de la oració, com
també la probabilitat de l’anàlisi P(Arbre).
N.Bel - FPLN
Mètodes d’anàlisi probabilística (3)
Per desambiguar podem usar un algorisme
que seleccioni el millor arbre per a una oració
a partir del conjunt d’arbres.
N.Bel - FPLN
Mètodes d’anàlisi probabilística (4)
La manera més senzilla de calcular l’anàlisi més probable és
observar un corpus ja analitzat.
“Treebank” són bancs d’anàlisis.
http://linc.cis.upenn.edu/~treebank/home.html
http://treebank.linguist.jussieu.fr/toc.html
TOTA la informació sobre Treebanks i maneres d’explotar-los,
també amb informació sobre diferents llengües.
Sobre el Treebank en castellà, hi ha la informació del de Antonio
Moreno Spanish UAM Treebank (corpus anotado sintácticamente
del español).
http://www.lllf.uam.es/~sandoval/UAMTreebank.html
http://www.bultreebank.org/Proceedings.html
http://www.compapp.dcu.ie/~away/Treebank/treebank.html
N.Bel - FPLN
Problemes de l’anàlisi probabilística
fan una assumpció d’independència entre les regles,
però podem dir que l’expansió d’un nus depén del
seu lloc a l’arbre:
exemple: el SN pre-verbal (subjecte) i post-verbal
(objecte)
• SN  N
• SN  Det N
en anglès, (Francis, 1999), la probabilitat de que un
SN  pron, quan és subjecte és del 91%.
N.Bel - FPLN
Problemes de l’anàlisi probabilística (2)
No podem esbiaixar les regles segons els nusos
terminals, i voldríem donar compte de relacions de
dependència lèxica
Hi ha solucions parcials:
– Probabilistic Lexicalized CFG’s, que inclouen la
informació del nucli com a atribut del nus
– Expanded lexicalized Grammar, que
emmagatzemen una probabilitat per a cada
combinació regle/nucli
SV(llevar) --> V(llevar) SN(comida) PP(a)
SV(llevar) --> V(llevar) SN(olla) PP(a)
N.Bel - FPLN
[0.1]
[0.0001]
Resum
Les gramàtiques i analitzadors declaratius tenen les
seves limitacions pràctiques: desenvolupament,
cobertura i eficiència
Tècniques pràctiques per aconseguir una
representació, la profunditat de la qual depèn de
l’aplicació:
– shallow parsing (autòmats en cascada, entre
d’altres).
– chunking (amb expressions regulars de definició
de patrons)
Gramàtiques probabilístiques: resolen els problemes
de les gramàtiques declaratives, fent prediccions
basades en la probabilitat, pel que fa a l’eficiència i el
N.Bel
- FPLN
desenvolupament,
però perden capacitats.
Descargar

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE …