Traducció Automàtica
Aplicacions del PLN
N. Bel & M. Marimon 2005-06
Traducció basada en informació
lingüística
• Característiques tècniques dels sistemes de
traducció automàtica (anàlisi, generació, lèxic,
parser, etc.)
• L'arquitectura dels sistemes de traducció
automàtica:
– sistemes de transferència
– d’interlingua
– explotació estadística d’informació lingüística
N. Bel & M. Marimon 2005-06
TA amb informació lingüística
Traduir és un procés de de-codificar un text en una
llengua i tornar-lo a codificar en una altra
llengua.
1) Analitzem el text en la LO
2) Transferim informació
3) Generem la informació en la LA
N. Bel & M. Marimon 2005-06
Codificació de missatges
Weaver 1949
• Compara la traducció amb la criptografia
Text LO
Text LA
Codi comú a totes les llengües
N. Bel & M. Marimon 2005-06
Traducció
directe
Nivell d’anàlisi
Paraules
Paraules
Transferència
Inf. sintàctica
Inf. sintàctica
Inf. semàntica
Inf. semàntica
INTERLINGUA
N. Bel & M. Marimon 2005-06
Problemes
Però assolir desxifrar el contingut d’un text en
una llengua comportava problemes:
a) com es representava el “contingut”?
b) com s’arribava a la representació d’aquest
contingut?
c) quina era la informació necessària per poder
traduir?
N. Bel & M. Marimon 2005-06
Recordatori:
Informació necessària per traduir
• Coneixement equivalències entre llengües
– Diccionari bilingüe
– Construccions sintàctiques diferents:
• Subj Verb Predicat => Subj Predicat Verb
• Passiva => Activa
• Coneixement llengua origen:
– Reconèixer els constituents i les funcions: subj.
• Coneixement llengua meta:
– Construir oracions correctes: la duda / el dubte
N. Bel & M. Marimon 2005-06
Un exemple senzill
Anglès  Català
You like them 
1
2
Ells t’agraden
2
1
1= subjecte anglès
2= objecte anglès
N. Bel & M. Marimon 2005-06
De la traducció paraula per paraula a la
transferència d’informació lingüística
1. The user was supplied with information by the system
2. El usuario fue suministrado con información por el sistema
3. The user was allowed to be supplied with information by the
system
4. El usuario fue permitido ser suministrado con información por el
sistema
N. Bel & M. Marimon 2005-06
Debe cambiar la categorización de los nudos:
- el objeto indirecto en la oración castellana debería ser
un SP, mientras que como sujeto de la oración principal inglesa
es un SN.
- también el objeto directo de facilitar, sin preposición
en castellano, debería derivarse del objeto preposicional regido
del verbo inglés supply with, etc.
18. The user was allowed to be supplied with
information by the system
19. Se permitía que el sistema facilitara
información al usuario
N. Bel & M. Marimon 2005-06
Los argumentos de las diferentes predicaciones cumplen
diferentes funciones gramaticales:
the user es sujeto de la oración principal inglesa y lo
quisiéramos objeto indirecto de la oración subordinada castellana;
the system será en castellano el sujeto de la oración
subordinada y no el complemento agente, etc.
Sujeto
18. The user was
allowed to be supplied with
Obj. Agente
information by the system
Sujeto
19. Se permitíaObj. que
el sistema facilitara
Ind
información al usuario
N. Bel & M. Marimon 2005-06
Las características temporales morfosintácticas también son
diferentes:
• la morfología temporal del castellano se expresa, dependiendo
de la perfectividad por sufijación, mientras que la forma inglesa
incorpora un auxiliar;
•la oración completiva inglesa está formulada en infinitivo y
desearíamos que la castellana fuera una forma finita y en
subjuntivo, que es un valor prácticamente inexistente en inglés,
etc.
18. The user was allowed to be supplied with
information by the system
19. Se permitía que el sistema facilitara
información al usuario
N. Bel & M. Marimon 2005-06
Representació
de la informació lingüística
• Per explicar les relacions entre aquestes frases hem
usat conceptes lingüístics.
• Per poder posar condicions sobre com hem de traduir,
fem referència a elements de representació lingüística:
subjecte, SN, temps verbal ...
• Necessitem tenir una representació d’aquests
conceptes lingüístics, i manipular la informació que ens
subministren per guiar la traducció i la generació de les
oracions en la llengua d’arribada
N. Bel & M. Marimon 2005-06
Com obtenir una representació
automàticament
• arribar a una representació amb informació que
ens permeti traduir
• Necessitem un mecanisme, un programa que
disposi de coneixement sobre la llengua.
• Aquest programa rep una frase i ens torna una
representació amb informació lingüística de la
frase: una anàlisi gramatical
N. Bel & M. Marimon 2005-06
Programa per analitzar
•
Necessitem:
1. Gramàtica: dades sobre com són les frases d’una
llengua.
Exactament, una definició formal del conjunt de frases
que pertanyen a una llengua i solament aquestes
(Formal = computacionalment tractable: que a partir
de un nombre finit de símbols produeixi un nombre
infinit d’expressions)
N. Bel & M. Marimon 2005-06
Productivitat del llenguatge
• No podríem tenir mai totes les frases d’una llengua en
una memòria o base de dades!!
–
–
–
–
–
–
la nena menja pa
la nena menja pa i formatge
la nena menja pa, formatge i pernil
la nena menja pa, formatge, pernil i galetes
la nena menja pa, formatge, pernil, galetes i iogurt
la nena menja pa, formatge, pernil, galetes, iogurt i ....
N. Bel & M. Marimon 2005-06
Programa per analitzar..
2.
2.
La gramàtica conté regles de re-escriptura per
descriure el conjunt de les oracions d’una llengua.
O -> PRO SV
SV -> V PRO
(Re-escriptura: si es dóna el cas que tenim el que hi
ha a la banda dreta de la fletxa, ho podem substituir
pel símbol de la banda esquerra)
Diccionari amb informació sobre les paraules: el lèxic
(pot ser part de la gramàtica)
PRO -> them, you
N. Bel & M. Marimon 2005-06
V -> like, ..
Programa per analitzar
3.
Analitzador (parser): un mecanisme que llegeix, una
per una, les paraules de l’oració que volem analitzar i
construeix mitjançant les regles de re-escriptura la
anàlisi de la frase
Conceptualment l’analitzador i la gramàtica són dues
coses diferents: la gramàtica és una definició d’un
conjunt de frases; l’analitzador és un algorisme, una
sèrie d’instruccions precises que compleixen les
instruccions de la gramàtica
N. Bel & M. Marimon 2005-06
Funcionament
O -> PRO SV
SV -> V PRO
PRO -> they, you
V -> like, ..
N. Bel & M. Marimon 2005-06
Generació
• Una gramàtica (amb el lèxic) tal com l’hem definida, pot
també fer l’operació inversa a l’anàlisis: genera
oracions de la llengua descrita
• O -> PRO SV
• PRO -> you, them
• SV -> V PRO
• V -> like
• PRO -> you, them
N. Bel & M. Marimon 2005-06
Generador
• Quan una gramàtica i l’analitzador construeixen
cadenes de paraules, li direm generador i al procés
generació
La nostra gramàtica ha generat:
1. you like them
2. you like you
3. them like you
4. them like them
• Necessitem més informació per poder generar frases
correctes...
N. Bel & M. Marimon 2005-06
Generador
• Solament volem generar les oracions correctes.
• Afegim informació de cas, per que és el que ens pot
ajudar a definir les oracions correctes
PRO_NOM -> you
PRO_AC -> them
O -> PRO_NOM SV
SV -> V PRO_AC
• “you like them”
N. Bel & M. Marimon 2005-06
Gramàtica d’anàlisi/generació del
català
O -> PRO_NOM SV
SV -> PRO_AC V
PRO_NOM -> ells, elles
PRO_AC -> te
V -> agraden
“ells t’agraden”
“elles t’agraden”
N. Bel & M. Marimon 2005-06
A cada interpretació una estructura
(S
(SN
(N pasajero))
(SV
(VT1 exhiba)
(SN
(SN
(N abono))
(CC o)
(SN
(N pase)))))
(S
(SN
(N pasajero))
(SV
(SV
(VT1 exhiba)
(SN
(N abono)))
(CC o)
(SV
(VI pase))))
N. Bel & M. Marimon 2005-06
INSTITUTO
CERVANTES
Cuál es él?
¿ Qué es esto?
El Instituto Cervantes El Instituto Cervantes es
What is it?
una institución pública
es una institución
fundada por el español
pública fundada por el
The Instituto Cervantes
Spanish
language teaching
and
knowledge
Govermnent
español
en Govermnent en 1991
is a public institution
para promover la
1991 para
founded by the Spanish
promover
la instrucción
Govermnent
in N
1991 to
A
N
c
Nenseñanza de idiomas
española y el
de lenguas y el
promote Spanish
conocimiento españoles conocimiento de las
language teaching and
de las culturas de países culturas de español que
knowledge of the
de habla hispana a través habla países en todo el
cultures of Spanish
mundo. Esto es ahora lo
del mundo. Ahora es la
speaking countries
más grande la
organización española
throughout the world. It
organización de
mundial más grande de
is now the largest
la enseñanza. El Instituto enseñanza de español
worldwide Spanish
mundial. El Instituto
Cervantes
es
una
teaching
organisation.
La enseñanza de la lengua española y el Cervantes es un no la
organización no de
The Instituto Cervantes
conocimiento
...
organización con fines
beneficiar-fabricación.
is a non profit-making
lucrativos.
N. Bel & M. Marimon 2005-06
organisation.
1) ¿Qué es la traducción automática?
INSTITUTO
CERVANTES
Lycos
¿ Qué es esto?
Reverso
El Instituto Cervantes es
What is it?
una institución pública
fundada por el español
The Instituto Cervantes
Govermnent en 1991
Spanish
language teaching and knowledge
is a public institution
para promover la
founded by the Spanish
Govermnent
in N
1991 to
A
N
c
Nenseñanza de idiomas
española y el
promote Spanish
conocimiento de las
language teaching and
culturas de español que
knowledge of the
habla países en todo el
cultures of Spanish
mundo. Esto es ahora lo
speaking countries
más grande la
throughout the world. It
organización de
is now the largest
enseñanza de español
worldwide Spanish
mundial. El Instituto
teaching organisation.
La enseñanza de idiomas española y el Cervantes es un no la
The Instituto Cervantes
organización con fines
conocimiento
...
is a non profit-making
lucrativos.
N. Bel & M. Marimon 2005-06
organisation.
Femenino
singular
INSTITUTO
CERVANTES
Altavista
Systran
El Instituto Cervantes
Cuál es él?
What is it?
es una institución
pública fundada por el
The Instituto Cervantes
Spanish
language teaching
and
knowledge
Govermnent
español
en
is a public institution
1991 para
founded by the Spanish
promover
la instrucción
Govermnent
in N
1991 to
A
N
c
N
de lenguas y el
promote Spanish
conocimiento españoles
language teaching and
de las culturas de países
knowledge of the
de habla hispana a través
cultures of Spanish
del mundo. Ahora es la
speaking countries
organización española
throughout the world. It
mundial más grande de
is now the largest
la enseñanza. El Instituto
worldwide Spanish
Cervantes es una
teaching organisation.
organización
no de
La
instrucción
de
lenguas
y
el
conocimiento
The Instituto Cervantes
beneficiar-fabricación.
is a non profit-making
españoles
N. Bel & M. Marimon 2005-06
organisation.
plural
Context Free Grammars i Prolog
s(e,s(PRO,SV)) -->
pro(e,Num, nom,PRO),
sv(e,Num,SV).
N. Bel & M. Marimon 2005-06
Funcionament
?- test(e,[you,like,them],A).
A = s(pro(_, _, nom, you), sv(v(v2, _, hum, like),
pro(plu, _, ac, he)))
?- test(cas,[ellas,te,gustan],A).
A = s(pro(plu, fem, nom, él), sv(pro(sing, _ ac, tú),
v(v2, plu, _, gustar)))
N. Bel & M. Marimon 2005-06
A = s(
CAS = s(
pro(_G358, _G359, nom, you),
sv( v(v2, _G367, hum, like),
pro(plu, _G372, ac, he)))
pro(plu, fem, nom, él),
sv( pro(sing, _G391, ac, tú),
v(v2, plu, _G397, gustar)))
N. Bel & M. Marimon 2005-06
Com projectem la informació?
A = s(
pro(_, _, nom, you),
sv( v(v2, _, hum, like),
pro(plu, _, ac, he)))
CAS = s(
pro(plu, fem, nom, él),
sv( pro(sing, _, ac, tú),
v(v2, plu, _, gustar)))
N. Bel & M. Marimon 2005-06
Arquitectures de TA
N. Bel & M. Marimon 2005-06
Traducció basada en informació
lingüística
• Característiques tècniques dels sistemes de
traducció automàtica (anàlisi, generació, lèxic,
parser, etc.)
• L'arquitectura dels sistemes de traducció
automàtica:
– sistemes de transferència
– d’interlingua
– explotació estadística d’informació lingüística
N. Bel & M. Marimon 2005-06
Transferència i Interlingua
• Transferència: tenen una component amb regles
específiques per a cada parell de llengües que
transformen la representació del text origen en
una representació adequada per al generador
de la llengua d’arribada
• Interlingüe: l’anàlisi del text origen dóna una
representació en un llenguatge de representació
del significat, neutre pel que fa a les llengües
N. Bel & M. Marimon 2005-06
Sistemes de transferència
Anàlisi
Text
LO
Generació
Representació
LO
Representació
LA
Text
LA
Gramàtica i
Lèxic LO->LA
Gramàtica i
Lèxic LO
Regles de
trànsferencia
Lèxic LA
N. Bel & M. Marimon 2005-06
Sistemes d’interlingua
Anàlisi
Text
LO
Generació
Representació Interlingüe
Gramàtica i
Gramàtica i
Lèxic LO
Text
LA
Lèxic
LO->INT>LA
N. Bel & M. Marimon 2005-06
Lèxic LA
Representació
Interlingüe al
sistema KANT
N. Bel & M. Marimon 2005-06
Interlingua
• La traducció és un procés de 2 passes:
– Traduir el text origen a una representació del coneixement
universal
– Usar la representació per a generar el text d’arribada
• Avantatges:
– Per n llengües, necessitem n components (no n2)
• Problemes:
– Hem de construir un lèxic universal
– Com representem el coneixement?
N. Bel & M. Marimon 2005-06
Transferència
• La traducció és un procés de 3 passes:
– Analitzar el text origen
– Transformar la representació lingüística que ens ha
tornat l’anàlisi en una representació adequada per la
generació de la llengua d’arribada
– Usem la representació de la llengua d’arribada per
generar una frase correcte
N. Bel & M. Marimon 2005-06
Com projectem la informació?
Hem de transformar l’arbre
A = s(
pro(_, _, nom, you),
sv( v(v2, _, hum, like),
pro(plu, _, ac, he)))
CAS = s(
pro(plu, fem, nom, él),
sv( pro(sing, _, ac, tú),
v(v2, plu, _, gustar)))
N. Bel & M. Marimon 2005-06
Regla específica de transferència
anglès -> castellà per al verb ‘like’
s(PROe1,sv(Ve,PROe2))
<=>
s(PROcas2,sv(PROcas1,Vcas)) :PROe1 <=> PROcas1,
Ve = v(_,_,_,like),
Ve <=> Vcas,
PROe2 <=> PROcas2.
N. Bel & M. Marimon 2005-06
Transferència d’informació i lèxic
• Lèxic a la gramàtica:
pro(N,G,_,you) <=> pro(N,G,_,tú).
pro(N,G,_,he) <=> pro(N,G,_,él).
N. Bel & M. Marimon 2005-06
Resultat de la transferència:
A= anglès C= castellà
You like her
A = s(pro(_, _, nom, you),
sv(v(v2, _, hum, like), pro(sing, fem, ac, he)))
C = s(pro(sing, fem, _, él),
sv(pro(_, _, _, tú), v(_, _, _, gustar))) ;
N. Bel & M. Marimon 2005-06
Descargar

Presentación de PowerPoint