interNOSTRUM:
Un sistema de traducció automàtica
castellà-català / català-castellà
Mikel L. Forcada
Departament de Llenguatges i Sistemes
Informàtics,
Universitat d'Alacant, 03071 Alacant
E-mail: mlf@dlsi.ua.es
7 de març de 2000
Dades del projecte
L'objectiu del projecte (vigent des de novembre
de 1998 fins a març de 2001) és desenvolupar un sistema de
traducció automàtica del castellà a les variants estàndards
del català i el sistema invers corresponent. El finançament
procedeix actualment de dues fonts:
-
Caja de Ahorros del Mediterráneo (CAM);
-
Universitat d'Alacant.
L'equip del projecte és el següent:
-
Investigador responsable: Mikel L. Forcada
-
Becaris informàtics: Alicia Garrido,
Raül Canals (temps complet); Hermínia Pastor (temps parcial),
dues beques convocades a concurs.
-
Becàries filòlogues: Amaia Iturraspe
i una beca convocada a concurs;
-
Investigadors col·laboradors: Francisco
Moreno, Rafael C. Carrasco, Maribel Guardiola, Sandra Montserrat.
A més, hi col·labora la secció
d'Alacant de l'Institut Interuniversitari de Filologia Valenciana.
Els usuaris autoritzats dels productes
són els membres de les institucions que actualment en financen el
desenvolupament (CAM, Universitat d'Alacant). L'accés als productes
per part d'altres institucions s'hauria d'articular per mitjà d'un
conveni.
Dades del producte
La versió actual i les versions futures
La versió d'interNOSTRUM que
es presenta no és un producte acabat, sinó més aviat
un prototipus que ja pot ser usat per a generar, gairebé instantàniament,
esborranys de traduccions al català llestes per a ser corregides
(posteditades). De fet, un dels objectius bàsics del nostre projecte
ha estat el de generar un producte operatiu tan aviat com fos possible
(novembre de 1999) i fer sempre disponible la versió més
avançada de què es disposés. Per aquesta raó,
l'accés és via Internet.
Actualment, interNOSTRUM només
tradueix textos sense format (ASCII, ANSI)del castellà al català
oriental. Al final del projecte, es disposarà de traductors que
produeixin altres variants estàndard del català i que processen
textos HTML i RTF. També estarà disponible el traductor invers
(català-castellà).
Característiques informàtiques
El traductor s'executa actualment sobre el
sistema operatiu Linux i és accessible a través d'un servidor
d'Internet; està constituït per 6 subprogrames independents
que s'executen simultàniament (en paral·lel), elaboren la
traducció per etapes i es comuniquen mitjançant canals de
text. Cada subprograma es genera automàticament a partir de les
dades lingüístiques corresponents, usant programes compiladors
basats en eines com yacc i lex. Aquesta característica que permetria
estendre fàcilment el producte a altres idiomes. La velocitat actual
del sistema és de l'ordre de milers de mots per segon sobre un PC
estàndard.
Característiques lingüístiques
interNOSTRUM és un sistema clàssic
de traducció indirecta per transferència morfològica
avançada, amb les fases següents:
-
1.
-
ANÀLISI:
-
Anàlisi morfològica
-
Desambiguació lèxica categorial
-
2.
-
TRANSFERÈNCIA:
-
Consulta del diccionari bilingüe
-
Tractament de patrons (concordança,
reordenament, canvis lèxics)
-
3.
-
GENERACIÓ:
-
Generació morfològica
-
Postgeneració (apostrofació,
etc.)
Subprogrames basats en tècniques d'estats
finits
Els subprogrames d'anàlisi morfològica,
consulta del diccionari bilingüe, generació morfològica
i postgeneració estan basats en transductors d'estats
finits, tecnologia que permet velocitats de processament de l'ordre
de 10.000 mots per segon, velocitats que pràcticament no depenen
de la grandària dels diccionaris. Els transductors d'estats finits
llegeixen l'entrada símbol a símbol; cada vegada que es llegeix
una lletra canvien d'estat i van produint, també lletra a lletra,
una o més sortides.
-
Anàlisi morfològica:
-
El subprograma d'anàlisi morfològica,
que es genera automàticament a partir d'un diccionari morfològic
de la llengua origen (LO), el qual conté els lemes, els paradigmes
de flexió i les connexions entre ells. L'entrada són les
formes superficials del text i la sortida, formes lèxiques consistents
en lema, categoria lèxica i informació de flexió.
-
Consulta del diccionari bilingüe:
-
El subprograma de consulta del diccionari
bilingüe és invocat pel subprograma de tractament de patrons
(vegeu més avall); es genera automàticament a partir d'un
arxiu que conté les correspondències bilingües. L'entrada
és la forma lèxica de la LO i la sortida, la forma lèxica
corresponent en la llengua meta (LM).
-
Generació morfològica:
-
El generador morfològic fa l'operació
inversa a l'analitzador morfològic però amb formes de la
LM i es genera automàticament a partir d'un diccionari morfològic
de la LM.
-
Postgeneració:
-
Les formes superficials que estan implicades
en processos d'apostrofació i guionatge (pronoms febles, articles,
algunes preposicions, etc.) activen aquest subprograma, que normalment
es troba inactiu. El postgenerador es genera a partir de regles senzilles
d'apostrofació, guionatge i combinació de pronoms febles.
La divisió d'un text en mots presenta
alguns aspectes no trivials; se n'esmenten dos: les locucions (o
girs) i els pronoms enclítics.
Locucions i girs:
Hi ha nombroses locucions i girs que es poden
tractar com a unitats multimot i s'estan incorporant gradualment
als diccionaris morfològics de les dues llengües i al diccionari
bilingüe:
-
con cargo a
a
càrrec de
-
por adelantado
per
endavant, a la bestreta
-
el abajo firmante
el
sotasignat
-
echar de menos
trobar
a faltar
En l'últim exemple, el gir no és
invariable sinó que té un element que es flexiona (en negretes);
els girs amb flexió no s'hi han incorporat encara al programa.
Pronoms enclítics:
El subprograma d'anàlisi morfològica
també és capaç de resoldre les combinacions de verbs
i pronoms febles enclítics en castellà, les quals presenten
variacions ortogràfiques com ara canvis d'accentuació o pèrdua
de consonants:
-
dámelo = da + me
+ lo
dóna
+ me + lo = dóna-me'l
-
pongámonos = pongamos
+ nos
posem
+ nos = posem-nos.
El subprograma de desambiguació lèxica
categorial
Aquest subprograma usa un model de llenguatge
basat en trigrames (seqüències de tres categories lèxiques).
Aquest model es basa en les freqüències observades per a aquests
trigrames en un corpus de referència, i assigna una probabilitat
a cada possible desambiguació de la frase que conté mots
amb ambigüitat categorial. La desambiguació més probable
(la més versemblant) és l'elegida. En l'actualitat, les prestacions
d'aquest subprograma són molt millorables perquè encara no
disposem de corpus de referència suficientment representatius.
Els pocs errors en homògrafs difícils
i freqüents, com ara una (article/verb, freqüència
0,0077), para (verb/prep., freqüència 0,0077) i como
(conj./verb, freqüència 0,0043) degraden actualment molt la
qualitat de la traducció. Altres homògrafs freqüents
no són tan difícils de desambiguar.
Les ambigüitats lèxiques no
categorials s'aborden amb estratègies ad hoc provisionals.
En el futur, molts d'aquests homògrafs s'inclouran en la definició
d'un llenguatge controlat, alternativa a la preedició consistent
en l'aplicació de restriccions lèxiques, sintàctiques
i d'estil als textos de la LO. La CAM ens ha encarregat el disseny d'un
castellà controlat per a textos financers i dels assistents d'estil
corresponents per als autors.
El subprograma de tractament de patrons
Malgrat la gran semblança entre el
castellà i el català, hi ha divergències gramaticals
considerables:
-
perífrasis modals: tienen que firmar
han
de firmar;
-
canvis de gènere i nombre: la deuda
contraída
el
deute contret (masc.);
-
caiguda de preposicions: la intención
de que el cliente
la
intenció
que el client;
-
construccions relatives: la cuenta cuyo
titular es
el
compte el titular del qual és.
Aquestes divergències s'han de tractar
amb les regles gramaticals escaients.
La solució elegida (estàndard
en sistemes comercials) es basa en la detecció i el tractament de
seqüències predefinides de categories lèxiques (anomenades
patrons), és a dir, una mena de sintagmes rudimentaris, com
ara art-nom o art- nom-adj. Les seqüències
considerades pel subprograma en formen el catàleg de patrons.
El funcionament del subprograma es basa en un esquema patró-acció:
-
Llegeix el text (analitzat i desambiguat)
d'esquerra a dreta, categoria lèxica a categoria lèxica.
-
Busca, en la posició actual de la frase,
el patró més llarg que concorda amb un patró del seu
catàleg (per exemple, si en la posició actual es llegeix
``un senyal inequívoc...'', tria art-nom-adj
en comptes de art-nom).
-
Opera sobre aquest patró (propagació
de gènere i nombre, reordenament, canvis lèxics) seguint
les regles associades a ell.
-
Continua immediatament darrere del patró
tractat (no torna a visitar els mots sobre els quals ha operat).
Quan no es detecta cap patró en la
posició actual, es tradueix literalment un mot i es torna a iniciar
el procés. Els fenòmens ``a la llarga'' com la concordança
subjecte-predicat són una mica més difícils de tractar.
El subprograma de tractament de patrons
es genera automàticament a partir d'un arxiu de regles que especifica
els patrons i les accions associades. Aquest serà molt probablement
el subprograma més lent (estimació: 1.000 mots/segon), i
s'està utilitzant només en versions experimentals del sistema.
Eines de suport a interNOSTRUM
Es projecta construir les eines següents:
-
Un assistent d'estil que permetrà l'autor
d'un text en castellà evitar moltes ambigüitats difícils
de resoldre usant regles lèxiques, sintàctiques i d'estil
(el llenguatge controlat ja esmentat).
-
Un assistent de preedició, que permetrà
una desambiguació manual de mots i estructures problemàtiques
(simplement fent-hi clic per accedir als menús corresponents) quan
els mètodes estadístics indicats més amunt siguen
incapaços de fer les tries correctes.
-
Un assistent de postedició, que permetrà
fer clic sobre un mot sospitós de ser una traducció incorrecta
i substituir-lo per altres alternatives tenint en compte el text original
i farà possible en general qualsevol canvi del text meta.