interNOSTRUM: 
Un sistema de traducció automàtica 
castellà-català / català-castellà

Mikel L. Forcada
Departament de Llenguatges i Sistemes Informàtics,
Universitat d'Alacant, 03071 Alacant
E-mail: mlf@dlsi.ua.es

7 de març de 2000

Dades del projecte

L'objectiu del projecte (vigent des de novembre de 1998 fins a març de 2001) és desenvolupar un sistema de traducció automàtica del castellà a les variants estàndards del català i el sistema invers corresponent. El finançament procedeix actualment de dues fonts: L'equip del projecte és el següent: A més, hi col·labora la secció d'Alacant de l'Institut Interuniversitari de Filologia Valenciana.

Els usuaris autoritzats dels productes són els membres de les institucions que actualment en financen el desenvolupament (CAM, Universitat d'Alacant). L'accés als productes per part d'altres institucions s'hauria d'articular per mitjà d'un conveni.

Dades del producte

La versió actual i les versions futures

La versió d'interNOSTRUM que es presenta no és un producte acabat, sinó més aviat un prototipus que ja pot ser usat per a generar, gairebé instantàniament, esborranys de traduccions al català llestes per a ser corregides (posteditades). De fet, un dels objectius bàsics del nostre projecte ha estat el de generar un producte operatiu tan aviat com fos possible (novembre de 1999) i fer sempre disponible la versió més avançada de què es disposés. Per aquesta raó, l'accés és via Internet.

Actualment, interNOSTRUM només tradueix textos sense format (ASCII, ANSI)del castellà al català oriental. Al final del projecte, es disposarà de traductors que produeixin altres variants estàndard del català i que processen textos HTML i RTF. També estarà disponible el traductor invers (català-castellà).

Característiques informàtiques

El traductor s'executa actualment sobre el sistema operatiu Linux i és accessible a través d'un servidor d'Internet; està constituït per 6 subprogrames independents que s'executen simultàniament (en paral·lel), elaboren la traducció per etapes i es comuniquen mitjançant canals de text. Cada subprograma es genera automàticament a partir de les dades lingüístiques corresponents, usant programes compiladors basats en eines com yacc i lex. Aquesta característica que permetria estendre fàcilment el producte a altres idiomes. La velocitat actual del sistema és de l'ordre de milers de mots per segon sobre un PC estàndard.

Característiques lingüístiques

interNOSTRUM és un sistema clàssic de traducció indirecta per transferència morfològica avançada, amb les fases següents:
1.
ANÀLISI:
2.
TRANSFERÈNCIA:
3.
GENERACIÓ:

Subprogrames basats en tècniques d'estats finits

Els subprogrames d'anàlisi morfològica, consulta del diccionari bilingüe, generació morfològica i postgeneració estan basats en transductors d'estats finits, tecnologia que permet velocitats de processament de l'ordre de 10.000 mots per segon, velocitats que pràcticament no depenen de la grandària dels diccionaris. Els transductors d'estats finits llegeixen l'entrada símbol a símbol; cada vegada que es llegeix una lletra canvien d'estat i van produint, també lletra a lletra, una o més sortides.
Anàlisi morfològica:
El subprograma d'anàlisi morfològica, que es genera automàticament a partir d'un diccionari morfològic de la llengua origen (LO), el qual conté els lemes, els paradigmes de flexió i les connexions entre ells. L'entrada són les formes superficials del text i la sortida, formes lèxiques consistents en lema, categoria lèxica i informació de flexió.
Consulta del diccionari bilingüe:
El subprograma de consulta del diccionari bilingüe és invocat pel subprograma de tractament de patrons (vegeu més avall); es genera automàticament a partir d'un arxiu que conté les correspondències bilingües. L'entrada és la forma lèxica de la LO i la sortida, la forma lèxica corresponent en la llengua meta (LM).
Generació morfològica:
El generador morfològic fa l'operació inversa a l'analitzador morfològic però amb formes de la LM i es genera automàticament a partir d'un diccionari morfològic de la LM.
Postgeneració:
Les formes superficials que estan implicades en processos d'apostrofació i guionatge (pronoms febles, articles, algunes preposicions, etc.) activen aquest subprograma, que normalment es troba inactiu. El postgenerador es genera a partir de regles senzilles d'apostrofació, guionatge i combinació de pronoms febles.
La divisió d'un text en mots presenta alguns aspectes no trivials; se n'esmenten dos: les locucions (o girs) i els pronoms enclítics.

Locucions i girs:

Hi ha nombroses locucions i girs que es poden tractar com a unitats multimot i s'estan incorporant gradualment als diccionaris morfològics de les dues llengües i al diccionari bilingüe: En l'últim exemple, el gir no és invariable sinó que té un element que es flexiona (en negretes); els girs amb flexió no s'hi han incorporat encara al programa.

Pronoms enclítics:

El subprograma d'anàlisi morfològica també és capaç de resoldre les combinacions de verbs i pronoms febles enclítics en castellà, les quals presenten variacions ortogràfiques com ara canvis d'accentuació o pèrdua de consonants:

El subprograma de desambiguació lèxica categorial

Aquest subprograma usa un model de llenguatge basat en trigrames (seqüències de tres categories lèxiques). Aquest model es basa en les freqüències observades per a aquests trigrames en un corpus de referència, i assigna una probabilitat a cada possible desambiguació de la frase que conté mots amb ambigüitat categorial. La desambiguació més probable (la més versemblant) és l'elegida. En l'actualitat, les prestacions d'aquest subprograma són molt millorables perquè encara no disposem de corpus de referència suficientment representatius.

Els pocs errors en homògrafs difícils i freqüents, com ara una (article/verb, freqüència 0,0077), para (verb/prep., freqüència 0,0077) i como (conj./verb, freqüència 0,0043) degraden actualment molt la qualitat de la traducció. Altres homògrafs freqüents no són tan difícils de desambiguar.

Les ambigüitats lèxiques no categorials s'aborden amb estratègies ad hoc provisionals. En el futur, molts d'aquests homògrafs s'inclouran en la definició d'un llenguatge controlat, alternativa a la preedició consistent en l'aplicació de restriccions lèxiques, sintàctiques i d'estil als textos de la LO. La CAM ens ha encarregat el disseny d'un castellà controlat per a textos financers i dels assistents d'estil corresponents per als autors.

El subprograma de tractament de patrons

Malgrat la gran semblança entre el castellà i el català, hi ha divergències gramaticals considerables: Aquestes divergències s'han de tractar amb les regles gramaticals escaients.

La solució elegida (estàndard en sistemes comercials) es basa en la detecció i el tractament de seqüències predefinides de categories lèxiques (anomenades patrons), és a dir, una mena de sintagmes rudimentaris, com ara art-nom o art- nom-adj. Les seqüències considerades pel subprograma en formen el catàleg de patrons. El funcionament del subprograma es basa en un esquema patró-acció:

Quan no es detecta cap patró en la posició actual, es tradueix literalment un mot i es torna a iniciar el procés. Els fenòmens ``a la llarga'' com la concordança subjecte-predicat són una mica més difícils de tractar.

El subprograma de tractament de patrons es genera automàticament a partir d'un arxiu de regles que especifica els patrons i les accions associades. Aquest serà molt probablement el subprograma més lent (estimació: 1.000 mots/segon), i s'està utilitzant només en versions experimentals del sistema.

Eines de suport a interNOSTRUM

Es projecta construir les eines següents: