Professional Documents
Culture Documents
14/10/08
14:34
Pgina 1
Traduccin y tecnologas
01-26 Tecnologias
14/10/08
14:34
Pgina 2
01-26 Tecnologias
14/10/08
14:34
Pgina 3
Traduccin
y tecnologas
Antoni Oliver
Joaquim Mor
Salvador Climent (coordinador)
01-26 Tecnologias
14/10/08
14:34
Pgina 4
Ninguna parte de esta publicacin, incluido el diseo general de la cubierta, puede ser copiada, reproducida, almacenada o transmitida en manera alguna ni por ningn medio, ya sea elctrico, qumico, mecnico, ptico, de grabacin, de fotocopia, o por otros mtodos, sin autorizacin previa por escrito de los titulares del copyright.
01-26 Tecnologias
14/10/08
14:34
Pgina 5
Autores
Antoni Oliver
Profesor de los estudios de Lenguas y Culturas y coordinador acadmico del postgrado Traduccin
y Tecnologas de la Universitat Oberta de Catalunya. Es Doctor en Lingstica, licenciado en
Filologa Eslava e ingeniero tcnico de telecomunicaciones. Su rea de investigacin se centra en la
aplicacin de tcnicas de procesamiento del lenguaje natural a las tareas de traduccin. Participa
en la docencia en diversos msters y cursos de postgrado en la Universitat Autnoma de Barcelona
y en la Universidad Pompeu Fabra.
Joaquim Mor
Licenciado en Filologa Eslava y Mster en Lingstica Computacional. Actualmente trabaja como
lingista computacional en el Servicio Lingstico de la Universitat Oberta de Catalunya. Su rea
de investigacin se centra principalmente en la evaluacin de sistemas de traduccin automtica
y otros aspectos del procesamiento del lenguaje natural aplicados a la traduccin. Ha participado
en cursos de postgrado en la Universitat Autnoma de Barcelona.
Coordinador
Salvador Climent
Profesor de los estudios de Lenguas y Culturas y director del postgrado Traduccin y
Tecnologas de la Universitat Oberta de Catalunya. Es Doctor en Filologa Romnica y Mster
en Lingstica Computacional por la Universitat de Barcelona.
01-26 Tecnologias
14/10/08
14:34
Pgina 6
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 7
ndice
ndice
Introduccin ........................................................................................
13
17
1.
2.
18
19
20
21
21
22
22
23
23
23
25
27
28
29
30
30
31
31
32
34
37
39
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 8
Traduccin y tecnologas
45
46
48
49
50
51
54
55
55
56
57
59
1.
2.
3.
4.
60
61
63
64
64
66
67
68
68
69
70
71
75
76
77
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 9
ndice
84
87
88
90
93
1.
2.
3.
4.
78
79
79
80
80
82
83
94
94
96
98
99
100
103
104
105
109
110
110
113
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 10
10
Traduccin y tecnologas
113
113
114
114
115
126
130
131
131
133
133
133
135
137
139
140
140
140
143
145
145
146
147
148
149
149
150
152
154
158
160
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 11
11
ndice
164
165
165
165
166
169
161
162
163
171
171
171
172
173
173
174
174
176
177
177
177
177
178
178
179
180
180
181
181
181
181
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 12
12
Traduccin y tecnologas
182
182
Prcticas................................................................................................
P1. Traduccin con ForeignDesk ..........................................................
P2. Creacin de un proyecto de traduccin con ForeignDesk ............
P.3. Uso de memorias de traduccin con ForeignDesk ........................
P.4. Creacin de una base de datos terminolgica con TermBase de
ForeignDesk y TBXMaker ................................................................
P.5. Uso de bases de datos terminolgicas con ForeignDesk ................
P.6. Extraccin automtica de terminologa ..........................................
P.7. Bsqueda automtica de equivalentes de traduccin ....................
P.8. Combinacin de traduccin asistida y traduccin automtica ....
P.9. Herramientas integradas en MS Word (I): traduccin asistida con
WordFast ..........................................................................................
P.10. Herramientas integradas en MS Word (II): automatizacin
de tareas con +Tools ......................................................................
P.11. Alineacin de documentos con PlusTools ....................................
P.12. Alineacin automtica de documentos ........................................
P.13a. Herramientas multiplataforma: OmegaT ....................................
P.13b. XLIFF Translation Editor de Open Language Tools ....................
P.13c. Herramientas multiplataforma: Transolution ............................
P.14. Tratamiento de formatos con ForeignDesk ..................................
P.15. Tratamiento de formatos estndar con Open Language Tools ....
P.16. Localizacin de software con ForeignDesk ..................................
185
187
195
203
211
229
233
237
241
245
253
259
269
273
279
291
299
305
311
01-26 Tecnologias
14/10/08
14:34
Editorial UOC
Pgina 13
13
Introduccin
Introduccin
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 14
14
Traduccin y tecnologas
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 15
15
Introduccin
Los archivos necesarios para poder hacer las prcticas que proponemos en
este manual.
Los manuales de instalacin y uso de los programas.
Nuevos captulos y nuevas prcticas.
Informacin actualizada sobre las tecnologas aplicadas a la traduccin.
Los autores y el coordinador de este manual esperan sinceramente que sea
de inters para el lector y que contribuya a difundir el uso de herramientas de
software libre entre los traductores.
Antoni Oliver
01-26 Tecnologias
14/10/08
14:34
Pgina 16
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 17
17
Captulo I
Introduccin
Algunos de los programas que presentamos en este manual son libres y otros
son propietarios, aunque ofrecen la posibilidad de utilizar versiones de demostracin, o bien delimitadas en tiempo o en funcionalidades. El uso del adjetivo
libre referido al software puede provocar confusiones. En este captulo pretendemos presentar los conceptos fundamentales relacionados con el software
libre y de libre distribucin.
Objetivos
Presentar de la forma ms precisa posible las nociones de software libre
y software de libre distribucin.
Situar al alumno en el tipo de software aplicado a la traduccin que trataremos en este manual.
Aprender a clasificar el software segn su licencia de uso y distribucin.
Contenido
1. Software libre quiere decir software gratuito?
2. Algunas precisiones
2.1. Software freeware
2.2. Software shareware, de demostracin y crippleware
2.3. Software de dominio pblico
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 18
18
Traduccin y tecnologas
1. A menudo los usuarios estn sujetos al llamado lock-in effect, que es la situacin en que un cliente depende completamente de un producto y no puede cambiarlo si no quiere asumir unos costes
considerables.
01-26 Tecnologias
14/10/08
14:34
Pgina 19
Editorial UOC
19
Para la FSF, un programa es libre si los usuarios de este programa tienen las
siguientes libertades:2
La libertad de usar el programa, con cualquier propsito (libertad 0).
La libertad de estudiar cmo funciona el programa, y adaptarlo a sus necesidades (libertad 1). La disponibilidad del cdigo fuente es una condicin
previa para ello.
La libertad de distribuir copias (libertad 2).
La libertad de mejorar el programa y hacer pblicas las mejoras, de manera que toda la comunidad se beneficie (libertad 3). El acceso al cdigo
fuente es un requisito previo para que esto sea posible.
Pero la FSF va ms all. La fundacin no otorga el ttulo de programa libre a
un programa si existe una sola restriccin en su uso y distribucin. Un programa sujeto a la obligacin de ser adquirido de forma gratuita ya no es un programa libre para la FSF. El usuario debe tener la libertad de distribuir copias,
incluso con modificaciones, y lo puede hacer gratis o cobrando. Por lo tanto,
el concepto de software libre no es incompatible con la venta de copias. De
hecho, para la FSF es importante que su software sea comercial ya que los
miembros de esta fundacin deben contribuir con lo que puedan a esta comunidad, y la ayuda econmica es fundamental. Por esta razn, cada miembro se
compromete a dar una parte de sus ganancias a la Fundacin o a un proyecto
que desarrolle software libre.
As pues, en el sentido de la FSF, software libre no significa necesariamente
software gratuito.
2. Algunas precisiones
El criterio de la FSF para distinguir un programa libre es muy claro: un programa con restricciones de uso, de modificacin o de distribucin no es libre.
01-26 Tecnologias
14/10/08
14:34
Pgina 20
Editorial UOC
20
Traduccin y tecnologas
3. Sobre los sentidos de libre es interesante el artculo It depends what you mean by free
http://blog.thingoid.com/2003/09/free-software-meanings/
4. http://www.star-ag.ch
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 21
21
5. www.wordfast.net
01-26 Tecnologias
14/10/08
14:34
Editorial UOC
Pgina 22
22
Traduccin y tecnologas
6. http://www.opensource.org/
7. http://www.foreigndesk.net
8. http://www.gnu.org/philosophy/free-software-for-freedom.es.html
9. http://www.gnu.org/philosophy/historical-apsl.html
01-26 Tecnologias
14/10/08
14:34
Pgina 23
Editorial UOC
23
2.7. Warez
Se llama as al software comercial que ha sido 'pirateado' (la proteccin de
copia ha sido desactivada) y se encuentra disponible para el pblico en Internet.
El uso y la distribucin de este tipo de software es una prctica totalmente ilegal.
3. Tipologa de software
10. http://www.gnu.org/software/gettext
11. http://kbabel.kde.org/
12. http://gtranslator.sourceforge.net/
01-26 Tecnologias
14/10/08
14:34
Pgina 24
Editorial UOC
24
Traduccin y tecnologas
Hablaremos del software de libre distribucin que est disponible con todas
sus funcionalidades y capacidades. En realidad, nuestro objetivo es mostrar las
herramientas que dan libertad al traductor. Entendemos que un programa da
libertad al traductor si es lo bastante flexible como para responder eficazmente a situaciones nuevas y, adems, el traductor no tiene una dependencia respecto al creador del programa. Lo deseable es que el traductor no deba adaptarse a las exigencias del autor del programa sino que sepa adaptar el programa a
sus exigencias. Tan slo es necesario que el usuario tenga las ideas claras sobre
qu est haciendo.
Para un traductor sin conocimientos de programacin no es importante
saber si un programa de libre distribucin es de cdigo abierto, de dominio
pblico o es libre en el sentido de la FSF. Creemos que lo que le interesa es que
la adquisicin del programa no le resulte un gasto importante (y si puede adquirirlo gratuitamente mucho mejor), que sea flexible y que responda a sus exigencias profesionales. Qu hace que un programa sea flexible? Pues un detalle muy
importante es que el programa permita al usuario trabajar con recursos que se
encuentran fuera del entorno del programa (en Internet, por ejemplo).
01-26 Tecnologias
14/10/08
14:34
Pgina 25
Editorial UOC
25
4. Recursos gratuitos
Conclusiones
Hemos visto que el trmino libre no implica necesariamente que el software sea gratuito sino que se aplica tambin a un software cuyo cdigo puede ser
consultado y modificado, aunque hayamos pagado el programa. Esto ha originado una compleja tipologa de programas que, a menudo de forma imprecisa, han sido considerados como software libre. Los programas libres tienen
como caractersticas fundamentales la posibilidad de distribuir copias, la no
dependencia del usuario respecto al creador del programa, la posibilidad de
adaptar el programa a las propias necesidades y de utilizar el programa para
cualquier propsito. En captulos posteriores tambin presentaremos recursos
gratuitos de consulta disponibles en Internet.
01-26 Tecnologias
14/10/08
Editorial UOC
14:34
Pgina 26
26
Traduccin y tecnologas
encontrar en http://ourworld.compuserve.com/homepages/WJHutchins/
Compendium-3.pdf
Para profundizar mucho ms en los conceptos de software libre podis consultar los materiales de la asignatura Introduccin al software libre que podis descargar de http://www.uoc.edu/masters/oficiales/master_oficial_software_libre/
master_oficial_software_libre_materiales.htm
27-44 cap2
30/9/08
09:36
Pgina 27
Editorial UOC
27
La traduccin automtica
Captulo II
La traduccin automtica
Introduccin
Este captulo est dedicado a la traduccin automtica (TA). La TA es una
disciplina de la Lingstica Computacional con una larga tradicin y abordable
desde diversos puntos de vista (informtico, lingstico, empresarial, etc.). Aqu
presentaremos una visin muy general de la disciplina y hablaremos de los
aspectos que consideramos que debe conocer una persona nefita en tecnologas lingsticas, que tiene un conocimiento bsico de la existencia de la traduccin automtica o que espordicamente la ha utilizado (por ejemplo, cuando ha traducido una pgina web con el traductor automtico que ofrecen algunas pginas de bsqueda).
Objetivos
Tomar conciencia de las limitaciones de la TA pero tambin valorar su utilidad.
Conocer los distintos tipos de sistemas de TA y sus metodologas.
Contenido
1. Los mitos de la traduccin automtica
2. Las limitaciones de los sistemas de TA
2.1. Limitaciones que afectan a la inteligibilidad y la fidelidad
2.2. Limitaciones que afectan a la precisin
27-44 cap2
30/9/08
09:36
Editorial UOC
3.
4.
5.
6.
7.
Pgina 28
28
Traduccin y tecnologas
27-44 cap2
30/9/08
09:36
Pgina 29
Editorial UOC
29
La traduccin automtica
nismos de inferencia lgica, de estrategias comunicativas, de mecanismos mentales de interpretacin de un texto con todas sus sutilezas: poder de evocacin, sobrentendidos... etc.
El informe del Automatic Language Processing Advisory Committee (ALPAC),
de 1966, que versaba sobre las posibilidades de la TA a partir de la evaluacin
de los resultados de los sistemas existentes, fue demoledor. Recomendaba a los
especialistas que no fueran tan optimistas y que se centraran en proyectos
menos ambiciosos. El informe oblig a los especialistas a redefinir su disciplina, por lo que a partir de ese momento los tericos y los desarrolladores de sistemas buscan y fomentan los aspectos beneficiosos de la TA y asumen sus limitaciones. Pero la gente corriente, que no tiene un conocimiento suficiente del
tema como para tener en cuenta las limitaciones de los sistemas de TA, traducen textos propios, de cualquier tema, con motores de traduccin disponibles
en Internet, con la misma creencia ingenua que los resultados sern tan buenos como si el trabajo lo hubiese realizado un traductor humano. Cuando
comprueban los resultados, se sienten muy decepcionados, si no es que incluso se ren, y extienden otro mito, este de tipo totalmente negativo: el mito que
la TA es intil porque las traducciones muchas veces son absurdas.
Para que los sistemas de TA sean aceptados por la gente corriente (que, en
realidad son los usuarios potenciales a los q hay que convencer de su utilidad), es preciso, sin embargo, que se tenga un conocimiento previo de sus
limitaciones.
A priori, las limitaciones de un sistema de TA afectan sobre todo a la calidad
de la traduccin, que se evala de acuerdo con los siguientes parmetros:
Inteligibilidad
Fidelidad
Precisin
Estilo
27-44 cap2
30/9/08
09:36
Editorial UOC
Pgina 30
30
Traduccin y tecnologas
27-44 cap2
30/9/08
09:36
Pgina 31
Editorial UOC
31
La traduccin automtica
todos los sistemas de TA, sin embargo, permiten que los usuarios incorporen
bases de datos terminolgicas.
3. Exigencias de la TA
Las limitaciones de los sistemas implican una serie de exigencias para que
stos sean rentables. Comentaremos dos que nos parecen muy importantes.
Si el autor sabe que su documento se traducir automticamente, lo debera escribir utilizando oraciones cortas, con poca complejidad sintctica,
pocos pronombres, etc. Las empresas e instituciones que utilizan un sistema de TA suelen elaborar unas guas de estilo que los redactores han de
seguir. Estas guas de estilo imponen una manera de escribir documentos
que evita los aspectos no resueltos por el sistema. Esto supone realizar previamente una evaluacin de la calidad lingstica del sistema y un informe de sus carencias y limitaciones.
Es necesaria una inversin que va ms all de la traduccin en s.
Cualquier traduccin realizada automticamente se debe revisar. Aunque
las dos lenguas sean muy parecidas y los sistemas generen traducciones
muy aceptables, siempre afloran unos determinados puntos negros que no
se haban previsto. Algunos de los fenmenos problemticos van ms all
del limitado conocimiento lingstico del sistema y tienen un gran impac-
27-44 cap2
30/9/08
09:36
Pgina 32
Editorial UOC
32
Traduccin y tecnologas
Ferm Gonzlez
Cules son las etapas?
Cerca avanada
...dels vostres treballs
Sujet Gonzlez
Quins sn les etapes?
Busca avanzada
de los vuestros trabajos
4. Ventajas de la TA
Una vez conocidas las limitaciones y las exigencias de los sistemas de TA, es
el momento de preguntarnos qu ventajas proporcionan. A continuacin presentamos unas cuantas y comentamos algunas situaciones y proyectos que no
se hubieran podido realizar sin la intervencin de la traduccin automtica.
Los sistemas de TA permiten traducir grandes volmenes de texto en un
tiempo inferior a la traduccin humana. Proyectos como la edicin de la
versin en cataln de El Peridico no seran factibles si no se llevaran a
cabo con un sistema de TA.1 Por otra parte, para organismos internaciona-
27-44 cap2
30/9/08
09:36
Pgina 33
Editorial UOC
33
La traduccin automtica
les como la Comunidad Europea, que tiene que generar grandes volmenes de documentos en muchas lenguas en un tiempo relativamente corto,
la traduccin automtica se ha convertido tambin en una necesidad. Por
esta razn la Comunidad financi el proyecto Eurotra, que consisti en la
elaboracin de un sistema capaz de traducir automticamente su documentacin en las lenguas oficiales de la Unin Europea.
La TA abarata costes cuando se trata de traducir peridicamente documentos escritos en un lenguaje controlado. Un documento est escrito en un
lenguaje controlado si tiene unas estructuras sintcticas simples y rgidas,
no es ambiguo, su lxico es restringido y tiene una fraseologa establecida
previamente. Algunos ejemplos son los manuales de electrodomsticos o
las recetas de cocina. Con una representacin no muy profunda del conocimiento lingstico y del mundo (la estrictamente necesaria para la tarea)
se obtienen traducciones de calidad aceptable y los costes de preedicin y
postedicin son asumibles. Un sistema pionero en traducir textos controlados es Taum-Meteo (1971), desarrollado por la Universidad de Montreal,
que traduce al francs informes meteorolgicos en ingls.
La TA es la nica opcin si se quiere superar las barreras lingsticas en la
comunicacin online. Si queremos chatear con alguien de Liverpool, que
no conoce nuestra lengua (ni nosotros la suya), o nos tenemos que comunicar por e-mail con clientes rabes en rabe, el uso de una herramienta
de TA resuelve los problemas de comunicacin en una situacin marcada
por la inmediatez en el intercambio de informacin.
La TA tambin es la nica opcin posible cuando queremos comprender al
momento las pginas web que nos presenta un buscador de Internet. A
menudo el usuario tan slo quiere tener una idea aproximada de su contenido, la suficiente como para poder seleccionar las pginas que realmente le
interesan. Para ello, el usuario no tiene que esperar a que un traductor le asesore. La TA tambin es necesaria cuando queremos realizar consultas espordicas a fuentes escritas en otras lenguas. Buscadores como Google o Altavista
disponen de motores de traduccin automtica que traducen, si el usuario lo
desea, las pginas web que ofrecen como resultado de la bsqueda. Tambin
estn disponibles los portales de empresas como Systran,2 WorldLingo,3
2. http://www.systran.org
3. http://www.worldlingo.com/products_services/worldlingo_translator.html
27-44 cap2
30/9/08
09:36
Pgina 34
Editorial UOC
34
Traduccin y tecnologas
5. Tipos de sistemas de TA
Los sistemas de traduccin automtica se pueden dividir en dos tipos principales: Los sistemas con conocimiento lingstico y los sistemas sin conocimiento
lingstico. Entre los primeros, tradicionalmente se distinguen los de traduccin
directa y los de traduccin indirecta. Los sistemas de traduccin directa traducen
directamente a la lengua de llegada cuando disponen de suficiente informacin. Pueden sustituir las palabras originales por palabras de la lengua de llegada segn las equivalencias de diccionarios bilinges y tambin generar la
traduccin segn reglas sintcticas sencillas que establecen la posicin de los
constituyentes, las condiciones de concordancia (adjetivo-nombre, sujetoverbo), la adicin de nuevos elementos y otros aspectos gramaticales de la oracin final. Estos sistemas son capaces de traducir grandes volmenes de documentos en poco tiempo debido a que su motor no ejecuta procesos complejos
y costosos. De todas maneras, dado que traducen sin haber analizado antes la
frase entera, o dicho de otra manera, sin haberla entendido en su totalidad,
generan muchas frases de baja calidad. Pero funcionan suficientemente bien
27-44 cap2
30/9/08
09:36
Editorial UOC
Pgina 35
35
La traduccin automtica
si el usuario valora ms la rapidez en proporcionar una idea general del contenido que la calidad de la traduccin. Si se trata de lenguas muy prximas
(cataln-castellano, por ejemplo) los resultados son bastantes espectaculares,
considerando los recursos utilizados y la relativa sencillez del algoritmo del
motor de traduccin.
Por su parte, los sistemas de traduccin indirecta tienen un mdulo de anlisis que construye una representacin completa de la frase original en forma
de rbol sintctico. Si es posible construir un rbol sintctico sin problemas
podemos decir que el sistema ha entendido la frase, lo que da ms garantas de
que generar una traduccin inteligible y fiel. A partir de esta representacin
sintctica se crea una representacin abstracta intermedia. La representacin
intermedia de los sistemas denominados de transfer es un rbol supralingstico que le servir de patrn al componente de generacin de la oracin tal y
como se ver en el texto traducido, con todas las formas flexionadas.
Decimos que es un rbol supralingstico porque se crea segn el conocimiento del sistema de las dos lenguas implicadas. La intervencin del componente de transfer permite simplificar la construccin de sistemas para nuevos
pares de lenguas. Por ejemplo, si es necesario construir un sistema alemnespaol, el mdulo de anlisis del alemn ser el mismo que el que utiliza el
sistema alemn-ingls y el mdulo de generacin del espaol ser el mismo
que el del francs-espaol. El nico componente que ser necesario desarrollar ser el de transfer entre el alemn y el espaol. En comparacin con los
de traduccin directa, estos sistemas realizan procesos mucho ms complejos
y utilizan una informacin lingstica mucho ms elaborada de las dos lenguas implicadas. Los resultados suelen ser mejores que los de la traduccin
directa.
Finalmente, tenemos los sistemas llamados de interlingua. Estos sistemas
tambin llevan a cabo una representacin intermedia, pero que no es de tipo
gramatical sino conceptual. Esta representacin, que supuestamente es
comn a todos los pares de lenguas (de ah el trmino interlingua), se construye a partir del anlisis de la frase original. Desde la representacin conceptual, el componente de generacin construye la frase en la lengua de llegada aplicando reglas de correspondencia entre el nivel conceptual y el lingstico.
En la siguiente figura presentamos una representacin del tringulo de
Vaquois para ilustrar los sistemas de TA con conocimiento lingstico.
27-44 cap2
30/9/08
09:36
Editorial UOC
Pgina 36
36
Traduccin y tecnologas
Figura 2.1. Tringulo de Vaquois que representa los diferentes sistemas de TA con conocimiento lingstico
Los sistemas de transfer e interlingua han puesto de manifiesto que la declaracin del conocimiento lingstico y del mundo en un sistema informtico es
una tarea enorme, inalcanzable. Su elaboracin es lenta y requiere de una gran
inversin intelectual y tecnolgica. Por ello ha ido ganando importancia la tendencia de construir sistemas con unos conocimientos lingsticos y conceptuales mnimos. Esto es posible si los sistemas traducen documentos rgidos, con
un lenguaje controlado, y disponen de un corpus considerable de documentos
del mismo tipo ya traducidos. El sistema no acta segn las reglas que se han
definido a priori sino que toma decisiones despus de haber aprendido de los
ejemplos que se encuentran en el corpus (sistemas basados en ejemplos).
Otros sistemas que no actan segn su conocimiento lingstico son los llamados sistemas de TA estadsticos o estocsticos. Actualmente, la investigacin en
TA se ha centrado en estos sistemas porque los resultados obtenidos, sobretodo
cuando se trata de lenguas cercanas, son muy prometedores y los costes en
tiempo y dinero para construirlos son menores que los de un motor de traduccin con conocimiento lingstico. Segn la TA estadstica, la traduccin consiste en buscar las palabras de la lengua de llegada que traducen mejor las palabras de la oracin original y en encontrar la secuencia de estas palabras que es
ms adecuada para que sea una oracin correcta en la lengua de llegada. Para
hacer lo primero se utiliza un modelo de traduccin, que indica la probabilidad
27-44 cap2
30/9/08
09:36
Editorial UOC
Pgina 37
37
La traduccin automtica
27-44 cap2
30/9/08
09:36
Pgina 38
Editorial UOC
38
Traduccin y tecnologas
http://sourceforge.net/projects/traduki/, pero est todava en un estadio muy incipiente y su instalacin no es demasiado intuitiva.
Ms desarrollado est Linguaphile, un sistema similar al Traduki e inspirado
por el mismo ideario. Adems de lenguas como el ingls, el alemn o el francs, tambin trata lenguas como el blgaro, el cataln, el dans, el irlands y
hasta un total de 56 lenguas. Se puede descargar de la pgina http://linguaphile.
sourceforge.net/ y es un programa escrito en Perl, por lo que para utilizarlo se
debe disponer de un intrprete de Perl. Las traducciones se dan con el indicador de rdenes, indicando el nombre del fichero que queremos traducir, la lengua de partida y la lengua de llegada. Tambin se puede acceder a una demostracin on line de este traductor en http://linguaphile.sourceforge.netcgi-bin/
translator.pl.
La buena voluntad que anima estos proyectos est por encima de la calidad
de sus traducciones y, por lo tanto, no hay que tener demasiadas expectativas
sobre los resultados que ofrecen.
El SALT, traductor del valenciano al castellano y viceversa, financiado por la
Consejera de Cultura de la Generalitat Valenciana, es un ejemplo del inters
de algunos organismos polticos por la TA porque la consideran un apoyo a la
normalizacin del uso de una lengua. Se puede descargar de http://
www.cult.gva.es/salt/salt_programes_salt2.htm.
De entre todas las iniciativas de liberalizacin de la TA hay que destacar el
proyecto de creacin del motor de traduccin del sistema Apertium.6 El sistema
Apertium es un sistema de traduccin automtica de cdigo abierto para lenguas bastante prximas entre s. Concretamente, los pares de lenguas que ofrece son el espaol-cataln, el espaol-gallego y el espaol-portugus, entre
otros. La primera versin apareci en julio de 2005. Posteriormente se han aadido los pares de lenguas cataln-francs, arans-cataln e ingls-cataln.
El sistema Apertium se basa en el sistema interNOSTRUM para el castellanocataln, desarrollado por el grupo Transducens de la Universidad de Alicante, y
en el traductor Universia para el castellano-portugus, desarrollado tambin
por la Universidad de Alicante, ambos estn disponibles en la red.7 Tambin se
basa en el castellano-gallego desarrollado en el consorcio OpenTrad,8 en el cual
6. http://apertium.sourceforge.net/
7. http://traductor.universia.net
8. http://www.opentrad.org/
27-44 cap2
30/9/08
09:36
Pgina 39
Editorial UOC
39
La traduccin automtica
9. http://garraf.epsevg.upc.es/freeling/
27-44 cap2
30/9/08
09:36
Editorial UOC
Pgina 40
40
Traduccin y tecnologas
es posible mediante un protocolo de comunicacin entre la aplicacin que solicita la traduccin y el programa de traduccin que reside en un servidor.
Un protocolo de peticiones y respuestas muy utilizado es el protocolo SOAP
(Simple Object Access Protocol), que aprovecha los protocolos HTTP (HyperText
Transfer Protocol) de transmisin de las peticiones de acceso a pginas web y de
las respuestas de estas pginas. Las peticiones y las respuestas se transmiten en
un formato estndar (el XML), como se muestra en las siguientes figuras.
Algunos de los servicios de traduccin web disponibles gratuitamente son el de
interNOSTRUM y el de Babel Fish, que enva la traduccin realizada por el
motor de TA Systran.
No hemos dicho que estos servicios sean libres. En realidad, es el propietario del programa quien decide qu usuarios tienen la posibilidad de acceder al
motor de traduccin y si esta accesibilidad es gratuita o no. Excepto si existe la
intencin declarada de ofrecer el recurso libremente, como en el caso de
interNOSTRUM, el acceso gratuito puede ser intermitente y siempre existe la
posibilidad de que el propietario decida cerrar el acceso.
Peticin al servicio de traduccin de Babel Fish para que traduzca la frase alemana Hallo
Welt, Guten Tag
27-44 cap2
30/9/08
09:36
Editorial UOC
Pgina 41
41
La traduccin automtica
Conclusiones
27-44 cap2
30/9/08
09:36
Pgina 42
Editorial UOC
42
Traduccin y tecnologas
La TA es una disciplina con muchsimos aspectos interesantes. Para profundizar, recomendamos la pgina web del profesor Joseba Abaitua,10 de la
Universidad de Deusto, un gran especialista en TA. Dicha pgina contiene una
recopilacin, muy bien organizada, de artculos y libros sobre diversas cuestiones relacionadas con este tema. El lector podr buscar y escoger los aspectos
que ms le interesen.
Recomendamos especialmente el apartado dedicado a las publicaciones de
John Hutchins11 para tener una idea completa de la evolucin histrica de la
traduccin automtica y de sus posibilidades en el futuro. Entre los artculos de
Hutchins, se pueden encontrar descripciones y anlisis de los sistemas que
estn en funcionamiento en la actualidad.
Tambin podis consultar a las publicaciones del profesor de la Universidad
de Alicante Mikel L. Forcada12 sobre TA y la filosofa que subyace al traductor
InterNOSTRUM.
A continuacin tenis unas referencias por si queris saber ms cosas sobre
los proyectos de traduccin automtica de cdigo abierto
Antonio M. Corb-Bellot, Mikel L. Forcada, Sergio Ortiz-Rojas, Juan Antonio
Prez-Ortiz, Gema Ramrez-Snchez, Felipe Snchez-Martnez, Iaki Alegria,
Aingeru Mayor i Kepa Sarasola (2005) An open-source shallow-transfer machine
translation engine for the romance languages of Spain, a Proceedings of the European
Association for Machine Translation, 10th Annual Conference, Budapest, 2005, p.
79-86.
http://www.dlsi.ua.es/~japerez/pub/pdf/eamt2005.pdf
Carme Armentano-Oller, Antonio M. Corb-Bellot, Mikel L. Forcada, Mireia
Ginest-Rosell, Boyan Bonev, Sergio Ortiz-Rojas, Juan Antonio Prez-Ortiz,
Gema Ramrez-Snchez i Felipe Snchez-Martnez (2005) An open-source shallow-transfer machine translation toolbox: consequences of its release and availabi-
10. http://www.serv-inf.deusto.es/abaitua/konzeptu/ta.htm
11. http://ourworld.compuserve.com/homepages/WJHutchins/Compendium-3.pdf
12. http://www.dlsi.ua.es/~mlf/publ_en.html
27-44 cap2
30/9/08
09:36
Editorial UOC
Pgina 43
43
La traduccin automtica
27-44 cap2
30/9/08
09:36
Pgina 44
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 45
45
Captulo III
Introduccin
En este captulo explicaremos qu son las herramientas de traduccin asistida por ordenador (TAO), sus diversos tipos y utilidades, y daremos a conocer
las ideas bsicas para entender su funcionamiento. Veremos que el rasgo distintivo de las herramientas de traduccin asistida es el uso de memorias de traduccin. Aunque dedicaremos un captulo entero a las memorias de traduccin, en
este captulo proporcionaremos una introduccin bsica para entender qu son
y para qu sirven.
Objetivos
Saber diferenciar los sistemas de traduccin asistida de los sistemas de traduccin automtica
Conocer los tipos principales de sistemas de traduccin asistida
Valorar las ventajas de los sistemas de traduccin asistida en el proceso de
traduccin
Conocer el funcionamiento bsico de las herramientas de traduccin asistida
Contenido
1. Qu es la traduccin asistida por ordenador?
2. El proceso de traduccin con sistemas de traduccin asistida
3. Caractersticas de los sistemas de traduccin asistida
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 46
46
Traduccin y tecnologas
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 47
47
encuentra en la base de datos terminolgica, este trmino aparecer resaltado y la informacin asociada, como la denominacin en la lengua destino,
aparecer tambin en pantalla.
Mientras que las memorias de traduccin evitan tener que traducir de
nuevo segmentos ya traducidos anteriormente, las bases de datos terminolgicas evitan tener que perder el tiempo repitiendo consultas terminolgicas a
diccionarios u otras fuentes que ya hemos realizado anteriormente.
Existe una gran variedad de sistemas de traduccin asistida por ordenador
pero, en general, todos comparten las siguientes funcionalidades:
Entorno de trabajo agradable, es decir, que permita trabajar cmodamente. Esto implica una distribucin adecuada de toda la informacin
necesaria para realizar la traduccin: texto original, texto traducido,
resultados de las consultas a la memoria o memorias de traduccin,
resultado de las consultas a la base o bases de datos terminolgicas, etc.
Capacidad para trabajar con archivos en diversos formatos, es decir, el
sistema ha de ser capaz de trabajar con diferentes formatos (por ejemplo
Microsoft Word, Open Office, HTML, etc.) y generar documentos traducidos en el mismo formato.
Capacidad para trabajar con una o ms memorias de traduccin. El sistema ha de ser capaz de realizar consultas automticamente a estas
memorias y realizar diferentes operaciones de gestin de memorias,
como creacin, importacin, exportacin, etc.
Capacidad para trabajar con una o ms bases de datos terminolgicas. El
sistema ha de ser capaz de realizar consultas automticamente a estas
bases de datos terminolgicas y realizar diferentes operaciones de gestin de las bases de datos terminolgicas, como creacin, importacin,
exportacin, etc.
Adems de estas funcionalidades bsicas, las diferentes herramientas pueden ofrecer otras utilidades, como por ejemplo la conexin con sistemas de
traduccin automtica, correctores ortogrficos o gramaticales, funciones de
recuento y anlisis de proyectos, funciones que ayuden al control de la calidad, etc.
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 48
48
Traduccin y tecnologas
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 49
49
Adicionalmente, si hay una o ms bases de datos terminolgicas seleccionadas, el sistema busca si dentro del segmento que se tiene que traducir hay alguna entrada de la base de datos seleccionada y, si la hay,
remarca los trminos y busca la informacin asociada.
A medida que el traductor va traduciendo, el sistema almacena automticamente los segmentos traducidos en una de las memorias o bien en
una memoria interna, de manera que si un segmento del mismo archivo que se est traduciendo se repite de manera exacta o aproximada, este
aparece automticamente y no es necesario volverlo a traducir desde
cero.
Una vez el traductor finaliza la traduccin y realiza las revisiones y los
controles de calidad pertinentes, puede genera un archivo traducido con
el mismo formato que el original.
Como se puede deducir de esta explicacin, si trabajamos por primera vez
con una herramienta de traduccin asistida y no tenemos ninguna memoria de
traduccin ni ninguna base de datos terminolgica, el sistema no recuperar
automticamente ningn segmento, excepto aquellos segmentos que se puedan repetir de manera exacta o aproximada dentro del mismo proyecto.
Para sacarle provecho a una herramienta de traduccin asistida, ser necesario saber gestionar adecuadamente estos dos recursos: las memorias de traduccin y las bases de datos terminolgicas. En los prximos captulos explicaremos cmo realizar adecuadamente esta gestin.
Cada herramienta de traduccin asistida tiene unas caracterstica particulares que la diferencian del resto y que hacen que funcione mejor en determinados aspectos. En esta seccin pretendemos exponer algunas de estas caractersticas con el objetivo de ayudar al lector a seleccionar la herramienta ms adecuada a sus necesidades.
45-58 cap3
30/9/08
09:48
Pgina 50
Editorial UOC
50
Traduccin y tecnologas
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 51
51
Algunas herramientas de traduccin asistida ofrecen la doble opcin: traducir mediante una integracin en un procesador de textos, o bien con un entorno de trabajo propio.
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 52
52
Traduccin y tecnologas
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 53
53
cada segmento en unidades sintcticas (chunks) y aadir informacin gramatical a estos chunks. Estas unidades se indexan y cuando se realiza la bsqueda
no se busca nicamente a nivel de segmento, sino tambin a nivel de chunk, de
manera que la probabilidad de encontrar coincidencias aumenta. Si el sistema
encuentra diversas coincidencias, selecciona aquellas que tengan la misma
informacin gramatical asociada. Esta metodologa presenta el inconveniente
que funciona sobre un nmero reducido de lenguas, ya que aadir una nueva
lengua al sistema implica desarrollar la informacin lingstica y las herramientas de anlisis para esta nueva lengua.
Un caso especial en lo que hace referencia al tratamiento de memorias de
traduccin es STAR Transit. Esta herramienta no utiliza bases de datos para
almacenar el material traducido, sino que utiliza una estructura basada en
ficheros, que funciona como memoria de traduccin virtual, que asocia los
ficheros traducidos que pueden estar en cualquier directorio del ordenador. El
usuario escoge los documentos traducidos que puedan ser relevantes para el
nuevo proyecto y crea de manera automtica la asociacin entre ellos.
Algunas herramientas de traduccin asistida utilizan otro tipo de concepto
de memoria de traduccin, que se conoce con el nombre de memoria a texto
completo. Estos sistemas, en lugar de almacenar parejas de segmentos originaltraducido, lo que hacen es almacenar textos enteros en la lengua de partida y
sus correspondientes traducciones a una o ms lenguas. A menudo, un texto
completo con su traduccin correspondiente recibe el nombre de bitexto. El sistema indexa los contenidos del original y de la traduccin de manera que despus es capaz de recuperar todas las posiciones de una cadena de caracteres del
original y las posiciones aproximadas de las traducciones correspondientes. La
longitud de la cadena de bsqueda puede ser cualquiera, desde una nica palabra o una expresin, hasta una oracin o prrafo. Un ejemplo de herramienta
que utiliza este concepto de memoria de traduccin es Multitrans. Esta orientacin presenta algunas ventajas respecto a la ms tradicional. Podemos destacar las siguientes:
El sistema nos muestra la informacin dentro del contexto en que aparece. En las orientaciones tradicionales, cuando recuperamos un segmento
de la memoria de traduccin, se suele perder toda la informacin referente al contexto, de manera que no se puede saber cual es el segmento precedente o posterior en el documento a partir del cual se cre la entrada de
la memoria.
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 54
54
Traduccin y tecnologas
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 55
55
aparezcan nuevas versiones y soluciones a posibles errores que puedan ir apareciendo. Las herramientas de traduccin asistida gratuitas pueden ser una muy
buena opcin en muchos casos.
45-58 cap3
30/9/08
09:48
Pgina 56
Editorial UOC
56
Traduccin y tecnologas
45-58 cap3
30/9/08
09:48
Pgina 57
Editorial UOC
57
Conclusiones
En este captulo hemos presentado una introduccin a los conceptos fundamentales relacionados con la traduccin asistida por ordenador. Uno de los rasgos distintivos de las herramientas de traduccin asistida son las memorias de
traduccin. En el prximo capitulo profundizaremos en este tema y explicaremos cmo se crean y se gestionan las memorias de traduccin.
45-58 cap3
30/9/08
09:48
Editorial UOC
Pgina 58
58
Traduccin y tecnologas
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 59
59
Captulo IV
Introduccin
En este captulo explicaremos qu es y para qu sirve una memoria de traduccin. Tambin explicaremos cmo se pueden crear memorias de traduccin
a partir de documentos originales y traducidos. En este sentido explicaremos
algunas tcnicas de alineacin automtica de documentos. Las memorias de
traduccin son un recurso muy valioso que requiere una organizacin y mantenimiento adecuados. En este captulo explicaremos cmo podemos llevar a
cabo esta organizacin y mantenimiento de una manera adecuada. Por ltimo
presentaremos el TMX, un formato estndar basado en XML que sirve para
compartir memorias de traduccin.
Objetivos
Los objetivos de este captulo son que el lector:
Sepa qu es una memoria de traduccin y conozca sus usos.
Conozca cmo se puede crear una memoria de traduccin.
Aprenda a organizar y mantener de manera adecuada las memorias de traduccin.
Conozca el formato TMX y valore su uso para compartir memorias de traduccin entre usuarios de diferentes herramientas.
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 60
60
Traduccin y tecnologas
Contenido
1.
2.
3.
4.
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 61
61
Las memorias de traduccin evitan tener que traducir de nuevo un segmento que ya ha sido traducido anteriormente. Cuando el traductor tiene que traducir un segmento igual o parecido a un segmento ya traducido anteriormente, la traduccin se puede recuperar automticamente de la memoria de traduccin. La siguiente figura, adapta de Webb (1992), ilustra el proceso bsico de
traduccin con una memoria de traduccin.
Figura 4.1. Intervencin de una memoria en el proceso de traduccin
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 62
62
Traduccin y tecnologas
ductividad (Gow 2003) y las cifras varan considerablemente, pero podemos estimar que el aumento de productividad puede oscilar entre el 10 y
el 30 %.
Aumento de la coherencia. El uso de memorias de traduccin puede ayudar a mantener la coherencia en las traducciones, ya que ayudarn a traducir de la misma manera segmentos iguales que puedan aparecer repetidos en un documento o en diferentes documentos. Si disponemos de
memorias de traduccin en red, en grandes proyectos de traduccin en los
que intervengan ms de un traductor, se conseguir una mayor coherencia entre las traducciones de los diversos traductores, ya que tendrn un
acceso inmediato a los segmentos traducidos por el resto de traductores.
Tambin se pueden utilizar las memorias de traduccin para realizar bsquedas de segmentos que contengan una determinada cadena. De esta
manera podremos observar cmo se ha traducido anteriormente una
determinada expresin.
La traduccin suele ser uno de los ltimos pasos en la produccin de documentacin y en este proceso suelen realizarse cambios de ltima hora.
Esto suele significar que los plazos de entrega de las traducciones sean muy
ajustados. Si se utilizan memorias de traduccin, el proceso de traduccin
puede iniciarse en el momento que se disponga de las primeras versiones
de los documentos. Cuando el documento final est acabado se podrn
recuperar buena parte de las traducciones de la memoria y nicamente
ser necesario traducir los fragmentos que hayan cambiado o que sean
nuevos. Este hecho es especialmente significativo en los proyectos de localizacin de software, en los que las versiones localizadas de los programas
deben salir al mercado muy poco tiempo despus de haberse acabado la
versin original.
Para poder sacar el mximo provecho de las memorias de traduccin, hay
que dedicar un cierto tiempo a hacer un mantenimiento correcto. Tenemos que
estar seguros de que el contenido de la memoria sea correcto y que contenga
toda la informacin adicional necesaria para poder aprovecharla en proyectos
futuros. En secciones posteriores explicaremos cmo hacer este mantenimiento de manera adecuada.
59-74 cap4
30/9/08
09:50
Pgina 63
Editorial UOC
63
3. La pretraduccin
La pretraduccin es un proceso automtico realizado por un sistema de traduccin asistida que recupera las traducciones de los segmentos originales
mediante la consulta a una o diversas memorias de traduccin. Este proceso se
puede llevar a cabo antes de que el traductor empiece a trabajar. Consiste en la
comparacin de todos los segmentos que hay que traducir con todos los segmentos originales guardados a la memoria de traduccin. Si el sistema encuentra un segmento original idntico (exact matching), traduce el segmento escribiendo el segmento traducido correspondiente. Si el traductor quiere recuperar
la traduccin de segmentos que son muy parecidos aunque no idnticos, busca
el segmento en la lengua de partida que tiene el grado de coincidencia ms alto
con respecto al segmento que se tiene que traducir. Si el grado de coincidencia
supera el umbral establecido por defecto por la herramienta o por el usuario
(fuzzy matching), traduce el segmento con el segmento traducido correspondiente. La siguiente figura, tambin adaptada de Webb (1992), ilustra la pretraduccin con exact-matching y fuzzy-matching.
Figura 4.2. Proceso de pretraduccin con exact matching y fuzzy matching
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 64
64
Traduccin y tecnologas
El resultado del proceso de pretraduccin es un proyecto parcialmente traducido. Los sistemas de traduccin asistida indican cules son los segmentos pretraducidos que se han recuperado de manera exacta y de manera aproximada.
Si trabajamos con una herramienta de traduccin asistida, la creacin y alimentacin de memorias de traduccin es una tarea inmediata y automtica.
Los segmentos traducidos con la herramienta de traduccin asistida se podrn
incorporar a una nueva memoria de traduccin o a una existente. Este proceso
es dinmico, es decir, la memoria se alimenta (tanto si es nueva y est vaca
como si ya contiene informacin) a medida que el traductor traduce, ya que los
nuevos segmentos se incorporan a la memoria y la hacen crecer.
Las herramientas de traduccin asistida generalmente segmentan el texto de
entrada y presentan al traductor un segmento detrs del otro. De esta manera,
la herramienta de traduccin asistida ya tiene establecida la relacin entre los
segmentos originales y los segmentos traducidos. La generacin de la memoria
de traduccin, pues, es una tarea trivial.
Ahora bien, es posible que un traductor disponga de un volumen considerable de documentos originales y documentos traducidos y que la traduccin
de estos documentos no se haya realizado con la ayuda de un sistema de traduccin asistida. Este material puede ser muy valioso y puede ser interesante
para crear memorias de traduccin. Para poder crearlas, ser necesario llevar a
cabo un proceso que se conoce con el nombre de alineacin de documentos. La
alineacin de documentos consiste en relacionar los segmentos de un texto original con los segmentos correspondientes del texto traducido.
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 65
65
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 66
66
Traduccin y tecnologas
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 67
67
de la relacin entre las longitudes de los segmentos originales y de los segmentos traducidos.
La segunda metodologa se basa en el hecho de conocer la traduccin de
ciertas palabras o grupos de palabras. Si estas palabras aparecen en el segmento original se espera que el segmento traducido aparezcan las traducciones
correspondientes. El sistema buscar la alineacin que haga que el nmero de
palabras del diccionario que se encuentren en los segmentos originales y las
traducciones de las cuales se encuentren en el correspondiente segmento traducido sea mximo.
La tercera de las metodologas utiliza tcnicas grficas (representando grficamente diversos parmetros de los documentos originales y traducidos) para
encontrar la alineacin ms probable.
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 68
68
Traduccin y tecnologas
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 69
69
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 70
70
Traduccin y tecnologas
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 71
71
59-74 cap4
30/9/08
09:50
Pgina 72
Editorial UOC
72
Traduccin y tecnologas
<tu
tuid="0001"
datatype="Text"
usagecount="2"
lastusagedate="19970314T023401Z"
>
<note>Text of a note at the TU level.</note>
<prop type="x-Domain">Computing</prop>
<prop type="x-Project">Localization231 </prop>
<tuv
xml:lang="en-EN"
creationdate="19970212T153400Z"
creationid="ToniO"
>
<seg>Open file</seg>
</tuv>
<tuv
xml:lang="ca-ES"
creationdate="19970309T021145Z"
creationid="ToniO"
changedate="19970314T023401Z"
changeid="ManonD"
>
<seg>Obrir arxiu</seg>
</tuv>
</tu>
Conclusiones
En este captulo hemos explicado la utilidad de una memoria de traduccin
y como gestionar adecuadamente este recurso. Una memoria de traduccin es
el resultado del trabajo considerable que ha llevado a cabo un traductor o un
59-74 cap4
30/9/08
09:50
Pgina 73
Editorial UOC
73
grupo de traductores. Este recurso es fcil de compartir, especialmente si se utiliza el formato estndar TMX.
Direcciones de inters
En http://tcc.itc.it/people/forner/multilingualcorpora.html#corpora encontraris textos (corpus) paralelos y alineados disponibles en Internet.
Tambin puede ser interesante consultar, www.tumatxa.com/es, donde
encontraris informacin sobre Tumatxa, una herramienta de libre distribucin de gestin de memorias de traduccin va web creada por la empresa del
Pas Vasco CodeSyntax.
Bibliografa
Gow, F. (2003). Metrics for Evaluating Translation Memory Software. MA thesis.
University of Ottawa. Canad.
59-74 cap4
30/9/08
09:50
Editorial UOC
Pgina 74
74
Traduccin y tecnologas
75-92 cap5
30/9/08
10:01
Pgina 75
Editorial UOC
75
La terminologa
Captulo V
La terminologa
Introduccin
En este tema veremos los aspectos tericos y prcticos relacionados con la
terminologa y su importancia en el campo de la traduccin. Las bases de datos
terminolgicas son unos recursos de vital importancia en todo proceso de traduccin. Por este motivo es necesario aprender a crear y mantener bases de
datos terminolgicas de una manera adecuada.
Objetivos
Introducir los aspectos tericos bsicos relacionados con la terminologa.
Valorar la utilizacin de las bases de datos terminolgicas en el proceso de
traduccin.
Aprender a crear, organizar y mantener bases de datos terminolgicas.
Presentar las prestaciones bsicas de los programas de gestin de bases de
datos terminolgicas.
Entender el funcionamiento y la utilidad de los programas de extraccin
de terminologa.
Contenido
1. Terminologa y traduccin
2. Glosarios y bases de datos terminolgicas
3. Organizacin y clasificacin de las bases de datos terminolgicas
75-92 cap5
30/9/08
10:01
Pgina 76
Editorial UOC
76
Traduccin y tecnologas
1. Terminologa y traduccin
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 77
77
La terminologa
Los traductores no estn nicamente interesados en los trminos estrictamente hablando. A menudo el traductor tiene que seguir unos estndares de
denominacin de los productos de su cliente, de los departamentos de su
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 78
78
Traduccin y tecnologas
empresa, de sus cargos, etc. Aunque no son trminos en el sentido estrictamente terico, el traductor aborda su traduccin como si fuesen trminos de un
texto mdico o farmacutico.
Denominaremos glosario temtico al conjunto de trminos propios de una
especialidad aprobados por terminlogos y de uso comn entre especialistas.
Por su parte, denominaremos glosario corporativo al conjunto de trminos de
uso comn en una empresa, institucin, etc. Cuando estos glosarios temticos
y corporativos contienen el equivalente de un trmino en otra lengua, diremos
que son glosarios temticos bilinges y glosarios corporativos bilinges, respectivamente. Si contienen los equivalentes del trmino en diferentes lenguas, son
multilinges.
Una base de datos terminolgica (BDT) es un glosario que tiene un formato electrnico. Las bases de datos terminolgicas pueden ser bilinges o multilinges.
La importancia de una buena gestin de la terminologa en la tarea de la traduccin se puede concretar en dos aspectos fundamentales:
Mejora la eficiencia del traductor (ahorra tiempo de preparacin y evita la
prdida de tiempo en consultas).
Asegura la coherencia terminolgica entre diferentes trabajos de un
mismo cliente, especialmente cuando en la realizacin de un proyecto
interviene un equipo de traductores.
En este punto podemos repetir lo que ya dijimos en el tema anterior respecto a la organizacin, el mantenimiento y la clasificacin de las memorias de
traduccin. Resumiendo, podemos trabajar con bases de datos muy grandes
donde el tema, cliente y otras caractersticas se especifiquen en cada entrada, o
bien trabajar con diversas bases de datos terminolgicas ms pequeas. Sea
como sea, si guardamos los datos adecuados de cada trmino, siempre podremos dividir bases grandes en varias ms pequeas o agrupar varias pequeas
para crear una ms grande.
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 79
79
La terminologa
Una buena prctica consiste en trabajar con diversas bases de datos y clasificarlas (es decir, dar un nombre al fichero) segn:
El tema de especialidad
Las lenguas implicadas (algunas bases de datos terminolgicas son multilinges, entonces habr que indicar todas las lenguas implicadas)
El cliente (nombre o cdigo)
Por ejemplo, podemos dar el nombre FA-1023-eng-spa en que FA corresponde a
una especialidad y 1023 es el cdigo de cliente. Este tipo de nombre permitir una
bsqueda rpida de la base de datos terminolgica, la creacin de lexicones a partir de ms de una base de datos y la agrupacin de diversas en una ms grande.
Existen diversas maneras de gestionar la terminologa durante la preparacin o la ejecucin de un proyecto de traduccin. La estrategia que se escoja
depender del tipo de proyecto y de los recursos terminolgicos disponibles.
Las tres estrategias que presentaremos se pueden combinar perfectamente. En
este apartado presentamos dos de las estrategias, y la tercera, la extraccin automtica de terminologa, la presentaremos en el apartado siguiente.
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 80
80
Traduccin y tecnologas
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 81
81
La terminologa
terminolgico a partir de bases de datos terminolgicas. En el caso de la extraccin automtica de terminologa, intentamos descubrir los trminos ms relevantes sin saber previamente cules son estos trminos. En cambio, en el caso
de la creacin de glosarios para un determinado proyecto, miramos qu trminos de una base de datos terminolgica estn en un proyecto determinado. En
este caso, pues, los trminos son conocidos a priori.
La extraccin automtica de terminologa es una aplicacin de la
Lingstica Computacional muy interesante para la actividad del traductor:
En la fase de preparacin de un proyecto, especialmente para proyectos
grandes en los que intervienen ms de un traductor. Mediante la extraccin automtica de terminologa podremos descubrir los trminos ms
relevantes de un determinado proyecto y unificar los criterios de traduccin entre los diferentes colaboradores antes de empezar el proyecto.
Una vez acabado un proyecto, para hacer revisiones y recopilaciones de
terminologa.
La extraccin de terminologa puede ser monolinge o bilinge.
Entendemos por extraccin monolinge la que trabaja sobre textos en una
nica lengua y quiere extraer los trminos en esta misma lengua. En cambio,
la extraccin bilinge trabaja sobre textos en una determinada lengua y sus
correspondientes traducciones a otra lengua, y quiere descubrir los trminos
en una determinada lengua y los equivalentes de traduccin que se han utilizado de estos trminos extrados. En este apartado trataremos nicamente
de la extraccin monolinge y dejaremos la bilinge para el apartado
siguiente.
Las principales dificultades para la extraccin de terminologa son tres:
Identificar el inicio y el final de las unidades terminolgicas.
Decidir si una unidad discursiva corresponde a un dominio especializado
o al lenguaje general.
Detectar trminos monopalabra.
Existen dos tcnicas principales para la extraccin de terminologa.
Estadstica: se basa principalmente en la frecuencia de aparicin de diferentes unidades (palabras y combinaciones de palabras).
75-92 cap5
30/9/08
10:01
Pgina 82
Editorial UOC
82
Traduccin y tecnologas
75-92 cap5
30/9/08
10:01
Pgina 83
Editorial UOC
83
La terminologa
75-92 cap5
30/9/08
10:01
Pgina 84
Editorial UOC
84
Traduccin y tecnologas
Una vez etiquetado el texto, la extraccin de terminologa consiste bsicamente en hacer una bsqueda de patrones que sean tpicamente terminolgicos.
Ejemplos en ingls:
NN
NNN
AN
ANN
NPN
farm loan
Schengen Information System
fiscal year
social protection system
payment by result
Ejemplos en castellano:
NA
N de N
prstamo externo
comprobante de asiento
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 85
85
La terminologa
El sistema calcular a los candidatos a trmino de la parte castellana del corpus, y obtendr a los candidatos siguientes (indicamos tambin la frecuencia
del candidato):
75-92 cap5
30/9/08
10:01
Pgina 86
Editorial UOC
5
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
86
Traduccin y tecnologas
proyecto de ley
Parlamento un proyecto
ley sobre derechos
comisin promotora
representantes del sector
entrada en vigor
repeticin del desalentador
valores catastrales
Banco Central
desalentador caso
Banco Central Europeo
Parlament su propuesta
tramitar por va
calidad agroalimentaria
votos a favor
medida -aprobada
presupuestos del Estado
zona del euro
presente Ley
enmienda al proyecto
trabajadores y representantes
incineracin de residuos
ley sobre calidad
1 da siguiente
va urgente
disposicin del proyecto
ley de presupuestos
Central Europeo
Como podemos observar, el candidato ms frecuente (proyecto de ley) es realmente el equivalente de traduccin que buscamos. Esta tcnica funciona bastante bien, pero hay que tener en cuenta unos cuantos aspectos importantes:
Los n-gramas correspondientes a la lista de frases traducidas hay que filtrarlos con la lista de palabras vacas correspondiente a la lengua de llegada.
El orden de los n-gramas que se tienen que calcular de las frases traducidas
no tiene porque coincidir con el nmero de palabras del trmino que se
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 87
87
La terminologa
tiene que buscar. Hay que dar un cierto margen superior e inferior. Por
ejemplo, si buscamos el equivalente de traduccin del trmino ingls
social protection system ser necesario que el orden n de los n-gramas de la
lengua de destino sea al menos de uno ms que el nmero de palabras (en
este caso 3, y, por lo tanto, n tendr que ser hasta 4), para poder encontrar
el equivalente sistema de proteccin social.
No siempre el equivalente propuesto por el sistema es el correcto, por lo
que habr que explorar la lista de posibles equivalentes.
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 88
88
Traduccin y tecnologas
Internet es una buena herramienta de consulta terminolgica. En este apartado presentaremos algunos sitios web para hacer consultas terminolgicas y
otros que permiten descargar recursos de manera libre. No presentaremos sitios
web desde los cuales se pueden descargar ficheros que contienen glosarios concebidos para ser consultado en formato papel.
Entre los sitios web de consulta, destacamos los siguientes:
Cercaterm (www.termcat.cat): Cercaterm es la interfaz de consulta de las
bases de datos terminolgicas del Termcat, el organismo que elabora y
difunde recursos terminolgicos en cataln y que es el normalizador de los
neologismos en esta lengua. Adems de la denominacin en cataln se
pueden obtener los equivalentes de un trmino en castellano, francs e
ingls.
Onelook (www.onelook.com): Onelook contiene un buscador que
encuentra las definiciones y las traducciones de un trmino en diferentes
diccionarios y glosarios en lnea. Se pueden obtener traducciones de un
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 89
89
La terminologa
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 90
90
Traduccin y tecnologas
Las incompatibilidades de formatos de las BDT creadas con diferentes herramientas de TAO comerciales han creado la necesidad de desarrollar un formato estndar que permita el intercambio libre de bases de datos terminolgicas
75-92 cap5
30/9/08
10:01
Pgina 91
Editorial UOC
91
La terminologa
entre cualquier traductor. Es el formato TBX (TermBase eXchange), muy parecido al TMX; de hecho, es tambin un formato basado en el XML. Presentamos
aqu un ejemplo de un fragmento en que se muestra la informacin para el trmino brush y su traduccin al francs.
<termEntry id='C65'>
<descrip type='subjectField'>art</descrip>
<descrip type='definition'>An instrument composed of bristles, or other like material, set in a suitable handle
and used for various purposes, as in laying on colors</descrip>
<langSet xml:lang='en'>
<tig> <term>brush</term> </tig>
</langSet>
<langSet xml:lang='fr'>
<tig> <term>pinceau</term> </tig>
</langSet>
</termEntry>
Conclusiones
En este captulo hemos presentado los aspectos ms importantes de la terminologa y su relacin con la traduccin. Una buena gestin terminolgica es
clave para completar con xito un proyecto de traduccin. Las bases de datos
terminolgicas son unos recursos muy importantes para aumentar la productividad y la calidad de nuestros trabajos de traduccin.
75-92 cap5
30/9/08
10:01
Editorial UOC
Pgina 92
92
Traduccin y tecnologas
Bibliografa
Arntz, R.; Pitch, H. (1995). Introduccin a la Terminologa. Madrid: Fundacin
Snchez Ruiprez.
Cabr, M. T. (1993). La terminologa. Teora, metodologa, aplicaciones.
Barcelona: Antrtida-Empries.
Felber, H. (1984). Terminology Manual. Pars: Unesco-Infoterm.
Felber, H.; Pitch, H. (1984). Mtodos de terminografa y principios de investigacin terminolgica. Madrid: C.S.I.C., Instituto Miguel de Cervantes.
Gonzalo, C.; Garca Yebra, V. (ed.) (2004). Manual de documentacin y terminologa para la traduccin especializada. Madrid: Arco/Libros.
Picht, H.; Draskau, J. (1985). Terminology: an introduction. Guilford:
University of Surrey.
Sager, J. C. (1993). Curso prctico sobre el procesamiento en terminologa.
Madrid: Fundacin Germn Snchez Ruiprez.
Wright, S. E. (1997). Handbook on Terminology Management. Amsterdam:
John Benjamins.
Wster, E. (1998). Introduccin a la teora general terminolgica y a la lexicografa terminolgica. Edicin a cargo de M. T. Cabr. Barcelona: IULA.
93-108 cap6
13/10/08
13:34
Pgina 93
Editorial UOC
93
Captulo VI
Introduccin
En este captulo hablaremos de los corpus lingsticos y de su uso en el
mundo de la traduccin. Los corpus se pueden convertir en unas herramientas
muy interesantes para la tarea de un traductor, porque permiten observar el uso
real de las palabras y expresiones.
Objetivos
Los objetivos del captulo son que el lector:
Contenido
1. Qu es un corpus lingstico?
2. Tipos de corpus lingsticos
3. Usos de los corpus lingsticos
93-108 cap6
13/10/08
Editorial UOC
13:34
Pgina 94
94
Traduccin y tecnologas
1. Qu es un corpus lingstico?
Segn Sinclair (1996), un corpus es una recopilacin de fragmentos de una lengua que se seleccionan y se ordenan segn un criterio lingstico con la finalidad
de ser utilizado como una muestra de la lengua o de una variedad de la lengua.
Sinclair habla de fragmentos y no de textos por el siguiente motivo: en el caso de
que se extraigan muestras del corpus que tengan el mismo tamao, las muestras no
pueden ser todas textos completos, sino que algunas sern fragmentos de textos.
Tradicionalmente, se ha considerado que cualquier compilacin de textos se
puede considerar un corpus. Hay autores, sin embargo, que establecen unos requisitos ms restrictivos, como la extensin, que tiene que ser finita. Sinclair (2005)
dice que pueden haber confusiones y que se acabe llamando corpus a cosas que
realmente no lo son. Por ejemplo, Internet no es un corpus porque tiene unas
dimensiones desconocidas y que cambian constantemente. Adems, Internet no
es un corpus porque no se ha diseado desde una perspectiva lingstica.
En este captulo nos centraremos en los llamados corpus electrnicos; es decir,
corpus que pueden ser procesados y consultados con un software informtico.
Un criterio muy general para distinguir tipo de corpus es si es un corpus escrito o un corpus oral. Si el uso que se hace est en el marco de la fontica y de las
93-108 cap6
13/10/08
13:34
Pgina 95
Editorial UOC
95
tecnologas del habla, el corpus oral recoge grabaciones o bien representaciones de grabaciones con alfabeto fontico. Si la finalidad es representar el uso
oral de una lengua, o de una variedad o un registro de uso, el corpus contiene
las transcripciones ortogrficas (transliteracin) de las grabaciones. Un ejemplo
de corpus oral del primer tipo es la Base de Donnes de Lapsus1 sobre errores de
produccin del habla en francs. Un ejemplo del segundo tipo es el Corpus Oral
de Referencia del Espaol Contemporneo, del Laboratorio de Lingstica
Informtica de la Universidad Autnoma de Madrid.2
Entre los corpus escritos hay que mencionar los corpus de referencia, los monitores y los paralelos. Un corpus de referencia es aquel que puede servir de base
para hacer buenas gramticas, diccionarios, tesauros y otros materiales de referencia. Entre los corpus de referencia ms conocidos hay los representativos de
la lengua inglesa, como el Brown Corpus,3 del ingls americano, el British
National Corpus4 y tambin el Bank of English5 de la Universidad de
Birmingham, a partir del cual se gener el diccionario y las gramticas
COBUILD. Para el francs, est el FRANTEXT, del Institut National de la Langue
Franaise,6 que es la base del Trsor de la Langue Franaise. En Catalua est el
Corpus Textual Informatitzat de la Llengua Catalana (CTILC), a partir del cual se
ha hecho el Diccionari Descriptiu de la Llengua Catalana,7 y el corpus cataln del
proyecto europeo PAROLE (Preparatory Action for Linguistic Resources
Organisation for Language Engineering),8 que ha desarrollado corpus para trece
lenguas europeas. En cuanto a corpus de referencia de la lengua espaola, tenemos el Corpus de Referencia del Espaol Actual (CREA) de la Real Academia de la
Lengua9 el Corpus lingstico del espaol contemporneo (CUMBRE), el corpus desarrollado para el proyecto LEXESP (base de datos de lxico espaol), del
Laboratorio de Lingstica Computacional de la Universidad de Barcelona y el
grupo de procesamiento de lenguaje natural de la UPC. Entre los corpus multi-
1. http://www.lpl.univ-aix.fr/lpl/personnel/rossi/bd.htm
2. http://www.lllf.uam.es/corpus.html
3. http://icame.uib.no/brown/bcm.html
4. http://info.ox.ac.uk./bnc
5. http://www.titania.bham.ac.uk/
6. http://www.lib.uchicago.edu/efts/ARTFL/databases/TLF/
7. http://dcc.iecat.net/ddlc/index.asp
8. http://www.elda.org/catalogue/en/text/doc/parole.html
9. http://www.rae.es
93-108 cap6
13/10/08
13:34
Pgina 96
Editorial UOC
96
Traduccin y tecnologas
10. http://www.iula.upf.es/corpus/corpus.htm
11. http://www.iula.upf.edu/obneo/
12. http://people.csail.mit.edu/koehn/publications/europarl/
13. http://www.comp.lancs.ac.uk/linguistics/craterl
93-108 cap6
13/10/08
Editorial UOC
13:34
Pgina 97
97
93-108 cap6
13/10/08
13:34
Pgina 98
Editorial UOC
98
Traduccin y tecnologas
Absolutely adore aparece mucho ms que definitely adore, mientras que absolutely
prefer es mucho ms extrao que definitely prefer. Eso indica que absolutely slo
puede modificar acciones extremas o atributos. Esta informacin puede ser til
para un traductor automtico para poder decidir la generacin de uno de los
dos adverbios. Tambin puede ser til para un corrector gramatical automtico. Adems, esta informacin puede ser muy relevante para incluirla en la
nueva versin de un diccionario, o en la creacin de un diccionario de uso real
de la lengua.
Finalmente, tambin mencionaremos los corpus que se utilizan para evaluar
sistemas de procesamiento de lenguaje natural. Destacamos el corpus Senseval,15
que sirve para evaluar los sistemas que desambiguan los sentidos de las palabras segn su contexto (Word Sense Disambiguation o WSD); una tarea necesaria para una correcta traduccin automtica o el resumen automtico de un
documento. En Senseval las palabras en ms de doce lenguas que pueden tener
diferentes sentidos se ponen en un contexto textual. Los sistemas de desambiguacin tienen que identificar el sentido de la palabra que se adecua al contexto en el que aparece.
En el momento de confeccionar un corpus se debe tener muy clara la utilidad que le queremos dar. No obstante, hay una serie de requisitos generales que
se deben de tener en cuenta.
93-108 cap6
13/10/08
13:34
Pgina 99
Editorial UOC
99
Con la orden anterior obtendremos las veces que aparece la secuencia entrar
en en el corpus que est en el fichero 'corpus-es.txt'. Si queremos tener los contextos de aparicin, escribiremos:
grep -w 'entrar en' corpus-es.txt
16. w i c son parmetros de la orden: w establece que entrar en son dos palabras, no una cadena
de caracteres que pueden estar en una palabra ms larga. Por lo tanto, la secuencia concentrar en no
se tiene en cuenta; c quiere decir que se cuentan las veces en que aparece la combinacin de palabras de la consulta.
93-108 cap6
13/10/08
13:34
Pgina 100
Editorial UOC
100
Traduccin y tecnologas
Con otras rdenes Unix que transforman todo el fichero de texto en una
lista de palabras y ordenan las palabras por su frecuencia de aparicin podemos
saber cules son las palabras ms frecuentes del corpus. A continuacin podemos ver la secuencia de rdenes Unix que crea una lista de palabras de un corpus en ingls ordenada por orden de frecuencia.
tr -sc 'A-Za-z' '\012' < corpus-en.txt | sort | uniq -c | sort -nr17
Lista de palabras ordenada por frecuencia de un corpus de referencia obtenida con rdenes Unix
72853 the
41285 of
37687 to
31316 a
29570 and
24560 in
17475 that
17296 is
...
17. tr -sc 'A-Za-z' '\012' insiere un salto de lnea donde haya un espacio detrs de una letra. As crea
un lista de palabras. sort | uniq -c | sort -nr ordenan la lista de palabras de ms frecuente a menos
frecuente.
18. http://www.athel.com/mono.html
19. http://www.lexically.net/wordsmith/
93-108 cap6
13/10/08
13:34
Pgina 101
Editorial UOC
101
20. El lema de una palabra es la entidad abstracta que agrupa todas las variantes flexionales de una
palabra. Casa es un lema y casas es una variante flexional.
93-108 cap6
13/10/08
13:34
Pgina 102
Editorial UOC
102
Traduccin y tecnologas
Para que los corpus puedan ser aprovechados para diferentes usos, en cualquier plataforma de almacenaje, y se puedan intercambiar entre diferentes
investigadores, es conveniente que se marquen segn una convencin estndar. Es habitual seguir estndares de marcaje como el SGML o el XML. En este
formato, las marcas tambin denominadas tags se escriben entre los signos
'<y>. El signo </> indica el lmite final del elemento al que se le aplica el tag. El
tag contiene tambin unos atributos con unos valores. Por ejemplo, el atributo
wnsn del ejemplo del corpus Semcor21 tiene un valor que es el ndice del sentido asignado a un nombre segn la base de datos Wordnet.22 Es conveniente que
toda la informacin que sea susceptible de estar presente en cualquier corpus
se declare segn unos requisitos estndar. Con este objetivo ha trabajado el
EAGLES (Expert Advisory Group on Language Engineering Standards) para establecer su Corpus Encoding Standard (CES).23
El marcaje de las unidades de un corpus es una tarea ingente. Se debe tener
en cuenta que puede haber millones de palabras y que el etiquetado debe ser
impecable. Un corpus etiquetado con errores puede desvirtuar los resultados de
los experimentos de un grupo de investigacin. As, aunque se aplican herra-
21. Otro ejemplo de corpus etiquetado semnticamente es Senseval, con textos en ingls, en francs y en italiano.
22. WordNet es una base de datos lxica que conecta las palabras del ingls con categoras que representan sus significados (http://wordnet.princeton.edu/). .
23. http://www.cs.vassar.edu/CES/
93-108 cap6
13/10/08
Editorial UOC
13:34
Pgina 103
103
el contexto social
el periodo cronolgico
el origen (oral, escrito...)
el dominio de conocimiento
el estilo
los medios de publicacin (diarios, revistas, textos electrnicos, etc.)
el gnero literario
La procedencia geogrfica, etc.
La facilidad de obtener textos masivamente determina bastante la constitucin del corpus. Eso explica que los textos presentes en la red tengan preferencia en la constitucin de corpus actuales, y que tengan un peso importante textos periodsticos y de la Administracin (el Diario Oficial de la Generalitat de
Catalua, por ejemplo) que se pueden descargar de Internet de manera automtica y gratuita.
A continuacin vemos un ejemplo de cmo se organiza el corpus para una
lengua del PAROLE. Este corpus se ha construido segn criterios cronolgicos
(1980-1998) y mediticos con las siguientes proporciones de representacin
[Rafel y Soler (2001)].
93-108 cap6
13/10/08
Editorial UOC
13:34
Pgina 104
104
Traduccin y tecnologas
93-108 cap6
13/10/08
Editorial UOC
13:34
Pgina 105
105
93-108 cap6
13/10/08
13:34
Editorial UOC
Pgina 106
106
Traduccin y tecnologas
Conclusiones
En este captulo hemos presentado los corpus lingsticos y sus usos. Hemos
visto que los corpus son recursos importantes no slo para tener informacin
fiable sobre los usos reales de una lengua, sino tambin porque aportan informacin para la automatizacin de tareas vinculadas con la traduccin, como es
la traduccin automtica y la correccin de textos, y con la confeccin de
recursos como glosarios multilinges, etc. Ahora bien, la confeccin de un corpus es una tarea muy compleja, pesada y que requiere una inversin que no
todas las empresas o instituciones pueden costear. Por lo tanto, si bien es posible encontrar bastantes portales donde se pueden hacer consultas en lnea en
un corpus ya creado, la adquisicin de un corpus de manera completamente
libre y gratuita es mucho menos frecuente. Para obtener corpus de manera gratuita a menudo se tiene que pedir una licencia de uso para fines de investigacin. A pesar de ello, los corpus actualmente se confeccionan segn unos estndares adecuados para que se puedan compartir e intercambiar.
93-108 cap6
13/10/08
13:34
Pgina 107
Editorial UOC
107
Bibliografa
Abaitua, J. (2002) "Tratamiento de corpora bilinges", a Mart, M. A.Llisterri, J. (Ed.) (2002) Tratamiento del lenguaje natural. Tecnologa de la lengua
oral y escrita. Barcelona: Edicions Universitat de Barcelona - Fundacin Duques
de Soria (Biblioteca de la Universitat de Barcelona, Manuals, 53). p. 61-90.
http://paginaspersonales.deusto.es/abaitua/konzeptu/ta/soria00.pdf
Helmreich, S., Llevadias, J., Farwell, D. (2005). Identifying Jargon in Texts
en Actas del XXI Congreso de la Sociedad Espaola de Procesamiento de Lenguaje
Natural. Granada. p. 425-432.
http://www.sepln.org/revistaSEPLN/revista/35/52.pdf
Rafel i Fontanals, J., Soler i Bou, J. (2001) El processament de corpus. La lingstica emprica, a Mart, M. A. (Coord.) Les tecnologies del llenguatge.
Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53).; trad.
cast.: "El procesamiento de corpus", a Mart, M. A. (Coord.) Tecnologas del lenguaje. Barcelona: Editorial UOC (Manuales, Humanidades), 2003.
Sinclair, J. (1996). EAGLES Preliminary Recommendations on Corpus Typology.
s.1.: EAGLES Document EAG-TCWG-TTYP/P http://www.ilc.cnr.it/EAGLES96/
corpustyp/corpustyp.html
Sinclair, J. (2005). Corpus and Text - Basic Principles a Developing Linguistic
Corpora: a Guide to Good Practice, ed. M. Wynne. Oxford: Oxbow Books: 1-16.
http://ahds.ac.uk/linguistic-corpora/
93-108 cap6
13/10/08
Editorial UOC
13:34
Pgina 108
108
Traduccin y tecnologas
interesante paquete (nltk.corpus) dedicado al tratamiento de corpus con interesantes muestras de corpus textuales como el Brown Corpus o el Senseval.
109-142 cap7
13/10/08
13:51
Editorial UOC
Pgina 109
109
Captulo VII
Introduccin
Los traductores a menudo se tienen que enfrentar al problema de la gran
diversidad de formatos en que se pueden presentar los textos a traducir. Cada
vez es ms frecuente que el texto a traducir no se encuentre en un formato de
texto simple, sino en formatos pensados para ser tratados con programas muy
especficos, o bien en formatos con etiquetas especiales que permiten recuperar su diseo original.
Los documentos que recibe un traductor pueden estar en diversas codificaciones de caracteres y es imprescindible saber abrirlos en la codificacin adecuada. La traduccin, en muchos casos, se tendr que entregar en una codificacin de caracteres diferente.
Objetivos
Conocer el funcionamiento bsico de los diferentes formatos y codificaciones de caracteres, as como los aspectos tcnicos que se deben tener en
cuenta para poder traducir documentos en diferentes formatos.
Aprender a abrir y visualizar ficheros de texto en diferentes codificaciones
de caracteres y a realizar las conversiones necesarias.
Comprender los principios bsicos del Unicode y su aplicacin en la traduccin.
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 110
110
Traduccin y tecnologas
Contenido
1. Introduccin. Bits, bytes y almacenaje de la informacin
1.1. Sistemas y cdigos de numeracin
1.2. El lenguaje interno del ordenador y las unidades de medida en
informtica
2. Representacin de la informacin textual: cdigo de caracteres. Unicode.
2.1. Introduccin
2.2. Conceptos bsicos
2.3. Algunas definiciones importantes
2.4. Los cdigos de caracteres ms habituales
2.5. El Unicode
2.6. Determinacin y cambio del cdigo de caracteres de un documento
2.7. Problemas con los tipos de letra
2.8. Un editor de Unicode
3. Representacin de la informacin no textual en documentos
3.1. Introduccin
3.2. Un ejemplo preliminar
3.3. Latex
3.4. RTF
3.5. HTML
3.6. ODT (Open Office)
3.7. Los formatos tratados por los programas de traduccin asistida
3.8. El formato PDF (Portable Document Format)
109-142 cap7
13/10/08
13:51
Editorial UOC
Pgina 111
111
numeracin no es el nico, existen otros, dos de los cuales son muy utilizados
en informtica.
Uno de ellos es el sistema binario. El sistema binario slo cuenta con dos
smbolos, el 0 y el 1. De la misma manera que en el sistema decimal, si necesitamos representar cifras mayores aadiremos uno o ms dgitos a la izquierda,
por ejemplo, 10, 11, 101, 11001011.
Otro sistema muy utilizado es el hexadecimal, que cuenta con 16 smbolos: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E i F. De la misma manera que en el
sistema decimal y el sistema binario, si necesitamos representar cifras mayores aadiremos ms cifras a la izquierda: 10, 23, 2F, A10, BE3. En la siguiente
tabla podis ver algunos ejemplos de conversin entre los tres sistemas de
numeracin:
Tabla 7.1. Cdigos decimal, binario y hexadecimal
Decimal
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Binario
0
1
10
11
100
101
110
111
1000
1001
1010
1011
1100
1101
1110
1111
10000
Hexadecimal
0
1
2
3
4
5
6
7
8
9
A
B
C
D
E
F
10
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 112
112
Traduccin y tecnologas
109-142 cap7
13/10/08
13:51
Editorial UOC
Pgina 113
113
2.1. Introduccin
Como hemos visto en el apartado anterior, los ordenadores trabajan con un
cdigo binario, que es capaz de representar nmeros. Cuando trabajamos con
ordenadores no nicamente queremos almacenar y trabajar con nmeros, sino
que tambin tenemos que ser capaces de procesar texto, sonido, imagen, etc.
109-142 cap7
13/10/08
13:51
Pgina 114
Editorial UOC
114
Traduccin y tecnologas
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 115
115
Cdigo de caracteres (character code): es una correspondencia, normalmente presentada en formato tabular, entre los caracteres de un repertorio de
caracteres y un conjunto de nmeros enteros positivos. Es decir, se asigna
un cdigo numrico nico a cada carcter del repertorio.
Cdigo de caracteres (character encoding): es un mtodo o algoritmo para
presentar los caracteres digitalmente haciendo una correspondencia entre
las secuencias de cdigos de caracteres y las secuencias de octetos. En el
caso ms simple, a cada carcter le corresponde un nmero entero entre el
0 y el 255, y ste se utiliza como octeto. Naturalmente, esta posibilidad
slo funciona para repertorios de caracteres de como mximo 256 caracteres (cantidad que no es suficiente para todas las lenguas; pensemos, por
ejemplo, en el chino).
ASCII
La familia ISO 8859
Cdigos de caracteres de Windows
La familia KOI de cdigos de caracteres cirlicos
Unicode, al cual dedicaremos el apartado 2.5 entero por su importancia
109-142 cap7
13/10/08
13:51
Pgina 116
Editorial UOC
116
Traduccin y tecnologas
En las columnas HEX se puede ver la correspondencia numrica del carcter en sistema hexadecimal; en las columnas DEC podemos observar esta
misma correspondencia en decimal. En las columnas CTRL y CHR podemos ver
el cdigo de control o el carcter asociado. Fijaos que hay 127 posiciones. Por
ejemplo, el carcter T tiene el valor 84 decimal y el carcter "s" el 115. Esta
representacin de los cdigos de caracteres no es demasiado compacta. La
representacin que presentamos a continuacin es mucho ms frecuente y
prctica:
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 117
117
109-142 cap7
13/10/08
13:51
Pgina 118
Editorial UOC
118
Traduccin y tecnologas
Lenguas incluidas: fr, es, ca, eu, pt, it, sq, rm, nl, de, da, sv, no, fi, fo, is, ga,
gd, en, af i sw.
109-142 cap7
13/10/08
13:51
Pgina 119
Editorial UOC
119
ISO-8859-2 (Latin2)
109-142 cap7
13/10/08
13:51
Pgina 120
Editorial UOC
120
ISO-8859-5 (Cyrillic)
Traduccin y tecnologas
109-142 cap7
13/10/08
13:51
Pgina 121
Editorial UOC
121
ISO-8859-8 (Hebrew)
109-142 cap7
13/10/08
13:51
Pgina 122
Editorial UOC
122
Traduccin y tecnologas
ISO-8859-11 (Thai)
109-142 cap7
13/10/08
13:51
Pgina 123
Editorial UOC
123
ISO-8859-14 (Latin8)
Pretende actualizar el Latin1 reemplazando los smbolos ____ que se utilizan poco por letras francesas y finlandesas e introducir el smbolo del euro ( ).
2.4.3. Cdigos de caracteres de Windows
Windows tiene una codificacin de caracteres propia, diferente de la ISO
8850. En la tabla siguiente podemos observar la codificacin WinLatin 1 o
Windows code page 1252.
109-142 cap7
13/10/08
13:51
Pgina 124
Editorial UOC
124
Traduccin y tecnologas
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 125
125
El KOI-8
sta es una versin de 8 bits e incluye tanto caracteres en maysculas como
en minsculas. En la figura siguiente podemos ver la porcin superior:
109-142 cap7
13/10/08
13:51
Pgina 126
Editorial UOC
126
Traduccin y tecnologas
2.5. Unicode
En el apartado anterior hemos presentado una serie de cdigos de caracteres
que utilizan 8 bits. Eso da la posibilidad de codificar hasta 256 caracteres. Para
muchos idiomas es suficiente, pero no para todos (pensemos, por ejemplo, en los
caracteres chinos). Aunque pueda ser suficiente para muchos idiomas, hace que
sea imposible guardar en un nico archivo de texto (cuidado, de texto, utilizando otros formatos s que es posible) documentos multilinges (por ejemplo, mezclar en un nico documento castellano y ruso). Tambin se tiene que tener en
cuenta que, de vez en cuando, aparecen nuevos smbolos (pensemos, por ejemplo, en el del euro) que se tienen que ir incorporando al cdigo de caracteres.
En el apartado anterior hemos visto unos cuantos cdigos de caracteres de
los muchos existentes. Esta gran cantidad de cdigos de caracteres implica la
dificultad de abrir un documento correctamente, ya que la deteccin del cdigo de caracteres no es en todos los casos totalmente automtica.
Por este motivo se intenta adoptar un cdigo de caracteres universal. Este
cdigo de caracteres es el Unicode. El Unicode utiliza ms de 8 bits, de manera que puede codificar muchos ms caracteres.
El objetivo del Unicode es poder representar, en un nico cdigo de caracteres, todos los alfabetos de todas las lenguas existentes, que han existido y que
existirn, ms otros smbolos de tipo cientficos, musicales, etc. Os preguntaris cmo es que se pretende poder representar caracteres de lenguas todava no
existentes (o conocidas). Bien, la respuesta es sencilla: dejando bastantes posiciones libres para necesidades futuras.
Originariamente se pensaba utilizar simplemente una codificacin de 16
bits que ofrece la posibilidad de codificar ms de 65.000 caracteres (216 =
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 127
127
65.536). Aunque esta cifra es suficiente para codificar la mayora de los millares de caracteres que se utilizan en las diferentes lenguas del mundo, el estndar Unicode ISO/IEC 10646 permite tres formas de codificacin que utilizan un
repertorio de caracteres comn pero que permiten codificar en torno a un
milln ms de caracteres. Esta cifra es suficiente para cubrir todas las necesidades de codificacin conocidas, incluyendo todas las escrituras histricas del
mundo y otros sistemas de notacin.
Es del todo imposible recoger aqu todas las tablas de los caracteres que
puede representar el Unicode. Para consultar las tablas, visitad la web
www.unicode.org.
2.5.1. Codificaciones de caracteres con Unicode
Hay diferentes maneras de codificar los caracteres con Unicode. La mayora
de los ordenadores utilizan unidades mnimas de 8 bits. Si utilizamos ms de 8
bits, tendremos que organizar la codificacin de manera que utilicemos mltiplos de 8 bits, es decir, ms de un byte. El estndar Unicode define tres tipos de
codificaciones que permiten representar la informacin en un byte, dos bytes
o cuatro bytes. Las tres codificaciones codifican el mismo repertorio de caracteres comn, y se puede pasar de una codificacin a otra sin prdida de datos.
UTF-8: la codificacin en bytes es de una longitud variable, desde 1 byte
para los caracteres coincidentes con l'ASCII.
UTF-16: la codificacin tambin es variable, pero o bien en dos bytes o
bien en cuatro.
UTF-32: todos los caracteres se codifican con cuatro bytes.
2.5.2. Endianess
Otra diferencia en la codificacin de caracteres en Unicode es la posibilidad
que sea Big Endian o Little Endian. Por ejemplo, nos podemos encontrar con
UTF-16LE (little endian) y UTF-16BE (big endian). Esto est relacionado con la
manera en que el procesador lee los diferentes bytes de un carcter multibyte.
Si tenemos el carcter 0x41 (hexadecimal 41), correspondiente a la letra A
mayscula, y lo queremos representar con dos bytes (porque utilizamos UTF16), necesitaremos el byte 0x00 (= hexadecimal) y el 0x41. Si ponemos estos
dos bytes seguidos (0x00 0x41) el procesador tendr que decidir si el primero
es el ms significativo; es decir, que lee U+0041 (la U indica Unicode), o bien
el primero es menos significativo y lee U+4100. Es decir, el concepto de endia-
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 128
128
Traduccin y tecnologas
ness est relacionado con la manera como se almacena y se leen los bytes de
un carcter multibyte. Si representamos este carcter con UTF-16B quedara
U+0041 y en UTF-16LE quedara U+4100. Si no seleccionamos correctamente
la endianess confundiramos los dos smbolos siguientes:
y
.
2.5.3. El UTF-8 con ms detalle
Ya hemos comentado que el UTF-8 puede utilizar desde 1 byte hasta 4 bytes,
en funcin del carcter que se quiera codificar. El procesador, cuando lee un
byte, tendr que saber si ha de leer 1, 2, 3 o 4. En este apartado explicaremos
cmo se hace esto. Observamos la siguiente tabla:
Tabla 7.5. Representacin en UTF-8 de caracteres de 1, 2, 3 y 4 bytes.
Para representar caracteres con un solo byte se fuerza que el byte empiece
por 0, por lo que quedan 7 bytes libres y se pueden representar 128 posiciones. As pues, si un determinado byte empieza por 0 querr decir que
slo hay que leer un carcter.
En cambio, si el byte empieza por 1 querr decir que es necesario leer ms
de un byte. El nmero inicial de unos del primer byte nos indicar cuntos bytes tenemos que leer. As pues, en los caracteres de dos bytes, el primer byte empieza por 11, en los de tres por 111 y en los de 4 por 1111.
Despus de estos unos iniciales viene siempre un cero y el resto de posiciones se pueden utilizar para codificar caracteres. En los caracteres de ms
de un byte, el resto de bytes (sin contar el primero) siempre empiezan por
10.
Pongamos como ejemplo la codificacin del carcter hebreo
(alef), que
es el carcter Unicode U+05D0 (es decir, la posicin decimal 1488).
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 129
129
Como es la posicin decimal 1488, vemos en la tabla que tenemos que utilizar 2 bytes.
El modelo de codificacin ser, pues, 110xxxxx 10xxxxxx.
El hexadecimal 05D0 equivale al decimal 1488 y al binario 101-11010000.
Ahora, simplemente tenemos que llenar el modelo de codificacin con la
cifra binaria, empezando por la derecha, es decir, 11010111 10010000.
El nmero binario 11010111 es el D7 hexadecimal y el 10010000 es el 90
hexadecimal, en cuanto la codificacin UTF-8 del carcter es 0xD7 0x90.
2.5.2. Inconvenientes del Unicode
Por ahora hemos presentado numerosas ventajas del Unicode pero, no
tiene ningn inconveniente? Por qu se utilizan todava otras codificaciones
de caracteres si el Unicode es tan potente? Los motivos pueden ser diversos,
pero uno importante es que para ciertas lenguas los archivos en Unicode pueden ocupar ms que en otras codificaciones. Pongamos ahora un ejemplo. En
la tabla siguiente podemos observar los tamaos de los archivos de un documento en ingls, uno en castellano y otro ruso en una codificacin de 8 bits
(ASCII, ISO y KOI) y en Unicode UTF-8 y Unicode UTF-16.
Tabla 7.6. Medidas relativas en diferentes idiomas y diferentes codificaciones de caracteres
109-142 cap7
13/10/08
Editorial UOC
13:51
Pgina 130
130
Traduccin y tecnologas
codificarse con dos bytes. El UTF-16 ocupa el doble que el ISO ya que
todos los caracteres se pueden codificar con dos bytes.
En el caso del ruso, el documento en UTF-8 ocupa bastante ms que el
KOI, pero no llega al doble. De hecho, en UTF-8 todas las letras del alfabeto ruso se codifican con dos bytes, pero los smbolos de puntuacin se
pueden codificar con ASCII y ocupan 1 byte. El UTF-16 ocupa exactamente el doble que el KOI ya que todos los caracteres se pueden codificar con
dos bytes.
109-142 cap7
13/10/08
13:51
Pgina 131
Editorial UOC
131
109-142 cap7
13/10/08
13:51
Editorial UOC
Pgina 132
132
Traduccin y tecnologas
Tambin permite ver en pantalla diversas tablas de smbolos para seleccionarlos directamente. A continuacin observamos la tabla correspondiente a los
smbolos musicales:
Figura 7.4. Tabla del Unicode correspondiente a los smbolos musicales presentada por el
programa SC Unipad
109-142 cap7
13/10/08
13:51
Pgina 133
Editorial UOC
133
3.1. Introduccin
En el apartado anterior hemos aprendido cmo se codifica la informacin
textual (incluidos los saltos de lnea y otros caracteres de control) en un documento de texto. Los documentos con que tendremos que trabajar contienen
mucha ms informacin, de tipo no textual, como pueden ser cuestiones de
formato (negritas, tipo de letra, colores, etc.) o bien referencias a otros objetos
(cmo pueden ser imgenes o grficos). Toda esta informacin se codifica tambin de diferentes maneras. En este apartado estudiaremos las maneras ms
habituales de codificar este tipo de informacin en los documentos.
El traductor a menudo tiene que traducir, adems, ficheros que no son documentos en sentido estricto: pginas web, bases de datos, cdigo de programas
o ficheros de imgenes.
Esta unidad no puede organizarse como una enumeracin de los formatos
de archivo ms habituales, ya que la lista es interminable. Lo que procuraremos
ser exponer algunas ideas bsicas y estrategias para poder enfrontarnos a formatos de archivo desconocidos. Suele haber una relacin entre el formato del
archivo y su extensin. Recordad, no obstante, que esta relacin no es inequvoca. Podis encontrar informacin detallada sobre los tipos de archivo y las
extensiones en la direccin http://filext.com.
109-142 cap7
13/10/08
13:51
Pgina 134
Editorial UOC
134
Traduccin y tecnologas
dr que codificar por otros medios. Pondremos ahora unos ejemplos de cmo
se codifica esta informacin en diferentes formatos:
Latex
Hola {\bf qu\'{e}} {\it tal}?
RTF
(mostramos nicamente un fragmento)
{\rtf1\ansi\ansicpg1252\uc1 \ {Hola }{\b qu\'e8 } {\i tal}{?
\par }
HTML
<html>
<body>
Hola <b>qué </b><i>tal</i>?</p>
</body>
</html>
ODT (Open Office)
(mostramos nicamente un fragmento)
<?xml version="1.0" encoding="UTF-8"?>
...
- <office:body>
- <office:text>
<office:forms form:automatic-focus="false" form:apply-designmode="false" />
- <text:sequence-decls>
<text:sequence-decl text:display-outline-level="0" text:
name="Illustration" />
<text:sequence-decl text:display-outline-level="0" text:
name="Table" />
<text:sequence-decl text:display-outline-level="0" text:
name="Text" />
<text:sequence-decl text:display-outline-level="0" text:
name="Drawing" />
</text:sequence-decls>
- <text:p text:style-name="Standard">
109-142 cap7
13/10/08
13:51
Pgina 135
Editorial UOC
135
Hola
<text:span text:style-name="T1">qu</text:span>
<text:span text:style-name="T2">tal</text:span>
<text:span text:style-name="T3">?</text:span>
</text:p>
</office:text>
</office:body>
</office:document-content>
Fijmonos en el mtodo que utiliza cada uno de stos formatos para codificar este tipo de informacin no textual.
3.3. Latex
El formato Latex es muy utilizado por la comunidad acadmica para redactar artculos, libros, informes, tesis doctorales, etc. Permite una separacin total
entre lo que es el contenido y el formato. Cuando se redacta un documento en
Latex, se indican marcas de contenido (cmo puede ser ttulo, autor, apartados,
subapartados, etc.) y el formato se definir posteriormente con un fichero especial. Esto permite concentrarse estrictamente en redactar el contenido sin preocuparse en absoluto por el formato.
A continuacin presentamos un ejemplo de documento en Latex (el texto
est abreviado y las instrucciones de Latex aparecen en negrita):
\documentclass[a4paper,11pt,twocolumn,twoside]{article}
\usepackage[dvips]{graphicx}
\usepackage{sepln}
\usepackage[T1]{fontenc}
\usepackage[latin1]{inputenc}
\usepackage[spanish]{babel}
\title{Traduccin automtica estadstica basada en {\it n}-gramas}
\seplnresumen{En este artculo presentamos un sistema experimental...}
\seplnclave{traduccin automtica estadstica}
\seplnabstract{In this paper we present an experimental statistical
machine translation system based on...}
109-142 cap7
13/10/08
13:51
Pgina 136
Editorial UOC
136
Traduccin y tecnologas
Una vez escrito el documento, hay que compilarlo para obtener primero un
archivo ps y, posteriormente, si se desea, obtener un documento en PDF. En sistemas Unix y Linux habitualmente tenemos preinstalado todo lo necesario
para escribir y compilar documentos en Latex. Si se quiere hacer en Windows,
es necesario descargar el paquete MikTex (www.miktex.org).
Una vez compilado el documento de ejemplo, tendra un aspecto como el
siguiente:
109-142 cap7
13/10/08
13:51
Pgina 137
Editorial UOC
137
109-142 cap7
14/10/08
Editorial UOC
13:44
Pgina 138
138
Traduccin y tecnologas
109-142 cap7
14/10/08
Editorial UOC
13:44
Pgina 139
139
\lang1034\langfe1027\langnp1034\insrsid15610002\charrsid15610002
\par }\pard \s15\ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjust r i g h t \ r i n 0 \ l i n 0 \ i t a p 0 \ p a r a r s i d 1 5 6 1 0 0 0 2
{\lang1034\langfe1027\langnp1034\insrsid15610002\charrsid15610002
\par }\pard \s15\ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjust r i g h t \ r i n 0 \ l i n 0 \ i t a p 0 \ p a r a r s i d 1 5 6 1 0 0 0 2
{\lang1034\langfe1027\langnp1034\insrsid15610002
(}{\f97\lang1049\langfe1027\langnp1049\insrsid15610002\charrsid7684633 \'c5\'e2\'e0\'ed\'e3\'e5\'eb\'e8
\'e5 \'ee\'f2 \'c8\'ee\'e0\'ed\'ed\'e0, \'c3\'eb\'e0\'e2\'e0 XII, 24.)
}{\lang1034\langfe1027\langnp1034\insrsid15610002
\par
\par }{\f97\lang1049\langfe1027\langnp1049\insrsid15610002\charrsid7684633
\'ce\'d2
\'c0\'c2\'d2\'ce\'d0\'c0}{\lang1049\langfe1027\langnp1049\insrsid15610002\charrsid15610002 .}{\lang1034\langfe1027\langnp1034\insrsid15610002
\par
\par }\pard \s15\ql \li0\ri0\widctlpar\aspalpha\aspnum\faauto\adjust r i g h t \ r i n 0 \ l i n 0 \ i t a p 0 \ p a r a r s i d 1 5 6 1 0 0 0 2
{\f97\lang1049\langfe1027\langnp1049\insrsid15610002\charrsid7684633
\ ' c d \ ' e 0 \ ' f 7 \ ' e 8 \ ' e d \ ' e 0 \ ' f f
\'e6\'e8\'e7\'ed\'e5\'ee\'ef\'e8\'f1\'e0\'ed\'e8\'e5
\'e3\'e5\'f0\'ee\'ff
\'ec\'ee\'e5\'e3\'ee,
\'c0\'eb\'e5\'ea\'f1\'e5\'ff
\ ' d 4 \ ' e 5 \ ' e 4 \ ' e e \ ' f 0 \ ' e e \ ' e 2 \ ' e 8 \ ' f 7 \ ' e 0
\'ca\'e0\'f0\'e0\'ec\'e0\'e7\'ee\'e2\'e0, \'ed\'e0\'f5\'ee\'e6\'f3\'f1\'fc \'e2
\'ed\'e5\'ea\'ee\'f2\'ee\'f0\'ee\'ec \'ed\'e5\'e4\'ee\'f3\'ec
\'e5\'ed\'e8\'e8}{\lang1049\langfe1027\langnp1049\insrsid15610002\c
harrsid7684633 .}{\insrsid9899562
\par }}
109-142 cap7
14/10/08
13:44
Pgina 140
Editorial UOC
140
Traduccin y tecnologas
Si queris ver el cdigo de una pgina web determinada, la podis visitar con
vuestro navegador y hacer Ver > Cdigo fuente (o alguna opcin parecida, en
funcin de vuestro navegador).
109-142 cap7
14/10/08
13:44
Editorial UOC
Pgina 141
141
Conclusiones
En este captulo hemos presentado los conceptos fundamentales para comprender cmo se codifica informticamente la informacin textual y no textual
en documentos. Estos conceptos son imprescindibles para poder tratar correctamente los diferentes formatos informticos. A pesar de la informacin ofrecida en este captulo, la gran cantidad de formatos existentes hace imposible
poder ofrecer una informacin detallada sobre cada a uno de ellos.
109-142 cap7
14/10/08
13:44
Pgina 142
Editorial UOC
142
Traduccin y tecnologas
143-168 cap8
30/9/08
11:30
Editorial UOC
Pgina 143
143
Captulo VIII
Introduccin
En este captulo hablaremos de la visualizacin, la declaracin y el intercambio de informacin sin que tengamos que preocuparnos por la plataforma, el
hardware o el software que tengamos. Esto es posible gracias a los formatos
HTML y XML, que tienen en comn el marcaje de la informacin pero presentan, de hecho, dos finalidades diferentes. Si bien el HTML es un formato para
hacer visible la informacin, el XML es un formato para declarar y transmitir informacin; por eso tiene mayor inters para el traductor y nos centraremos en l.
Desde el punto de vista de la traduccin, el conocimiento de estos formatos tiene tambin dos aplicaciones diferentes. Si bien es recomendable que el
traductor tenga unos conocimientos mnimos de HTML para arreglar cualquier problema en la visualizacin de la traduccin de un fichero (por ejemplo, si no se visualiza la traduccin en negrita de una palabra que est marcada en negrita en el original), los conocimientos que tenga de XML le permitirn entender por qu el uso y el intercambio libre de recursos, como bases de
datos terminolgicas o memorias de traduccin, pasan por este formato, y se
dar cuenta de que con el XML es posible superar las limitaciones de algunos
sistemas de traduccin asistida en la importacin de documentos en diferentes formatos.
Objetivos
Los objetivos del captulo son los siguientes:
143-168 cap8
30/9/08
Editorial UOC
11:30
Pgina 144
144
Traduccin y tecnologas
Contenido
1. El marcaje de la informacin y su libre transmisin
1.1. Motivacin del marcaje de la informacin
1.2. La manifestacin de las marcas
1.3. Estandarizacin del marcaje de la informacin
2. Qu es el HTML? Editores de HTML
3. Nociones bsicas de HTML
3.1. Formato bsico de una marca
3.2. Estructura de un documento HTML
3.3. La buena formacin de documentos en HTML
3.4. Marcas de elementos textuales
3.5. Atributos de las marcas
4. Nociones bsicas de XML
4.1. Estructura de los documentos XML
4.2. Las seis reglas para crear documentos XML bien formados
4.3. Definicin de los tipos de documentos
5. Formatos de intercambio basados en XML
5.1. TMX (Translation Memory Exchange)
5.2. TBX (TermBase Exchange)
5.3. XLIFF (XML Localisation Interchange File Format)
5.4. SRX (Segmentation Rules Exchange)
143-168 cap8
30/9/08
11:30
Pgina 145
Editorial UOC
145
apartado>1.
El
marcaje
de
la
informacin
su
libre
143-168 cap8
30/9/08
11:30
Pgina 146
Editorial UOC
<parrafo><subtitulo
146
Traduccin y tecnologas
apartado>Motivacin
del
marcaje
de
la
El
marcaje
de
la
informacin
su
libre
destacado>,
como
las
nociones
de
143-168 cap8
30/9/08
11:30
Pgina 147
Editorial UOC
147
este software, los caracteres entre las etiquetas <b> y </b> aparecen en pantalla
como una secuencia de caracteres en negrita. Adems, el programa interpreta
la marca </br> e inserta un salto de lnea entre to be or not to be y thats the
question. As, el HTML siguiente:
<html>To be or not to be</br><b>thats the
question</b></html>
Se visualiza:
To be or not to be
thats the question
Gracias al software capaz de presentar la informacin de manera visual o
sonora segn lo que indican las marcas, es posible tener diferentes formatos
del mismo documento. Un documento marcado con un sencillo editor de
texto plano se puede transformar en una pgina web, en un documento
PDF, en un DVD o en un libro hablado. Es necesario disponer del software
capaz de interpretar las marcas y realizar estas transformaciones. Ahora
bien, no siempre se marca un contenido para presentarlo de manera visual
o sonora.
143-168 cap8
30/9/08
Editorial UOC
11:30
Pgina 148
148
Traduccin y tecnologas
HTML es el acrnimo de Hyper Texto Markup Language. Es un lenguaje de formato concebido por Tim Berners-Lee, fundador del World Wide Web
Consortium, para presentar la informacin contenida en las pginas web de
manera que sea posible acceder de manera rpida e intuitiva a otras pginas. El
HTML es un formato de publicacin de la informacin disponible en Internet
y su elemento distintivo son los enlaces de hipertexto. El HTML es, pues, un
lenguaje para visualizar las pginas web.
La intencin era que nadie se viera imposibilitado a la hora de confeccionar pginas web por el hecho de no tener un software adecuado. Con un sencillo editor de textos, disponible para todo el mundo que tiene ordenador, se
puede hacer una pgina web. Slo hay que indicar con marcas cmo se tiene
que visualizar la informacin y un programa denominado navegador (browser)
ya se encargar de interpretar estas marcas y presentar la informacin segn
lo que establecen. Despus se cambia la extensin .txt por .html y ya se tiene
una pgina web a punto de ser publicada. Internet Explorer es el navegador de
143-168 cap8
30/9/08
11:30
Pgina 149
Editorial UOC
149
de
inicio
de
la
marca>elemento
afectado
por
la
143-168 cap8
30/9/08
11:30
Pgina 150
Editorial UOC
150
Traduccin y tecnologas
Hay marcas, sin embargo, que no necesitan una etiqueta de cierre. Por ejemplo, la etiqueta que marca un salto de lnea no tiene etiqueta de cierre, aunque
tambin es posible ponerla como </br>.
Las etiquetas de comienzo de marca tienen ste formato:
<nombre de la marca>
Para crear una pgina web con el ttulo Estudiar HTML, abrid un fichero
de texto con un editor de textos y escribid lo siguiente:
<title>Estudiar HTML</title>
143-168 cap8
30/9/08
Editorial UOC
11:30
Pgina 151
151
<html>
<head>
<title>Ttulo de la pgina web</title>
</head>
<body>
Contenido visible de la pgina web
</body>
</html>
Dado que el ttulo es informacin del head, fijaos que tenemos que marcar
el ttulo de la pgina web entre <head> i </head>. Fijaos tambin que cuando
se ha acabado de escribir y de marcar los contenidos del body se tiene que
poner </body> Finalmente, una vez acabada de confeccionar la pgina web
tenemos que poner la etiqueta de cierre </html>. Aqu tenis un ejemplo.
<html>
<head>
<title>Estudiar HTML</title>
</head>
<body>
Benvinguts al curset dHTML</br>
Bienvenidos al cursillo de HTML
</body>
</html>
143-168 cap8
30/9/08
11:30
Editorial UOC
Pgina 152
152
Traduccin y tecnologas
Una informacin que suele encabezar el fichero HTML es la relativa a la versin de HTML y el modelo de plantilla o estructura (DTD) sobre la cual se organiza la informacin. Es una informacin que aparece en primer lugar y est fuera
del alcance de cualquier otra marca. A continuacin ofrecemos un ejemplo:
<!DOCTYPE html PUBLIC -//W3C//DTD HTML 4.01 Transitional//EN
http://www.w3.org/TR/html4/loose.dtd>
<html>
<head>
<title> Ttulo de la pgina web </title>
</head>
<body>
Contenido visible de la pgina web
</body>
</html>
143-168 cap8
30/9/08
11:30
Editorial UOC
Pgina 153
153
En este ejemplo falta cerrar las etiquetas <head> y <body>, pero la pgina
web se visualiza perfectamente.
Fijaos, sin embargo, que hay errores que s que afectan a la visualizacin, por
ejemplo:
<html>
<head>
<title>
Estudiar HTML
<bodyBenvinguts al curset dHTML</br>
Bienvenidos al cursillo de HTML</body>
</html>
143-168 cap8
30/9/08
11:30
Editorial UOC
Pgina 154
154
Traduccin y tecnologas
143-168 cap8
30/9/08
11:30
Pgina 155
Editorial UOC
155
3.4.2. Listas
Si la lista es numerada, el formato es:
<ol><li>primer elemento</li>
<ol><li>segundo elemento</li>
<ol><li>tercer elemento</li>
</ol>
Y si no es numerada:
<ul><li>primer elemento</li>
<li>segundo elemento</li>
<li>tercer elemento</li>
</ul>
143-168 cap8
30/9/08
11:30
Pgina 156
Editorial UOC
156
Traduccin y tecnologas
3.4.3. Prrafos
El formato para marcar los prrafos es
<p>Texto del prrafo</p>
La direccin puede ser la ruta por las carpetas hasta encontrar el documento todava no publicado en la Red o bien el URL donde se encuentra la pgina
publicada en la Red. En el siguiente ejemplo, vemos un enlace en otra pgina
dentro del mismo servidor y un enlace en una pgina situada en un servidor
exterior (en este ejemplo, la pgina de bsqueda de Google).
<html>
<head>
<title>Temario</title>
</head>
143-168 cap8
30/9/08
11:30
Pgina 157
Editorial UOC
157
<body>
<h1>Temas del curso</h1>
<ol>
<li>La traduccin asistida por ordenador</li>
<li>La traduccin automtica</li>
<li>La gestin de la terminologa</li>
</ol>
<a href=.\llista-ES.html>Versin en cataln</a></br>
<a href=http://www.google.com>Bsqueda con Google</a>
</body>
</html>
La direccin puede ser la ruta por las carpetas donde se encuentra la imagen
en el servidor o bien el URL donde se encuentra la imagen.
143-168 cap8
30/9/08
11:30
Pgina 158
Editorial UOC
158
Traduccin y tecnologas
Los atributos se van indicando en la etiqueta de apertura de la marca afectada. Por ejemplo,
bgcolor = yellow
indica que el fondo de la pgina web tiene que ser de color amarillo. Como
el color afecta al body, se tiene que escribir:
<body bgcolor=yellow>
143-168 cap8
30/9/08
11:30
Pgina 159
Editorial UOC
159
style=font-family:
arial;
color:
green;
font=arial
color=green
align=center> Saber HTML</h1>
De todas maneras, font puede ser tambin una marca con atributos. Por
ejemplo:
<font size=3 color=red>
Color rojo
</font>
<font size=1 color=blue>
Color azul
</font>
<font face=arial
color=red>
Color rojo en fuente arial
</font>
Fijmonos que color es el atributo que indica el color en que queremos que
aparezca un segmento de texto concreto. Face es el atributo que indica el tipo
de letra y size el tamao de la letra. Si queremos que una palabra o una
secuencia de palabras tenga una forma concreta diferente de las palabras que
la siguen o que la preceden, se tiene que poner una etiqueta de cierre en el
lmite donde se mostrarn los caracteres en un determinado color, medida,
etc. Sin esta etiqueta de cierre todos los caracteres tendran el mismo color,
tamao y tipos de letra que hemos establecido en la etiqueta de apertura y,
por eso, no veramos las diferencias de color y medida en el ejemplo anterior
sino una secuencia de caracteres del mismo color y el mismo tamao. Por lo
tanto, si el traductor detecta una diferencia de este tipo entre el documento
original y la traduccin, ser debido a que no haya desaparecido una etiqueta de cierre de font.
143-168 cap8
30/9/08
11:30
Pgina 160
Editorial UOC
160
Traduccin y tecnologas
Dos marcas que tambin necesitan etiquetas de cierre pero que, en cambio,
no tienen atributos son las marcas de negrita y cursiva, que son, respectivamente:
<b>texto que tiene que ir en negrita</b>
<i>texto que tiene que ir en cursiva</i>
143-168 cap8
30/9/08
11:30
Pgina 161
Editorial UOC
161
<spa>coche</spa>
<cat>cotxe</cat>
<eng>car</eng>
</entrada>
</diccionari>
<agenda-telefonos>
<contacto id=1>
<nombre>Maria Gil</nombre>
<telefono>456783909</telefono>
</contacto>
<contacto id=2>
<nombre>Ernesto Villalba</nombre>
<telefono>768436543</telefono>
<contacto>
</agenda-telefonos>
Las marcas son xml, version, standalone, libro, titulo, autor; y los datos son 1.0,
yes, Don Quijote de la Mancha, Miguel de Cervantes.
Todo lo que se encuentra entre los smbolos < y > se considera elemento (etiqueta), excepto si se encuentra dentro de una seccin CDATA. Los nombres de
los elementos tienen que cumplir la sintaxis siguiente:
143-168 cap8
30/9/08
11:30
Pgina 162
Editorial UOC
162
Traduccin y tecnologas
&
<
>
'
"
&
<
>
(comillas simples)
(comillas dobles)
4.2. Las seis reglas para crear documentos XML bien formados
Las reglas para crear documentos XML bien formados son las siguientes:
Todo elemento que contenga datos tiene que tener una etiqueta para abrirlo
y una etiqueta para cerrarlo. <autor>Miguel de Cervantes</autor>
Todo elemento que no contenga datos tiene que tener una etiqueta nica
acabada con />. <br/>.
143-168 cap8
30/9/08
11:30
Pgina 163
Editorial UOC
163
Tiene que haber un nico elemento que contenga a todos los dems (raz).
En el ejemplo del diccionario este elemento era <diccionario>.
Los elementos tienen que estar anidados, no superpuestos.
<B>Este XML <I>no est </B>bien formado.</I>
<B>Este XML <I>s que est </I>bien formado.</B>
143-168 cap8
30/9/08
11:30
Pgina 164
Editorial UOC
164
Traduccin y tecnologas
143-168 cap8
30/9/08
11:30
Pgina 165
Editorial UOC
165
143-168 cap8
30/9/08
11:30
Editorial UOC
Pgina 166
166
Traduccin y tecnologas
Conclusiones
En este captulo hemos visto que para transmitir informacin y procesarla
independientemente de la plataforma, el hardware y el software es conveniente marcarla con un formato de etiquetado estndar. Hemos explicado los dos
formatos estndar de marcaje, el HTML y el XML, y hemos comentado las simi-
143-168 cap8
30/9/08
11:30
Pgina 167
Editorial UOC
167
litudes y diferencias. Para un traductor es importante tener unos conocimientos mnimos de HTML, pero todava ms de XML.
Los sistemas de TAO se ocupan de la coherencia de formato entre el original
y la traduccin y, gracias a estos sistemas, un traductor que no conoce el HTML
puede traducir una pgina web. Sin embargo, siempre es conveniente que
tenga unas nociones de dicho lenguaje para poder solucionar l mismo cualquier problema de formato editando un fichero de texto.
Con respecto al XML, hemos presentado las nociones bsicas para entender
la importancia que est adquiriendo ste formato en diversas reas. Los traductores tendrn que hacer frente a menudo a la traduccin de documentos XML.
143-168 cap8
30/9/08
11:30
Pgina 168
169-184 cap9
30/9/08
12:10
Editorial UOC
Pgina 169
169
Captulo IX
Introduccin
Los traductores a menudo tienen que participar en proyectos de localizacin
de software y, en este captulo, queremos presentar los aspectos ms importantes que hay que tener en cuenta cuando se participa en este tipo de proyectos.
La localizacin de software tiene una vertiente tcnica que presenta numerosas
dificultades, imposibles de exponer aqu por razones de espacio. La vertiente
lingstica de los proyectos de localizacin presenta una serie de particularidades muy marcadas que diferencian claramente estos tipos de proyectos de los
proyectos ms tradicionales de traduccin de textos. En este captulo nos centraremos especialmente en dicha vertiente lingstica e intentaremos exponer
de una manera clara todos aquellos aspectos (o al menos la mayora) que es
necesario tener en cuenta cuando se participa en proyectos de localizacin.
Objetivos
Presentar los conceptos bsicos relacionados con la localizacin de software.
Exponer los aspectos lingsticos ms relevantes que hay que tener en
cuenta cuando se participa en un proyecto de localizacin de software.
Contenido
1. Algunos conceptos importantes: localizacin e internacionalizacin
1.1. Localizacin
169-184 cap9
30/9/08
Editorial UOC
12:10
Pgina 170
170
Traduccin y tecnologas
1.2. Internacionalizacin
2. Aspectos importantes de la aplicacin original
3. Tipo de archivos en proyectos de localizacin
3.1. Cdigo de programacin
3.2. Ejecutables
3.3. Ficheros de recursos (resource files)
3.4. Ficheros de ayuda (help files)
3.5. Ficheros readme
3.6. Capturas de pantalla e imgenes
3.7. Ficheros de procesadores de texto o de sistemas de DTP
3.8. Ficheros preparados especialmente
4. Aspectos importantes que hay que tener en cuenta en un proyecto de
localizacin
4.1. Expansin del texto
4.2. Accesos directos
4.3. Coherencia en la denominacin de los elementos
4.4. Por dnde empezar a traducir?
5. Algunos recursos interesantes
5.1. Glosarios de terminologa informtica
5.2. Glosarios estndar"
5.3. Tu ordenador
5.4. Revistas y sitios web de informtica
6. Herramientas especficas para la localizacin de software
169-184 cap9
30/9/08
12:10
Pgina 171
Editorial UOC
171
1.1. Localizacin
La localizacin1 segn la LISA (Localisation Industry Standards Association) es
el proceso de adaptacin de un producto a menudo, aunque no siempre, una
aplicacin o programa informtico para satisfacer los requisitos lingsticos,
idiomticos, culturales y de otro tipo aplicables a un entorno, pas, zona geogrfica o mercado especfico (lo que en ingls se denomina locale).
Los conceptos de traduccin y localizacin a menudo se confunden, porque
muchos aspectos de la traduccin son comunes a los de la localizacin. De
hecho, la localizacin comporta una serie de procesos, entre los cuales se incluye la traduccin.
1.2. Internacionalizacin
La internacionalizacin2 es el proceso de disear e implantar un producto
que sea tan neutro como sea posible desde el punto de vista cultural y tcnico
y que, por lo tanto, sea fcilmente trasladable a una o diversas culturas especficas; es decir, que sea fcilmente localizable.
1. El trmino localizacin a menudo se abrevia como L10n. Esta abreviatura viene de la denominacin en
ingls (localization). La L es la primera letra, la n la ltima y el 10 simboliza el nmero de letras entre la
primera letra y la ltima.
2. El trmino internacionalizacin a menudo se abrevia como i18n. Esta abreviatura viene de la denominacin en ingls (internationalization). La i es la primera letra, la n la ltima y el 18 simboliza el nmero de
letras entre la primera letra y la ltima.
169-184 cap9
30/9/08
Editorial UOC
12:10
Pgina 172
172
Traduccin y tecnologas
Las aplicaciones informticas pueden tener diferentes grados de internacionalizacin. Estos grados se pueden concretar en cuatro niveles:
No hay ningn tipo de internacionalizacin. La aplicacin slo funciona
en una lengua y no tiene ningn tipo de preparacin para facilitar la localizacin.
Cdigo de programacin dependiente de la localizacin (locale en ingls,
es decir, el lugar concreto donde se va a utilizar la aplicacin). Se tiene que
escribir un cdigo diferente para cada lengua o grupo de lenguas. Es posible que para lenguas occidentales (caracteres de 1 byte y escritura de
izquierda a derecha) se pueda compartir el mismo cdigo, pero se necesita un nuevo cdigo de programacin para lenguas que se escriben de derecha a izquierda (como el hebreo y el rabe) y para lenguas que necesitan
ms de 1 byte (como el chino, el japons y el coreano).
Un nico cdigo fuente, pero diversos binarios. Es posible que haya un
nico cdigo fuente, pero que sea necesario compilar diversas versiones
del ejecutable para diferentes lenguas o grupos de lenguas.
Un nico cdigo fuente, pero un nico binario. Tanto el cdigo fuente
como el binario satisfacen las exigencias de todas las lenguas.
Algunos aspectos que se deben tener en cuenta para asegurar que nuestro
cdigo de programacin ser fcil de localizar (es decir, que estar correctamente internacionalizado) son los siguientes:
Separar el cdigo fuente de los mensajes. Esto evitar la necesidad de tratar los ficheros de cdigo y la posibilidad de encontrarnos con errores de
compilacin.
Eliminar las restricciones de longitud de los elementos de las interfaces de
usuario (trataremos ms a fondo este aspecto en el apartado 4.1)
Comprobar que se visualicen correctamente los caracteres acentuados y
los diferentes alfabetos, incluso aqullos que utilizan caracteres de ms de
un byte.
Permitir la utilizacin de diferentes configuraciones de teclado.
Evitar la utilizacin de formatos fijos de fechas, horas y divisas.
169-184 cap9
30/9/08
12:10
Pgina 173
Editorial UOC
173
169-184 cap9
30/9/08
12:10
Pgina 174
Editorial UOC
174
Traduccin y tecnologas
3.2. Ejecutables
Algunas herramientas de traduccin asistida permiten extraer el texto de un
fichero ejecutable o DLL y generar posteriormente la versin traducida del ejecutable o DLL. Esta posibilidad se utiliza nicamente para traducir pequeas
aplicaciones a un nmero limitado de lenguas.
DS_MODALFRAME
WS_POPUP
WS_SYSMENU
CAPTION "Select an object"
FONT 8, "MS Sans Serif"
BEGIN
WS_VISIBLE
WS_CAPTION
169-184 cap9
30/9/08
12:10
Pgina 175
Editorial UOC
175
DEFPUSHBUTTON "OK",IDOK,108,8,50,14
PUSHBUTTON "Cancel",IDCANCEL,108,24,50,14
LISTBOX IDC_TOOLBAR_NAMES,8,8,92,88,LBS_SORT |
LBS_NOINTEGRALHEIGHT | WS_VSCROLL | WS_TABSTOP
PUSHBUTTON "&Help...",IDHELP,108,40,50,14
PUSHBUTTON "&Rename...",IDD_RENAME,108,64,50,14
PUSHBUTTON "&Delete",IDD_DELETE,108,80,50,14
END
169-184 cap9
30/9/08
Editorial UOC
12:10
Pgina 176
176
Traduccin y tecnologas
169-184 cap9
30/9/08
12:10
Pgina 177
Editorial UOC
177
Las notas +" son informacin interna del compilador que no se tiene
que traducir.
169-184 cap9
30/9/08
12:10
Pgina 178
Editorial UOC
178
Traduccin y tecnologas
Hay una gran cantidad de aspectos que hay que tener en cuenta en un proyecto de localizacin. En este apartado presentaremos los ms destacables.
169-184 cap9
30/9/08
12:10
Pgina 179
Editorial UOC
179
Los programas bien internacionalizados ya prevn esta posibilidad y no presentan restricciones importantes cuando traducimos elementos grficos del
programa (como botones, elementos del men, etc.) Algunos programas de traduccin asistida o de localizacin permiten visualizar el elemento grfico (pantalla, cuadro de dilogo, etc.) de manera que podremos verificar si la traduccin
que proponemos cabe dentro del elemento.
Por ejemplo, observemos la pantalla siguiente:
Si decidimos traducir Find what por Cadena a buscar, veremos en el contexto que la traduccin es demasiada larga (slo se visualiza Cadena a) y que tenemos que escoger alguna alternativa vlida ms corta.
169-184 cap9
30/9/08
Editorial UOC
12:10
Pgina 180
180
Traduccin y tecnologas
169-184 cap9
30/9/08
12:10
Pgina 181
Editorial UOC
181
5.3. Tu ordenador
Si el programa que ests localizando funciona sobre el mismo sistema operativo con que trabajas, siempre puedes utilizar tu ordenador para mirar como
se denominan ciertos elementos.
169-184 cap9
30/9/08
12:10
Pgina 182
Editorial UOC
182
Traduccin y tecnologas
169-184 cap9
30/9/08
12:10
Pgina 183
Editorial UOC
183
Conclusiones
En este captulo hemos hecho una introduccin bsica a la localizacin de
software. Hemos presentado los conceptos principales que necesita conocer un
traductor para poder participar en este tipo de proyectos.
169-184 cap9
30/9/08
12:10
Editorial UOC
Pgina 184
184
Traduccin y tecnologas
Bibliografa
425-432. Dohler. 1997. Facets of Software Localization. Translation Journal 1,
Volume 1. http://accurapid.com/journal/softloc.htm
Michael Suedenjoki. Introduction to internacionalization & localization.
Globalization of software applications. http://www.suodenjoki.dk/us/productions/articles/localization.htm
Lingo Systems. The guide to Translation and Localization. Podeu demanar-ne
una cpia gratuta registrant-vos a: http://www.lingosys.com
185-316 Practicas
30/9/08
13:29
Pgina 185
Prcticas
185-316 Practicas
30/9/08
13:29
Pgina 186
185-316 Practicas
30/9/08
13:29
Pgina 187
Editorial UOC
187
Prcticas
Prctica 1
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 188
Editorial UOC
188
Traduccin y tecnologas
3. Mtodo operativo
Barra de iconos
Ventana de proyecto
Barra de estado
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 189
189
Prcticas
Fijaos en la ventana de la izquierda, que hemos denominado ventana de proyecto. Podemos observar el nombre del proyecto que hemos abierto y los archivos incluidos en este proyecto. Como podemos ver, en este proyecto slo hay
un archivo. Fijmonos tambin en la informacin que se muestra en la barra
de estado: el nombre del proyecto, el nmero de archivos que incluye el proyecto, el nmero de palabras a traducir, las palabras que quedan por traducir
(como todava no hemos empezado, el nmero de palabras es el mismo) y las
palabras reales a traducir (este nmero es menor porque en este proyecto hay
segmentos que se pueden autopropagar, es decir, que son 100% iguales a otros
segmentos del mismo proyecto y, por lo tanto, se podrn aprovechar).
Ahora haced doble clic sobre el archivo de la ventana de proyecto. En principio os tendra que aparecer una pantalla como la siguiente (si os sale diferente no os preocupis, ya que todo esto es configurable y en esta misma prctica
veremos cmo podemos adaptar el entorno a trabajo a nuestras preferencias).
Original
Traduccin
Observemos que la informacin que aparece en la barra de estado ha cambiado. Cuando seleccionamos un archivo determinado del proyecto, la barra de
estado indica la siguiente informacin: nmero de caracteres del segmento
donde nos encontramos; en qu segmento nos encontramos y el total de segmentos del archivo; informacin sobre si se ha encontrado alguna coincidencia; las palabras que tiene el archivo seleccionado; cuntas palabras quedan por
traducir y cuntos segmentos quedan por traducir.
Fijmonos tambin que cuando tenemos un archivo seleccionado nos aparece en una ventana el contenido del archivo original y en la otra la traduccin.
En esta segunda ventana es donde tendremos que traducir.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 190
190
Traduccin y tecnologas
185-316 Practicas
14/10/08
14:12
Pgina 191
Editorial UOC
191
Prcticas
185-316 Practicas
30/9/08
13:29
Pgina 192
Editorial UOC
192
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 193
193
Prcticas
En las prcticas que iremos realizando explicaremos la mayora de las funcionalidades de ForeignDesk, pero pueden quedar algunos detalles por explicar.
Si queris ampliar vuestros conocimientos, o bien si queris resolver una duda
concreta, hay disponibles dos magnficas fuentes de informacin:
Los manuales del programa. Los manuales se graban en el momento de
hacer la instalacin en la misma carpeta donde lo instalis (muy probablemente C:/Archivos de Programa) y dentro de ForeignDesk/Docs. Son archivos
pdf.
La ayuda del programa. En ForeignDesk ITE encontraris una ayuda muy
completa si accedis a Help>Contents and Index.
185-316 Practicas
30/9/08
13:29
Pgina 194
185-316 Practicas
30/9/08
13:29
Pgina 195
Editorial UOC
195
Prcticas
Prctica 2
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 196
Editorial UOC
196
Traduccin y tecnologas
3. Mtodo operativo
Este es el asistente para crear nuevos proyectos. En esta pantalla hay una
descripcin del asistente. Para continuar tendremos que pulsar el botn Next,
y aparecer la siguiente pantalla:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 197
197
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 198
198
Traduccin y tecnologas
185-316 Practicas
30/9/08
13:29
Pgina 199
Editorial UOC
199
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 200
200
Traduccin y tecnologas
En esta prctica hemos aprendido a crear un proyecto de traduccin utilizando el FDPA (Foreign Desk Project Assistant). Existe tambin la posibilidad
de crear los proyectos manualmente (para usuarios experimentados puede
resultar un poco ms rpido). Recordad que los proyectos de ForeignDesk son
en realidad una estructura de directorios y que la creacin de un proyecto consiste en crear esta estructura y situar los archivos correspondientes en los directorios adecuados. Los proyectos se pueden crear manualmente de dos maneras:
Copiando un proyecto determinado (toda la carpeta y subcarpetas) que
tenga una lengua de partida, una lengua de llegada y un formato de ficheros de entrada que coincidan con los del proyecto que queremos crear.
Una vez hecho esto, slo hay que sustituir los archivos que se encuentran
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 201
201
Prcticas
Una vez hecho esto, la estructura de carpetas que corresponde al proyecto ya se habr creado. Ahora, manualmente, tendremos que ubicar los
archivos que queremos traducir dentro de la carpeta _NewUS. Tambin
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 202
202
Traduccin y tecnologas
185-316 Practicas
30/9/08
13:29
Pgina 203
Editorial UOC
203
Prcticas
Prctica 3
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 204
Editorial UOC
204
Traduccin y tecnologas
3. Mtodo operativo
Dividiremos esta prctica en dos partes. En la primera aprenderemos a asignar una memoria de traduccin ya creada a un proyecto. En la segunda parte
aprenderemos a crear una memoria de traduccin nueva.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 205
205
Prcticas
185-316 Practicas
30/9/08
13:29
Editorial UOC
Pgina 206
206
Traduccin y tecnologas
4.1. Inconvenientes
Las memorias de traduccin son bilinges y no multilinges, es decir, nicamente contienen la lengua de partida y la lengua de llegada. Muchas
herramientas actuales permiten memorias multilinges. ste no es un problema demasiado importante, ya que los proyectos de traduccin de
ForeignDesk tampoco son multilinges.
En las memorias de traduccin de ForeignDesk slo se guarda informacin
sobre texto original y texto traducido, y ningn otro tipo de informacin
(por ejemplo, usuario o fecha de creacin).
4.2. Ventajas
Una ventaja muy importante es que los proyectos de traduccin de
ForeignDesk admiten un nmero ilimitado de memorias de traduccin simul-
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 207
207
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 208
208
Traduccin y tecnologas
ro ilimitado de memorias para cada proyecto. Ahora bien, en algunas circunstancias es interesante poder juntar diversas memorias de traduccin en una sola.
Imaginaos que trabajis mucho para un determinado cliente y que cada vez que
creis un nuevo proyecto tenis que asignarle 30 o 40 memorias de traduccin
(las correspondientes a proyectos anteriores del mismo cliente). Quizs os interese juntar todas las memorias de un determinado periodo (por ejemplo, un
ao) en una nica memoria de traduccin. ForeignDesk no tiene ninguna funcionalidad para juntar memorias de traduccin, pero s tiene una que junta
diversos proyectos de traduccin en uno. Por lo tanto, lo que deberemos hacer
es juntar todos los proyectos de traduccin finalizados del mismo cliente y
periodo en un nico proyecto de traduccin y despus crear una memoria de
traduccin a partir de este proyecto nuevo. El resultado ser exactamente el
mismo que si hubiramos unificado varias memorias de traduccin.
Para juntar varios proyectos de traduccin en uno hay que hacer lo siguiente:
Abrir el FDPA, seleccionar la pestaa Merge y hacer clic en el botn Next.
Nos aparecer una pantalla en que podremos indicar el nombre y la ubicacin del nuevo proyecto de traduccin (recordad que podis navegar
haciendo clic en el botn Browse). Despus haced clic en Next.
Os aparecer una pantalla como sta:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 209
209
Prcticas
185-316 Practicas
30/9/08
13:29
Pgina 210
185-316 Practicas
30/9/08
13:29
Editorial UOC
Pgina 211
211
Prcticas
Prctica 4
1. Introduccin
En esta prctica presentamos otro de los grandes componentes de los sistemas de traduccin asistida: las bases de datos terminolgicas (BDT). El paquete ForeignDesk dispone de un gestor de bases de datos terminolgicas muy
potente y verstil llamado TermBase. En esta prctica crearemos una BDT con
este gestor. En otra prctica veremos cmo podemos asociar una BDT con un
proyecto de traduccin de forma que ForeignDesk busque automticamente la
informacin sobre los trminos que aparecen en el segmento que estamos traduciendo.
Adems, en esta prctica aprenderemos a crear una BDT en el formato estndar TBX. Lo haremos con la herramienta TBXMaker, que convierte una BDT en
un formato de texto especial, denominado texto delimitado, al formato TBX.
Gracias a este formato, la BDT podr ser intercambiada libremente con otros
colegas que la quieran compartir.
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 212
Editorial UOC
212
Traduccin y tecnologas
Conocer el formato de texto de una base de datos terminolgica estructurada como tabla (texto delimitado) y saber convertirla al formato estndar TBX.
3. Mtodo operativo
Bsqueda de trminos
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 213
213
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 214
214
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 215
215
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 216
216
Traduccin y tecnologas
Descargad el archivo P4-3.zip de la pgina web de este manual y descomprimidlo en una unidad y carpeta que os convenga. En P4-3 hay un archivo que se llama importar.txt. Este archivo de texto delimitado por tabuladores contiene la siguiente informacin: trmino en ingls, trmino en
castellano, trmino en francs, rea temtica y definicin.
En TermBase cread una base de datos terminolgica nueva (si queris,
podis denominarla fisica).
Id a File>Import>Tab Delimited Text y aparecer la siguiente pantalla:
185-316 Practicas
30/9/08
13:29
Pgina 217
Editorial UOC
217
Prcticas
185-316 Practicas
30/9/08
13:29
Pgina 218
Editorial UOC
218
Traduccin y tecnologas
Una vez hechas todas las selecciones tenemos que hacer clic en el botn
Siguiente.
Aparecer la siguiente pantalla:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 219
219
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 220
220
Traduccin y tecnologas
bar todas las herramientas asociadas y que pasado este periodo slo funcionarn las herramientas gratuitas, entre ellas TBXMaker.
3.5.2. Requisitos de TBXMaker
TBXMaker precisa de Java 1.4 o superior. En la pgina web de este manual
encontraris todos los detalles de cmo conseguir e instalar Java.
3.5.3. Instalacin de TBXMaker
Haced doble clic en el fichero ejecutable que habis descargado. Cuando os
aparezca la siguiente pantalla, pulsad Next.
185-316 Practicas
30/9/08
13:29
Pgina 221
Editorial UOC
221
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 222
222
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 223
223
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 224
224
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 225
225
Prcticas
Para cada columna, en Column Type se tiene que especificar si hace referencia a un concepto (concept) o a un trmino (term). Por otro lado, se tiene que
especificar para cada columna el atributo que le corresponde segn su tipo
(Type). Si la columna hace referencia a un concepto, el tipo puede ser note
(comentario) o descrip (descripcin del concepto); si la columna hace referencia a un trmino, el tipo puede ser term (denominacin del trmino), descrip
(descripcin del trmino) y termNote (anotaciones sobre el trmino, como por
ejemplo contextos de aparicin). Si nos fijamos en la figura anterior, la columna 1 es una columna en la que se encuentran comentarios sobre el concepto
denotado por el trmino, la columna 2 es aquella en la que se especifica la
denominacin del trmino en ingls, la columna 3 es la que contiene la definicin del trmino en ingls, que es un atributo de tipo descrip, la columna 4
es la columna en la cual se encuentran los contextos en ingls que ejemplifican los usos del trmino en esta lengua (podis observar que contexts es un atributo del tipo termNote). El resto de columnas expresan la misma informacin
pero referida a la denominacin en castellano.
Indicamos aqu la organizacin de atributos segn su tipo.
Concept
descrip
relatedConcept
sequentallyrelatedConcept
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 226
226
Traduccin y tecnologas
note
Term
term
termNote
abbreviatedFormFor
termType
administrativeStatus
pronunciation
usageNote
descrip
relatedConcept
sequentallyrelatedConcept
A continuacin presentamos la seleccin del glosario que hemos importado, una vez eliminadas las columnas que no nos interesa exportar:
Conviene fijarse en que hemos considerado la columna 3, dedicada a explicitar el dominio temtico de los trminos, como un atributo termType.
Comentaremos esto ms a fondo en el apartado Exportacin a TBX con ms atributos.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 227
227
Prcticas
Exportacin a TBX
Ahora ya podemos exportar esta base de datos a TBX. Para hacerlo, slo hay
que ir a File > Export as TBX o hacer clic en el botn
y aparecer la siguiente pantalla de exportacin:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 228
228
Traduccin y tecnologas
En la pantalla siguiente se establece que la columna 2 indica la categora gramatical (PartOfSpeech) de la denominacin del trmino en ingls, que la columna 4 explicita en ingls la categora gramatical de la denominacin en espaol y
que la columna 5 est preparada para explicitar en espaol el dominio temtico.
185-316 Practicas
30/9/08
13:29
Pgina 229
Editorial UOC
229
Prcticas
Prctica 5
1. Descripcin de la prctica
2. Objetivos
3. Mtodo operativo
Descargad el archivo P5.zip de la pgina web de este manual. Una vez descomprimido encontraris dos subcarpetas:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 230
230
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 231
231
Prcticas
Si hacis doble clic sobre la traduccin del trmino, sta se insertar automticamente en el segmento traducido.
Hay que decir que la bsqueda automtica presenta algunos problemas.
Como podis comprobar, algunos trminos no aparecen. Esta funcionalidad
requiere sin duda de algunas mejoras en su programacin.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 232
232
Traduccin y tecnologas
185-316 Practicas
30/9/08
13:29
Pgina 233
Editorial UOC
233
Prcticas
Prctica 6
1. Descripcin de la prctica
En esta prctica utilizaremos un programa de extraccin automtica de terminologa. La extraccin automtica de terminologa consiste en encontrar un
conjunto de candidatos a trmino a partir de un texto o conjunto de textos.
Esta prctica se complementa con la P7, en la que aprenderemos a utilizar la
utilidad de bsqueda automtica de equivalentes de traduccin en un corpus
paralelo.
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 234
Editorial UOC
234
Traduccin y tecnologas
3. Mtodo operativo
Una de las grandes dificultades para las tcnicas de extraccin de terminologa es la deteccin de trminos monopalabra, es decir, aquellos trminos for-
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 235
235
Prcticas
mados por una nica palabra. Para las tcnicas estadsticas, la dificultad radica
en el hecho de que las combinaciones de una palabra son todas las palabras del
texto, y si filtramos por palabras vacas lo que obtenemos es una lista de todas
las palabras del corpus excepto las palabras vacas.
La extraccin de terminologa de tipo lingstico topa con la misma dificultad para detectar trminos monopalabra. El patrn tpico sera N (sustantivos)
de manera que acabaramos extrayendo todos los sustantivos del texto, y no
nicamente los que presentan algn inters desde el punto de vista terminolgico.
La extraccin automtica de trminos monopalabra no est resuelta satisfactoriamente desde el punto de vista tcnico, pero hay algunas tcnicas que se
pueden aplicar:
Filtrar a los candidatos obtenidos por una lista de "todas" las palabras
generales de la lengua con todas sus formas (formario). De esta manera
obtendramos todas las palabras poco comunes, incluidas las posibles faltas de ortografa y nombres propios y palabras extranjeras. Esta tcnica no
es satisfactoria porque muchas palabras generales son tambin trminos
de especialidad.
Algunas especialidades tienen un elevado nmero de cultismos (pensemos
en medicina, por ejemplo). Los cultismos se caracterizan por acabar en
unos sufijos muy tpicos (por ejemplo -itis, en medicina). Detectando las
palabras que acaban en estos sufijos podemos realizar una deteccin de
este tipo de trminos. Esta tcnica tiene el inconveniente que no es bastante general.
Una buena manera de detectar los trminos monopalabra es fijndonos si
los trminos multipalabra detectados contienen a la vez un trmino
monopalabra interesante.
185-316 Practicas
30/9/08
13:29
Pgina 236
185-316 Practicas
30/9/08
13:29
Pgina 237
Editorial UOC
237
Prcticas
Prctica 7
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 238
Editorial UOC
238
Traduccin y tecnologas
3. Mtodo operativo
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 239
239
Prcticas
Seleccionad unos 50 candidatos y los equivalentes de traduccin correspondientes. Una vez seleccionados, podis utilizar la opcin de exportacin para
obtener una lista de trminos y equivalentes de traduccin en algn formato
adecuado para poder importar estos trminos a otra aplicacin. Una vez hecho
esto, y para repasar los contenidos de la prctica P4, importad estos datos a una
base de datos terminolgica de TermBase de ForeignDesk.
En esta prctica hemos extrado los candidatos a trmino a partir de un corpus monolinge y hemos calculado los equivalentes de traduccin a partir de
un corpus paralelo. Con la herramienta de extraccin automtica de terminologa podemos extraer los candidatos a trmino tambin a partir de un corpus
paralelo.
185-316 Practicas
30/9/08
13:29
Pgina 240
185-316 Practicas
30/9/08
13:29
Pgina 241
Editorial UOC
241
Prcticas
Prctica 8
1. Descripcin de la prctica
185-316 Practicas
30/9/08
13:29
Pgina 242
Editorial UOC
242
Traduccin y tecnologas
alimentndolos con memorias de traduccin provenientes de las correcciones de los textos traducidos automticamente con anterioridad.
En esta prctica veremos el primero de los casos. Como que no todos los sistemas de traduccin asistida disponen de una conexin con sistemas de traduccin automtica, en esta prctica aprenderemos cmo simular esta conexin.
2. Objetivos
3. Mtodo operativo
185-316 Practicas
30/9/08
13:29
Pgina 243
Editorial UOC
243
Prcticas
185-316 Practicas
30/9/08
13:29
Editorial UOC
Pgina 244
244
Traduccin y tecnologas
4. Otras cuestiones
185-316 Practicas
30/9/08
13:29
Pgina 245
Editorial UOC
245
Prcticas
Prctica 9
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 246
Editorial UOC
246
Traduccin y tecnologas
3. Mtodo operativo
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 247
247
Prcticas
Descargad el archivo P9-1.zip de la pgina web de este manual. Este zip contiene el archivo a traducir. En este caso se trata de un documento de Word (P9-1.doc).
Una vez instalado WordFast, abrid el documento con Word.
Haced clic en el icono de WordFast
y se desplegar la barra de herramientas completa.
Para saber qu hace cada uno de los botones, os podis situar con el ratn
sobre el botn y pasados unos instantes aparecer la descripcin.
Antes de empezar a traducir el documento es necesario que leis detenidamente las instrucciones de uso del manual. Sin embargo, a continuacin
daremos unas cuantas indicaciones.
Para empezar a traducir es necesario situarse sobre la primera lnea y
hacer clic en el icono
. Dado que no tenemos ninguna memoria
de traduccin asignada, nos aparecer la pantalla siguiente:
Conviene hacer clic en Aceptar para asignar una memoria de traduccin. Las pantallas que aparecern os ofrecern instrucciones para
crear la nueva memoria de traduccin. Cread una memoria nueva, ya
que de esta manera podremos aprovechar los segmentos traducidos
en la siguiente parte de la prctica. Os aparecer la pantalla siguiente
que os informar de que tenis activada la memoria de traduccin
que habis creado y podris ver su descripcin.
185-316 Practicas
30/9/08
13:29
Pgina 248
Editorial UOC
248
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 249
249
Prcticas
Esta pantalla nos permite seleccionar y crear glosarios, entre otras funcionalidades. Haced clic en el botn Select Glossary y seleccionad la base de
datos terminolgica de la carpeta P9-2.
Una vez seleccionada, aparecer una pantalla como la siguiente:
185-316 Practicas
30/9/08
13:29
Pgina 250
Editorial UOC
250
Traduccin y tecnologas
Aseguraos de marcar las casillas This glossary is active y Use fuzzy terminology recognition.
Una vez hecho esto podis empezar a traducir el documento. Fijaos que
ahora se aprovecharn muchos segmentos que provienen de la traduccin
anterior. Adems, el programa buscar automticamente la terminologa
que hay en la base de datos terminolgica utilizada. Si encuentra la entrada de algn trmino lo resaltar.
Si nos situamos con el ratn sobre el trmino resaltado nos aparecer la
traduccin sobre la barra de herramientas.
Si queris introducir nuevos trminos al glosario mientras traducs, tenis
que hacer Ctrl+Alt+T.
Para aadir un nuevo trmino tenis que pulsar el botn Add entry. Como
podis tener hasta tres glosarios activos, seleccionad el glosario (#1, #2,
#3). En la pantalla de ejemplo hemos escrito Digital Analog Converter. De
todas maneras, si queris recuperar la traduccin cuando al segmento original salga tanto Digital Analogic Converter como Digital Analogic
Converters se tendra que escribir:
Digital Analogic Converter*
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 251
251
Prcticas
185-316 Practicas
30/9/08
13:29
Pgina 252
185-316 Practicas
30/9/08
13:29
Pgina 253
Editorial UOC
253
Prcticas
Prctica 10
1. Descripcin de la prctica
El paquete +Tools es un paquete freeware que integra una serie de herramientas que permiten al traductor realizar automticamente una serie de acciones
de manera masiva sobre los ficheros que tiene que traducir y sobre los ya traducidos. Con estas acciones el traductor obtiene recursos (corpus alineados,
glosarios) y optimiza su trabajo porque puede realizar bsquedas y sustituciones masivas, ejecutar macros, marcar los segmentos traducibles de un documento XML o realizar conversiones de formatos en uno o ms archivos.
Adems, +Tools ayuda al gestor de un proyecto a realizar su seguimiento.
+Tools trabaja sobre Ms-Word 97 y versiones superiores (Ms-Word 2000, MsWord 2002, Ms-Word 2003). Puede trabajar tambin en un Mac. Aunque est
relacionado con Wordfast, la mayora de las operaciones no necesitan dicha
herramienta excepto para alinear (P11) y extraer trminos para hacer glosarios.
2. Objetivos
Saber utilizar +Tools para corregir una traduccin sobre diversos documentos.
Saber utilizar +Tools para convertir un conjunto de documentos en formato PDF a un formato tratable por una herramienta de TAO.
Saber utilizar +Tools para crear un glosario monolinge.
185-316 Practicas
30/9/08
13:29
Pgina 254
Editorial UOC
254
Traduccin y tecnologas
3. Mtodo operativo
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 255
255
Prcticas
Aparece una ventana en la que hay que decir que reemplace automatic translation por machine translation en todos los ficheros (Replace all).
Se puede hacer una pausa y editar el documento (Edit). Una vez acabada la
edicin se reinicia la bsqueda en el lugar que se haba dejado haciendo Alt+F2
o haciendo clic en el icono de +Tools. Si queremos parar la bsqueda del documento actual y continuar en el documento siguiente se tiene que hacer clic
sobre Next doc.
3.4. Convertir un documento en formato PDF a un formato tratable en una herramienta de TAO
El formato PDF es un formato difcil de tratar con herramientas de traduccin asistida. Explicamos cmo convertir un documento de PDF a doc, que es
un formato de documento tratable por una herramienta TAO. De todas maneras, no garantizamos al 100% la calidad de la conversin.
En primer lugar, abrimos el documento PDF que queremos convertir, que se
encuentra en el fichero que habis descargado en el apartado anterior.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 256
256
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 257
257
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 258
258
Traduccin y tecnologas
Si hacis clic en el botn Default settings veris que determinados parmetros adquieren automticamente unos valores.
185-316 Practicas
30/9/08
13:29
Pgina 259
Editorial UOC
259
Prcticas
Prctica 11
1. Descripcin de la prctica
185-316 Practicas
30/9/08
13:29
Pgina 260
Editorial UOC
260
Traduccin y tecnologas
2. Objetivos
3. Mtodo operativo
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 261
261
Prcticas
En esta pantalla se tiene que hacer clic en el botn Save setup as... y en la
pantalla que aparece indicar el nombre que queremos dar al archivo de configuracin. Es recomendable utilizar simplemente el nombre de la lengua.
y hacer clic en el botn New TM; aparecer una pantalla en que se nos pedir el cdigo de la lengua de partida (que debe ser la de la lengua correspondiente al archivo de configuracin).
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 262
262
Traduccin y tecnologas
Una vez aceptada, nos pedir el cdigo de la lengua de llegada (que puede
ser cualquiera, ya que para el archivo de configuracin slo tendr en cuenta
el cdigo de la lengua de origen).
Una vez hecho esto nos pedir que guardemos la memoria. Escoged un nombre y una ubicacin que os convenga. Se puede realizar el proceso de alineacin
sin realizar estos pasos, pero es aconsejable hacerlos, ya que una vez creada la
memoria de traduccin, esta contendr los cdigos de lengua correctos.
b. Pasos genricos del proceso de alineacin
El proceso de alineacin de documentos con PlusTools se puede dividir en
tres pasos genricos:
Extraccin de los segmentos de los dos conjuntos de documentos (originales y traducciones).
Alineacin manual de los segmentos.
Generacin de la memoria de traduccin.
c. Extraccin de los segmentos de los dos conjuntos de documentos
Descargad el archivo 3-11.zip de la pgina web del manual. Este zip contiene dos subcarpetas. En cada una hay un documento: son los dos documentos que alinearemos. Descomprimid estas carpetas en una ubicacin adecuada. En esta prctica alinearemos dos documentos, pero es posible alinear de
golpe un conjunto de documentos que se encuentren en los directorios respectivos.
Abrid PlusTools e id a la pestaa +Align. Si tenis ms de un documento
abierto os aparecer una pantalla como esta:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 263
263
Prcticas
Aqu se nos indica que para hacer la alineacin hay que abrir los dos documentos (y slo estos dos) en MS Word. Tambin indica que, en el caso que haya
muchos documentos originales y traducidos para alinear, habra que extraer los
segmentos de los documentos originales y volcarlos en un fichero de texto y
que lo mismo con los documentos traducidos. La extraccin se hace con
+Extract. Entonces se tiene que activar +Align con los dos ficheros de texto
abiertos con MS Word. Como ahora queremos alinear tan slo dos documentos, no ejecutaremos +Extract. Aparece una pantalla como esta:
Haciendo clic en el botn Start alignment comienza la extraccin. Los resultados se pueden ver en forma de tabla (opcin recomendada).
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 264
264
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 265
265
Prcticas
Aqu se nos indica que si queremos salir de la sesin de alineacin y continuar en otro momento tenemos que guardar el documento, cerrarlo y despus
abrirlo. Una vez abierto, iniciar PlusTools y hacer Star Alignment en la pestaa
+Align.
Fijmonos en los botones "Ins", "Del", "Merge", "Split" y "Abbr". Con estos
botones podemos ejecutar las funciones bsicas que nos permitirn ir alineando los documentos:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 266
266
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 267
267
Prcticas
185-316 Practicas
30/9/08
13:29
Pgina 268
185-316 Practicas
30/9/08
13:29
Pgina 269
Editorial UOC
269
Prcticas
Prctica 12
1. Descripcin de la prctica
2. Objetivos
Comprender el funcionamiento de las herramientas de alineacin automtica de documentos.
185-316 Practicas
30/9/08
13:29
Pgina 270
Editorial UOC
270
Traduccin y tecnologas
3. Mtodo operativo
185-316 Practicas
30/9/08
13:29
Pgina 271
Editorial UOC
271
Prcticas
4. Otras cuestiones:
Hay otros sistemas de alineacin automtica. A continuacin podis encontrar una lista de artculos accesibles desde Internet que explican otras aproximaciones. Os aconsejamos la lectura de alguno de estos artculos.
William A. Gale i Kenneth Ward Church. A Program for Aligning Sentences in
Bilingual Corpora. Meeting of the Association for Computational Linguistics.
177-184. 1991 (http://citeseer.nj.nec.com/gale91program.html).
Peter F. Brown, Jennifer C. Lai i Robert L. Mercer. Aligning Sentences in
Parallel Corpora. Meeting of the Association for Computational Linguistics.
169-176. 1991 (http://citeseer.nj.nec.com/brown91aligning.html).
M. Simard, G. Foster i P. Isabelle. Using Cognates to Align Sentences in Bilingual
Corpora. Proceedings of the Fourth International Conference on Theoretical
and Methodogical Issues in Machine Translation (TMI92), (Montreal), 67-81.
1992 (http://citeseer.nj.nec.com/simard92using.html).
D. IDO, K. CHURCH i W. GALE. Robust bilingual word alignment for machine
aided translation. Proceedings of the Workshop on Very Large Corpora, 1-8,
Columbus, OH. 1993 (http://citeseer.nj.nec.com/ido93robust.html).
Stanley F. Chen. Aligning Sentences in Bilingual Corpora using Lexical
Information. Meeting of the Association for Computational Linguistics. 9-16.
1993 (http://citeseer.nj.nec.com/stanley93aligning.html).
I. Dan Melamed. A Geometric Approach to Mapping Bitext Correspondence.
Proceedings of the Conference on Empirical Methods in Natural Language
Processing. Association for Computational Linguistics. Somerset, New Jersey.
Editors: Eric Brill i Kenneth Church. 1-12. 1996 (http://citeseer.nj.nec.com/
melamed96geometric.html).
Kenneth Ward Church. Char_align: A Program for Aligning Parallel Texts at
the Character Level. Meeting of the Association for Computational Linguistics.
1-8. 1993 (http://citeseer.nj.nec.com/church93charalign.html).
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 272
272
Traduccin y tecnologas
Bibliografa
Moore, Robert C. 2002. 2002. Fast and Accurate Sentence Alignment of
Bilingual Corpora. A: Machine Translation: From Research to Real Users
(Proceedings, 5th Conference of the Association for Machine Translation in
the Americas, Tiburon, Califrnia), Springer-Verlag, Heidelberg, Alemanya, p.
135-244.
185-316 Practicas
30/9/08
13:29
Pgina 273
Editorial UOC
273
Prcticas
Prctica 13a
1. Descripcin de la prctica
En esta prctica introduciremos OmegaT, una herramienta gratuita, de cdigo abierto, que tiene como particularidad que est programada en Java y, por
lo tanto, es multiplataforma. Esto quiere decir que puede funcionar sobre diferentes sistemas operativos (Windows, Linux, Unix, Mac, etc.). Para poder ejecutar esta herramienta es necesario tener instalado el Java Runtime
Environment. Si no lo tenis instalado, o bien no sabis si lo tenis instalado o
no, leed detenidamente el manual de obtencin e instalacin de Java Runtime
Environment, que encontraris a la pgina web de este manual.
OmegaT puede traducir ficheros de texto, documentos de Open Office
Writer y ficheros HTML. En esta prctica traduciremos ficheros HTML. Si trabajis habitualmente con Open Office sera interesante que intentrais traducir
documentos en ste formato. Quien no conozca Open Office es recomendable
que lea la parte 4 de esta prctica.
Si trabajis con Linux (Unix o Mac), podis intentar realizar esta prctica a
travs de este sistema operativo.
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 274
Editorial UOC
274
Traduccin y tecnologas
3. Mtodo operativo
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 275
275
Prcticas
glossary
source
omegat
target
tm
Una vez hechas todas las selecciones tenemos que hacer clic en el botn
Aceptar. En este momento ya tenemos el proyecto creado. Como el proyecto
que acabamos de crear no contiene ningn archivo para traducir, nos aparecer la pantalla siguiente:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 276
276
Traduccin y tecnologas
185-316 Practicas
30/9/08
13:29
Pgina 277
Editorial UOC
277
Prcticas
Una vez abierto el proyecto, aparece una pantalla que nos muestra todos los
archivos originales del proyecto y el nmero de segmentos de cada uno. Para
importar un fichero tenis que hacer clic en el enlace que lleva su nombre.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 278
278
Traduccin y tecnologas
Ctrl+Return). No olvidis hacer Fichero > Guardar de vez en cuando para ir grabando el trabajo.
<segment 0002> Red Hat Linux 7.3: The Official Red Hat Linux Reference
Guide <final segment>
Una vez acabada la traduccin, se puede exportar haciendo Fichero /
Compilar. El fichero traducido se generar en la carpeta target del proyecto.
Si decids probar cmo funciona OmegaT con memorias de traduccin y
bases de datos terminolgicas, en la misma pgina web de donde habis descargado el programa podris encontrar las instrucciones de cmo hacerlo.
185-316 Practicas
30/9/08
13:29
Pgina 279
Editorial UOC
279
Prcticas
Prctica 13.b
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 280
Editorial UOC
280
Traduccin y tecnologas
3. Mtodo operativo
3.2. Instalacin
Si trabajis con Windows descomprimid el fichero en una carpeta. Una vez
descomprimido, haced doble clic en el fichero de instalacin install.bat y
seguid las instrucciones de instalacin. Para la instalacin en Unix tenis que
descomprimir el fichero .tar.gz en una carpeta con las funciones gunzip y tar xvf. A continuacin ejecutad el fichero install.sh desde la consola. La ruta por
defecto de ejecucin del programa es $HOME/Open_Language_Tools/XLIFF_
Filters_<versin>.
Dado que este programa funciona en el entorno Java, es necesario haber instalado previamente Java Runtime Environment (JRE). En el caso que la instalacin falle, siempre se puede ejecutar desde Java (recordar que un programa
escrito en este lenguaje se puede ejecutar desde cualquier plataforma). Tan solo
hay que escribir lo siguiente:
java -jar transeditor_<version>.jar
3.3. Ejecucin
Si trabajis en Windows, ejecutad el programa haciendo doble clic en el
fichero translation en la carpeta en la que habis descomprimido el fichero .zip.
Si trabajis en Unix, ejecutad translation.sh en el directorio donde se ha instalado el programa.
Cada vez que se ejecuta el editor, se tiene que entrar una identificacin del
traductor (translator ID). Esta identificacin no puede superar los cinco caracte-
185-316 Practicas
30/9/08
13:29
Pgina 281
Editorial UOC
281
Prcticas
res de longitud. La identificacin aparecer en una nueva sesin. Para cambiarla es necesario reiniciar el editor.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 282
282
Traduccin y tecnologas
Ahora el editor tiene que abrir un fichero con la extensin .xlz. Haced File>Open y abrid el fichero 3.13b.xlz. Este fichero es el resultado de haber convertido un documento original en HTML al formato XLIFF (ver la prctica 15).
Cuando se crea un nuevo proyecto se crea tambin una mini-TM vaca. Una
mini-TM es una base de datos que almacena todas las traducciones que el traductor va haciendo con el editor. Es til para detectar repeticiones internas y
coincidencias fuzzy. Es conveniente que a medida que vayis traduciendo
vayis guardando la mini-TM con regularidad (File->Save Mini-TM). Podis
encontrar la mini-TM en c:\Documents and Settings\<nombre del usuario>\.xliffeditor\mini-tm si trabajis con Windows, y en $HOME/.xliffeditor/mini-tm si trabajis con Unix.
El editor guarda automticamente la mini-TM cuando el traductor cambia de
proyecto, crea uno nuevo o cierra el editor. En el caso de que el traductor cierre un fichero .xlz se le pregunta si quiere guardar la mini-TM. Si hace clic en
No, los datos se mantendrn retenidos en memoria pero no se escribirn en el
fichero de la mini-TM.
La mini-TM tiene la duracin del proyecto. Una vez finalizado, la traduccin
se guarda en una base de datos que contiene todas las traducciones que el traductor ha realizado y que puede ser reutilizada para otros proyectos. Esta base
de datos es la Sun Translation Database. Por lo tanto, una vez finalizado el proyecto y actualizada la Sun Translation Database con las nuevas traducciones, la
mini-TM del proyecto puede eliminarse.
185-316 Practicas
30/9/08
13:29
Pgina 283
Editorial UOC
283
Prcticas
Como veis, los segmentos del documento original estn en paralelo a segmentos idnticos en dos ventanas diferentes. La ventana de la izquierda se
denomina ventana de la lengua de partida y la de la derecha se denomina ventana de la lengua de llegada. Los segmentos de la ventana de la lengua de partida
no se pueden editar, mientras que los segmentos de la ventana de la lengua de
llegada s ya que es ah donde se debe escribir la traduccin del segmento original.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 284
284
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 285
285
Prcticas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 286
286
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 287
287
Prcticas
Los iconos que aparecen tambin son informativos. Aparte de las banderas
indicativas de las lenguas de partida y de llegada, tenemos iconos que indican
que el segmento de partida coincidente tiene un nico segmento de llegada
(1:1) o bien que dos o ms segmentos de partida ya se haban traducido utilizando uno (o ms) segmentos en la lengua de llegada (M:N o many to many).
Por ejemplo:
Segmento
Segmento
Segmento
Segmento
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 288
288
Traduccin y tecnologas
Antes de exportar la traduccin, conviene comprobar que no haya desaparecido ningn cdigo de formato y as poder garantizar la coherencia de formato de la traduccin con respecto al documento original. Como ya hemos dicho,
por defecto todas las etiquetas de formato estn protegidas. La verificacin se
lleva a cabo haciendo clic en el icono de verificacin de marcas
. La verificacin consiste en comprobar, segmento por segmento, que los cdigos de formato del segmento original estn en el segmento final y, por defecto, comprobar si aparecen en el mismo orden. Ahora bien, esta opcin se puede desactivar en Options->Ignore Tag Order.
A pesar de que se asume que los cdigos de formato del original son correctos, es posible que hayis considerado necesario aadir o eliminar cdigos de
formato que estaban en el original. En este caso, aparece una ventana de dilogo informativa y el editor da la opcin Correct Manually y posiciona el cursor
en la parte del segmento donde las etiquetas no coinciden.
Tambin conviene, antes de exportar la traduccin, que el traductor verifique la ortografa del resultado. El editor contiene correctores ortogrficos para
las lenguas que se han seleccionado en el momento de la instalacin (consultad el manual).
Pasamos ahora a realizar la exportacin de la traduccin. Es posible exportar un fichero .xlz o todos los ficheros .xlz de un directorio. En nuestro caso,
queremos exportar un solo fichero. Id a Tools->Convert to Original y os aparecer una ventana como sta:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 289
289
Prcticas
En Source File/Dir se nos muestra la ruta del fichero .xlz que est abierto en
el editor. En Encoding seleccionad la codificacin del fichero exportado. Por
defecto, la opcin es UTF-8. Haciendo clic en Browse seleccionad el directorio
donde ir el fichero exportado. Si no especificis ningn directorio, los ficheros exportados se colocarn en la carpeta que contiene los ficheros .xlz. La
opcin Create TMX Files permite crear, para cada fichero .xlz, un fichero en formato TMX que contiene los segmentos originales aparejados con sus correspondientes segmentos traducidos. Finalmente, si las opciones Overwrite existing
files y Use file name stored in .xlz file estn activadas, los ltimos ficheros exportados tienen el mismo nombre que los ficheros originales, por lo que los ficheros con las traducciones sobrescribirn los originales.
Hay que tener en cuenta que si un segmento original no tiene traduccin,
en la exportacin se inserta este segmento en el lugar que ocupa en el documento original. Por lo tanto, es muy importante comprobar antes de hacer la
exportacin que todos los segmentos tienen la marca de traducidos.
185-316 Practicas
30/9/08
13:29
Pgina 290
185-316 Practicas
30/9/08
13:29
Pgina 291
Editorial UOC
291
Prcticas
Prctica 13c
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 292
Editorial UOC
292
Traduccin y tecnologas
3. Mtodo operativo
3.2. Instalacin
Si trabajis en Windows haced doble clic sobre el fichero de instalacin y
seguid las instrucciones. Si trabajis en Unix tenis que descomprimir el
fichero .zip. La instalacin en Linux/Unix no es tan directa como en
Windows. Por ejemplo, de un paquete denominado Pygtk, que podis descargar de la pgina http://ftp.gnome.org/pub/GNOME/sources/pygtk/. Por
lo tanto, os recomendamos que leis los ficheros Readme tanto de
Transolution como de Pygtk y sigis sus indicaciones.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 293
293
Prcticas
Para importar el documento que se tiene que traducir, hay que hacer File /
Open y seleccionar el documento o documentos en el formato XLIFF (extensiones .xlf, .xlz, xliff). Abrid el fichero 3.13c.xlz.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 294
294
Traduccin y tecnologas
185-316 Practicas
13/10/08
Editorial UOC
14:28
Pgina 295
295
Prcticas
est en funcionamiento cuando no se ha abierto ninguna unidad de traduccin. En el momento de abrir una unidad de traduccin para ser traducida se
pone en modo de edicin. En este modo se bloquea la VD y la navegacin.
Cuando se cierra la unidad de traduccin porque ya est traducida, se vuelve al
modo de navegacin.
Como se puede ver, en la VD aparecen las marcas XLIFF del documento. Las
unidades de traduccin se marcan en color rosa. Con los botones
y
podis
navegar por las diferentes unidades de traduccin.
Finalmente, podis ver tambin el estado de la unidad de traduccin, si est
traducida o no (TU info), y otros tipos de informacin, como si hay coincidencia, la calidad de la coincidencia, etc.
3.3.1. Editar el texto traducible de una unidad de traduccin
Para editar una unidad de traduccin tan slo hay que hacer doble clic sobre
ella en la VD y aparecer en la primera ventana de edicin de la VUT. En la VD
aparece esta unidad en amarillo para indicar que es la unidad seleccionada.
Despus es necesario hacer clic sobre el botn Open Translation Unit or Subtag.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 296
296
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 297
297
Prcticas
protegidas. Ahora bien, si queris eliminar alguna, debis desactivar dicha proteccin en Tags -> Tag Protection. A continuacin seleccionad toda la extensin
de la marca y eliminad las etiquetas.
En el caso de que queris modificar los contenidos marcados, hay que colocar el cursor al principio de la etiqueta y hacer Open TU or tag. De esta manera
se abrir una etiqueta para ser editada.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 298
298
Traduccin y tecnologas
TU->Commit and open next: hace un Commit & Close y abre la unidad de
traduccin siguiente para traducir. Tambin se puede hacer pulsando el
botn
.
185-316 Practicas
30/9/08
13:29
Pgina 299
Editorial UOC
299
Prcticas
Prctica 14
1. Descripcin de la prctica
En las diversas prcticas que hemos llevado a cabo con ForeignDesk, todos
los archivos para traducir estaban en formato HTML. Pero ForeignDesk puede
tratar otros formatos. Para ver una lista detallada de los formatos que puede tratar, consultad la pgina 1 del manual de usuario (que podis encontrar en la
subcarpeta docs que cuelga del directorio donde habis hecho la instalacin,
normalmente C:/Archivos de programa/ForeignDesk). Cmo veris, muchos de
estos formatos estn relacionados con la localizacin de software.
ForeignDesk puede traducir tambin el formato RTF (Rich Text Format),
pero utilizando el Trados Process. Para utilizar esta opcin es necesario tener
la herramienta de traduccin asistida Trados. Existe la posibilidad de descargar
una versin de demostracin de Trados e instalarla, con lo que la opcin
Trados Process de ForeignDesk estar operativa. Es muy posible que algunos
usuarios potenciales de ForeignDesk se sientan decepcionados por no poder
traducir ms formatos relacionados con la documentacin. Potencialmente
ForeignDesk puede traducir un nmero prcticamente ilimitado de formatos,
ya que incluye un lenguaje de programacin y una herramienta para crear filtros especficos. Esta herramienta es DDL Workshop, del cual podis encontrar
tambin un manual bastante detallado en el directorio docs.
La explicacin exhaustiva del funcionamiento de esta herramienta requerira un manual entero y, por este motivo, en esta prctica nos limitaremos a
crear filtros para dos formatos especficos. Quien lo desee podr profundizar en
el tema leyendo el manual.
185-316 Practicas
30/9/08
13:29
Pgina 300
Editorial UOC
300
Traduccin y tecnologas
2. Objetivos
3. Mtodo operativo
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 301
301
Prcticas
Cundo lleguis a la ltima pantalla, tendris que establecer una carpeta personal de ficheros ODL utilizando el botn Browse para seleccionar la carpeta y el
botn Set Personal ODL Folder para establecerla. Seleccionad la carpeta donde
hayis creado el archivo exemple.odl y establecedla como carpeta personal. En
este momento, el archivo exemple.odl aparecer en la lista de archivos ODL disponibles. Seleccionadlo y haced clic en el botn Start.
Traducid el documento y exportadlo. Verificad si se han obtenido los resultados deseados.
Si queris crear vuestros filtros, slo es necesario crear los archivos DDL con
cualquier editor de textos y compilarlos (es decir, crear los archivos ODL) con
DDL Workshop.
185-316 Practicas
30/9/08
13:29
Pgina 302
Editorial UOC
302
Traduccin y tecnologas
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 303
303
Prcticas
En esta pantalla hay que ir indicando qu etiquetas marcan campos traducibles y cules no. Seleccionad las etiquetas: title, composer_biography y
review.
Haced clic en el botn Generate. Os pedir que indiquis el nombre y la
ubicacin del archivo DDL que se crear. Indicad la carpeta P14b y como
nombre, filtro-bdrecords.
Una vez hecho esto es necesario compilar el archivo DDL para generar
un archivo ODL que servir para importar el archivo a traducir a
ForeignDesk. Para hacerlo, simplemente hay que hacer File > Open e indicar el archivo filtre-bdrecords.ddl. Enseguida os pedir el nombre del archivo ODL que se crear. Podis dejar el mismo nombre.
Con todos estos pasos ya tenis creado el filtro necesario para importar el
archivo bdrecords.xml en ForeignDesk y traducirlo.
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 304
304
Traduccin y tecnologas
185-316 Practicas
30/9/08
13:29
Pgina 305
Editorial UOC
305
Prcticas
Prctica 15
1. Descripcin de la prctica
Una herramienta TAO es til para un traductor si gracias a ella puede traducir
documentos en los formatos con los que est ms habituado a trabajar. Si bien
los programas TAO propietarios (Dja Vu, SDL Trados) son capaces de importar
documentos en una gran variedad de formatos, en el entorno de los programas
de cdigo abierto y de libre distribucin sta ha sido, hasta hace poco, una asignatura pendiente, sobre todo por el hecho de que los formatos ms habituales
para el traductor son programas de propiedad, como el formato de Word.
Recientemente se ha estado trabajando en la confeccin de un formato
estndar de intercambio de archivos de localizacin basado en XML. Este formato se conoce como XLIFF (XML Localisation Interchange File Format) y no
se usa solamente en la localizacin de software sino tambin en la traduccin
de cualquier documento. El formato XLIFF representa informacin relevante
sobre el contenido, la estructura y los formatos includos en las lneas de texto
(negritas, cursivas, etc.) del archivo original, y tambin representa la informacin necesaria para exportar la traduccin a un fichero que conserve la estructura y los formatos de texto del original. La gran ventaja es que un fichero
XLIFF puede ser tratado por cualquier herramienta TAO capaz de interpretarlo.
Esto es lo que hemos visto en la explicacin de XLIFF Translation Editor (P13b)
y de XLIFF Editor de Transolution.
Es esta prctica veremos una aplicacin del paquete Open Language Tools,
Open Language Tools XLIFF Filtres, que transforma documentos originales que
estn en diferentes formatos al formato XLIFF. De momento, los formatos de
entrada son formatos estndar (HTML, txt) y del entorno del cdigo libre
(ficheros del paquete OpenOffice.org, Java).
185-316 Practicas
30/9/08
13:29
Pgina 306
Editorial UOC
306
Traduccin y tecnologas
2. Objetivos
3. Mtodo operativo
1. http://www.oasis-open.org/home/index.php
185-316 Practicas
30/9/08
13:29
Pgina 307
Editorial UOC
307
Prcticas
<header><skl>
<external-file href="skeleton.skl" /></skl></header>
<body>
<trans-unit id="a1">
<source> It is raining.</source>
<count-group name="word count">
<count count-type="word count" unit="word">3</count>
</count-group>
</trans-unit>
</body>
</file>
</xliff>
id="a1"
translate="yes"
reformat="yes"
xml:space="default">
<source>It is raining.</source>
<target xml:lang="es-ES" state="user:translated">Llueve.</target><count-group name="word count">
<count count-type="word count" unit="word">3</count>
</count-group>
</trans-unit>
</body>
</file>
</xliff>
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 308
308
Traduccin y tecnologas
185-316 Practicas
30/9/08
13:29
Editorial UOC
Pgina 309
309
Prcticas
bajis con Windows, descargad el fichero .zip. En cambio, si trabajis con Unix,
el fichero comprimido es .tar.gz.
3.4. Instalacin
Si trabajis con Windows descomprimid el fichero .zip en una carpeta. Una
vez descomprimido, haced doble clic en el fichero de instalacin install.bat y
seguid las instrucciones de instalacin. La instalacin en Unix se diferencia de
la instalacin en Windows en el hecho que se tiene que descomprimir el fichero .tar.gz con las funciones gunzip y tar -xvf. A continuacin ejecutad el fichero
install.sh desde la consola. La ruta por defecto de ejecucin del programa es
$HOME/Open_Language_Tools/XLIFF_Filters_ <versin>.
Este programa funciona en el entorno Java. Por lo tanto es necesario haber
instalado previamente Java Runtime Environment (JRE). En el caso que la instalacin falle, siempre se puede ejecutar el programa desde Java. nicamente se
tiene que escribir lo siguiente:
java
-jar transeditor_<versi>.jar
3.5. Conversin
Si trabajis en Windows, ejecutad el programa haciendo doble clic en el
fichero filters en la carpeta donde habis descomprimido el fichero .zip. Si trabajis en Unix, ejecutad filters.sh en el directorio donde se ha instalado el programa. Aparecer la siguiente pantalla:
185-316 Practicas
13/10/08
Editorial UOC
14:29
Pgina 310
310
Traduccin y tecnologas
conversin y dejar un fichero con la extensin .xlz. Lo dejar en la misma carpeta donde se encuentran los originales. Los ficheros .xlz son ficheros comprimidos que contienen tanto el fichero XLIFF como su skeleton asociado.
185-316 Practicas
30/9/08
13:29
Pgina 311
Editorial UOC
311
Prcticas
Prctica 16
1. Descripcin de la prctica
2. Objetivos
185-316 Practicas
30/9/08
13:29
Pgina 312
Editorial UOC
312
Traduccin y tecnologas
3. Mtodo operativo
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 313
313
Prcticas
Si os movis por los mens y observis que todos los campos traducibles han
sido substituidos por XXXxxx, quiere decir que el proceso de importacin y
exportacin funciona correctamente y que podemos empezar a traducir el proyecto. Antes de traducirlo, sin embargo, habr que borrar todas las traducciones. Haced Project > Clear translations.
185-316 Practicas
30/9/08
13:29
Pgina 314
Editorial UOC
314
Traduccin y tecnologas
cin, ya que slo puede haber un mismo carcter marcado de esta manera dentro de una misma pantalla, men o cuadro de dilogo. Esta seleccin no es
posible si no podemos ver el contexto.
Para visualizar los contextos, activad el icono
. Aparecer algo parecido
a lo que os mostramos a continuacin:
185-316 Practicas
30/9/08
Editorial UOC
13:29
Pgina 315
315
Prcticas
185-316 Practicas
30/9/08
13:29
Pgina 316