Intercambio de Memorias de Trad
Intercambio de Memorias de Trad
Intercambio de Memorias de Trad
net/publication/291295556
CITATIONS READS
0 221
1 author:
Antoni Oliver
Universitat Oberta de Catalunya
100 PUBLICATIONS 311 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
MOMENT PROJECT: Metaphors of severe mental disorders. Discourse analysis of affected people and mental health professionals View project
All content following this page was uploaded by Antoni Oliver on 20 January 2016.
Antoni Oliver
Director del máster en Traducción Especializada
Universitat Oberta de Catalunya (UOC)
RESUMEN
En este artículo presentamos TMX (Translation Memory eXchange), el formato estándar
de intercambio de memorias de traducción. Repasaremos el concepto de memoria de
traducción y sus usos, que las convierten en uno de los principales recursos para el
traductor. Veremos las estrategias para recuperar de manera rápida los segmentos más
similares al que estamos traduciendo y los mecanismos para ordenar los segmentos
recuperados según su similitud con el segmento a traducir. Se analizarán los formatos
internos de las memorias de traducción en las principales herramientas de traducción
asistida y se verá la importancia de disponer de un formato de intercambio que sea
estándar, versátil y que permita su evolución para adaptarse a las nuevas necesidades.
Presentaremos brevemente las especificaciones del formato TMX y sus diferentes niveles
y analizaremos el grado de aceptación de este formato entre las herramientas de
traducción asistida. Finalmente presentaremos algunas de las propuestas de futuro para
este formato.
Palabras clave: TMX, memoria de traducción, herramientas TAO, estándar
RESUM (TMX: intercanvi de memòries de traducció)
En aquest article presentem TMX (Translation Memory eXchange), el format estàndard
d'intercanvi de memòries de traducció. Repassarem el concepte de memòria de traducció
i els seus usos, que les converteixen en un dels principals recursos per al traductor.
Veurem les estratègies per recuperar de manera ràpida els segments més similars als
que estem traduint i els mecanismes per ordenar els segments recuperats segons la seva
similitud amb el segment a traduir. Presentarem breument les especificacions del format
TMX i els seus diferents nivells i analitzarem el grau d'acceptació d'aquest format entre les
eines de traducció assistida.
Paraules clau: TMX, memories de traducció, eines TAO, estàndard.
ABSTRACT (TMX: Translation memories interchange)
In this paper the standard format for translation memories interchange (TMX) is presented.
We review the concept of translation memory and its uses. We also present strategies for
quick access to the most similar segments to the one being translated and the ways to sort
the retrieved segments according to similarity. The specifications of the TMX format and
its levels will be presented. We analyze the degree of implementation of this format in CAT
tools.
Keywords: TMX, translation memory, CAT tools, standard
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
609
Las memorias de traducción proporcionan una relación directa entre los segmentos de
texto en una lengua y sus traducciones a otra lengua. Los segmentos de texto acostumbran a
ser oraciones, pero como el proceso de segmentación se realiza a partir de un conjunto de
reglas basadas en expresiones regulares que tienen en cuenta las secuencias de ciertos
caracteres, los segmentos no siempre coinciden con oraciones desde el punto de vista
gramatical. Las memorias de traducción no relacionan unidades más grandes como, por
ejemplo, párrafos porque la probabilidad de encontrar párrafos iguales o similares en un texto
es muy baja. Tampoco se relacionan unidades más pequeñas como, por ejemplo, palabras,
ya que el traductor humano no trabaja tratando de manera aislada estas unidades.
Las memorias de traducción pueden tener también otras utilidades, entre las que se
pueden destacar:
Existen diversas páginas web que permiten hacer búsquedas en memorias de traducción.
Linguee (www.linguee.com) permite buscar expresiones y muestra información que proviene
de bases de datos terminológicas y diccionarios junto a los segmentos de la memoria de
traducción que contienen el término de búsqueda. Otro servicio muy similar es Reverso
Context (http://context.reverso.net/). En la literatura científica, la tarea de buscar la traducción
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
610
6 Banknotes and coins, means of payment and Billetes de banco y monedas, medios de
currency matters pago y Cuestiones de moneda
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
611
Esta tabla nos proporciona información sobre en qué segmentos aparecen cada una de
las palabras. Por ejemplo, payment aparece en los segmentos 5 y 6 y market en el 10.
Tomaríamos los índices de los segmentos y el índice que apareciera más veces sería
probablemente el más parecido, ya que contendría más palabras comunes. Dependiendo del
algoritmo de cálculo de similitud entre segmentos, el orden de las palabras nos puede jugar
malas pasadas así que, a menudo, se toma no sólo el más parecido, sino también los
primeros más parecidos y se calcularía la similitud, hasta que ésta estuviera por debajo de la
similitud mínima dada por el usuario. Sobre el cálculo de similitud, hablaremos en el siguiente
subapartado. Según esto, quedaría:
banknotes 6
coins 6
types
payment 5:6
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
612
y, por tanto, el segmento más parecido sería el 6 (Banknotes and coins, means of
payment and currency matters), ya que tiene 3 palabras que coinciden. El segundo segmento
más parecido sería el 5 (Payment and settlement systems).
La explicación que hemos presentado corresponde a una estrategia muy básica que
puede mejorarse en muchos aspectos. El algoritmo de indexación puede llegar a ser un
secreto comercial de las herramientas de traducción asistida. A continuación, presentamos
algunos aspectos básicos de mejora de este algoritmo:
Cada lengua tiene una serie de palabras funcionales que tienden a aparecer con
mucha frecuencia en los textos (en nuestro ejemplo and y the). Muy a menudo estas
palabras funcionales son palabras cortas y, por este motivo, es habitual no tener en
cuenta las palabras formadas por pocos caracteres en el momento de calcular los
1
índices .
Una primera aproximación podría medir la similitud entre dos segmentos contando
cuántas palabras tienen en común. Según esta medida, si dos segmentos tienen todas las
palabras iguales la similitud sería del 100%. Esta aproximación, no obstante, puede fallar por
diferencias en el orden la de las palabras. Vamos a aplicar esta sencilla medida a los
segmentos del ejemplo presentado en el apartado anterior. Si tenemos en cuenta el número
de palabras que coinciden:
1
Esta estrategia puede no ser válida para algunas lenguas y, muy especialmente, para lenguas como el
chino, japonés y coreano.
2
De nuevo esta estrategia no es válida para todas las lenguas.
3
http://nlp.lsi.upc.edu/freeling/
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
613
Esta medida de similitud tan simple puede no representar el esfuerzo real de edición que
supondría modificar la traducción del segmento recuperado hasta convertirlo en la traducción
deseada del segmento original. Por este motivo será necesario utilizar medidas más
complejas.
La distancia de edición nos puede dar una idea muy aproximada del esfuerzo real que
puede suponer editar una coincidencia parcial de una memoria de traducción. Si aplicamos
esta medida a nuestro ejemplo obtenemos los siguientes valores:
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
614
Distancia de edición: 29
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
615
En las secciones anteriores hemos podido observar que para poder utilizar una memoria
de traducción de manera eficiente se ha tenido que llevar a cabo un proceso de indexación.
La memoria de traducción se almacenará de manera interna en algún tipo de base de datos
o estructura informática similar. Cada herramienta realiza el proceso de indexación de
manera diferente y utiliza estructuras y bases de datos totalmente diferentes. Este hecho
hace que, sin la ayuda de algún formato de intercambio eficiente, sea imposible compartir
memorias de traducción entre usuarios de diferentes herramientas de traducción asistida.
Supongamos, por ejemplo, que dispongo de una memoria de traducción entre el catalán y
castellano, de 10.000 segmentos, compilada durante diversos meses de trabajo y que
proviene de diferentes proyectos de traducción. Si únicamente me interesase compartir el
segmento original y el segmento traducido, podría generar un fichero de texto separado por
algún carácter específico (comas, tabuladores, etc.) y enviárselo a mi colaborador. A
continuación, vemos un segmento de ejemplo en este formato (entre los diferentes campos
hay un tabulador que no se aprecia en el texto):
CA ES changedate changeid
EDICTE de 14 de febrer de 2000, sobre un acord de la Comissió d'Urbanisme de Tarragona
referent al municipi de Reus. EDICTO de 14 de febrero de 2000, sobre un acuerdo de la
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
616
Para evitar los problemas que pueden surgir a la hora de compartir memorias de
traducción, un grupo de expertos del grupo de interés OSCAR (Open Standards for
Container/Content Allowing Re-use) de LISA (Localization Industry Standards Association)
desarrolló el formato TMX en 1997.
3. El estándar TMX
3.1. Procesadores de texto
Como ya hemos comentado, el objetivo del formato TMX es proporcionar un método
estándar para la descripción de los datos contenidos en una memoria de traducción con el fin
de poder compartir las memorias entre diferentes usuarios y herramientas sin que se
produzca una pérdida de datos importante durante el proceso.
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
617
El TMX es un formato basado en XML y, por lo tanto, cumple todas sus especificaciones.
Además, al ser XML puede beneficiarse de todas las herramientas estándar para el
procesado de este formato. Entre estas herramientas cabe destacar la de verificación de la
validez de un fichero, que se puede realizar de manera automática comparándola con el DTD
(Document Type Definition) del propio TMX. Dado que el formato XML distingue entre
mayúsculas y minúsculas, todos los nombres de elementos y atributos del formato TMX se
definen en minúsculas.
Los archivos TMX utilizan siempre la codificación Unicode, ya sea UTF-16, UTF-8 o ISO-
646 (es decir US-ASCII, que es de hecho un subconjunto del UTF-8). Dado que sólo se
permiten estas codificaciones, no es necesario incluir la declaración de codificación en la
cabecera del XML.
A diferencia del HTML y, como ocurre con cualquier otro XML, en TMX sólo se permiten
las siguientes referencias a entidades: & (&), < (<),> (>), ' (‘) y " (“).
El elemento raíz, que engloba todo el documento TMX, es <tmx> y contiene dos
elementos:
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
618
No es el objeto de este artículo repasar todas las especificaciones de TMX por lo que
remitimos al lector interesado a las propias especificaciones del estándar en Savourel (2005).
Si nos fijamos en el ejemplo anterior, el formato TMX es bastante claro y se puede deducir de
manera fácil la información que contiene.
3.2. Niveles
El TMX puede tener dos niveles de implementación:
Nivel 1. Únicamente texto plano: soporte sólo para el contenedor. Los datos entre los
elementos <seg> contienen únicamente información textual, sin marcas de formato.
Nivel 2. Marcado del contenido: soporte tanto para el contenedor como para el
contenido. Se utiliza el marcado de contenido propio del TMX para permitir que otras
herramientas que sean compatibles con TMX nivel 2 puedan recrear la versión
traducida de un documento original usando únicamente el archivo TMX.
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
619
Si nos fijamos, este nivel incluye información sobre el formato del segmento. El nivel 2 de
TMX es muy útil para traducir documentación con formato variado (negritas, colores, etc.), ya
que en muchos casos podrá recuperar también las marcas de formato y ahorrará tiempo de
edición al traductor.
4
En TMX se expresaría como
4
Fijémonos que las marcas <b> i </b> se han modificado por <b> y </b> ya que si no, el fragmento
resultante sería un XML no válido.
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
620
Aunque, como ya hemos dicho, la mayoría de herramientas son compatibles con el TMX,
todavía existen algunos problemas de compatibilidad (Raya, 2007):
Existen diversas herramientas que nos permiten verificar y corregir archivos TMX. A modo
de ejemplo, enumeraremos algunas de ellas:
5
CheckMate de Okapi Tools .
6
TMXValidator de MaxPrograms .
7
TMX Editor de Heartsome .
5
http://www.opentag.com/okapi/wiki/index.php?title=CheckMate
6
http://www.maxprograms.com/products/tmxvalidator.html
7
https://github.com/heartsome/tmxeditor8
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
621
Aunque por el momento no parece que haya una actividad importante en la creación de
nuevas versiones del estándar TMX sí que podemos encontrar diversas propuestas para la
extensión de sus funcionalidades, entre las que podemos destacar la de Forcada (2014) que
propone la manera de representar unidades subsegmentales mediante TMX utilizando las
etiquetas "bpt" y "ept".
4. Conclusiones
En este artículo se ha pretendido dar una visión general del formato TMX para el
intercambio de memorias de traducción. Primero se ha presentado el concepto de memoria
de traducción y el proceso de indexación para entender la importancia de disponer de un
formato de intercambio estándar.
El formato TMX está bien introducido en todas las herramientas de traducción asistida
aunque, como hemos visto, no siempre son compatibles con la última versión o con sus dos
niveles. Todavía existen algunos problemas aislados de compatibilidad con alguna
herramienta de traducción asistida.
Por último hemos visto que no se han producido nuevas versiones del estándar en mucho
tiempo pero que existen propuestas de ampliación de sus funcionalidades.
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)
TMX: INTERCAMBIO DE MEMORIAS DE TRADUCCIÓN.
Antoni Oliver
622
Bibliography
http://revistes.uab.cat/tradumatica
Els continguts de la revista estan subjectes a una llicència Creative Commons (CC BY 3.0)