AMETRA:
Ayuda a la traducción basada en memorias de traducción
Centros
tecnológicos participantes en este proyecto:
- Facultad
de Ciencias de la EHU/UPV de Bilbao
- Institut
Tecnològic d’Informàtica de Valencia
Años
de actividad:
2002-2004
Objetivos
y resultados:
El proyecto
AMETRA se sitúa en el terreno de los sistemas de memorias
de traducción y tiene como objetivo el desarrollo de una
herramienta de Traducción Asistida por Ordenador, en la que
se combinen técnicas de Memorias de Traducción, Análisis
Lingüístico y Métodos Estadísticos.
Es una continuación natural del proyecto ACOTE, y al igual
que en él, las lenguas tratadas son el castellano y el euskera,
y su área de aplicación es el ámbito de las
traducciones administrativas (boletines oficiales, documentos legales,
etc.).
La práctica totalidad de sistemas de ayuda a la traducción
(Trados, WordFast...) se basan en comparaciones de las frases de
entrada con las almacenadas en las memorias de traducción,
y utilizan para ello técnicas basadas en lógica difusa,
que dan como resultado las frases almacenadas en la base de datos
que más se asemejan formalmente a la frase de entrada, expresando
dicha similitud en porcentajes. Últimamente, algunos (principalmente,
DéjàVu) han aplicado técnicas de análisis
lingüístico, pero a un nivel muy superficial, para conseguir
cierto tipo de segmentación inferior a la frase. Dicho análisis
lingüístico se limita a las derivaciones de palabras
que se puedan establecer a nivel formal, y a la etiquetación
de categoría gramatical para cada una de las palabras. En
ninguno de los casos se aplican técnicas de análisis
estadístico orientado a los corpus y la traducción.
A consecuencia
de las limitaciones de los actuales sistemas basados en memorias
de traducción, el grado de insatisfacción de los traductores
humanos que utilizan estos programas es alto, debido en gran medida
a que el grado de similitud real entre las unidades de traducción
de los textos supuestamente repetitivos es bastante menor de lo
que a primera vista podría parecer.
Partiendo de
la experiencia previa de los participantes en este proyecto, se
han aplicado, de forma cooperante, diversos métodos de análisis
y modelos lingüísticos, para poder aprovechar la repetición
y similitud real (no formal) de los textos para la creación
de nuevas traducciones. Se han integrado las siguientes técnicas:
ANÁLISIS
LINGÜÍSTICO
- Lematización
y análisis morfo-sintáctico.
- Segmentación
y alineamiento de corpus bilingüe.
- Síntesis
de palabras nuevas.
- Identificación
de dígitos, nombres propios, siglas.
MODELOS
ESTADÍSTICOS
- Segmentación
bilingüe basada en alineamientos estadísticos de palabras.
- Incorporación
de información de tipo lingüístico para mejorar
los alineamientos estadísticos de palabras.
- Desarrollo
de software eficiente para la traducción estadística
de segmentos cortos.
- Traducción
puramente estadística para tareas con restricciones léxicas
y sintacto-semánticas.
MEMORIAS
DE TRADUCCIÓN
- Indexación
de frases, segmentos y subsegmentos, junto a sus equivalencias.
- Recuperación
basada en repetición de segmentos y conjuntos de segmentos.
ASIMISMO,
SE HAN INTEGRADO TAMBIÉN LOS SIGUIENTES MECANISMOS SUPLEMENTARIOS
- Glosarios
de correspondencia sistemática (terminológica, de
recuperación y de traducción).
- Visualización
de concordancias.
- Realimentación
de las distintas bases (memorias de traducción y glosarios)
a través de las nuevas traducciones.
La aplicación
cooperante, en una sola herramienta, de todas esas técnicas,
puede suponer un avance importante en la productividad de los traductores
humanos y una mejora de expectativas de cara a la traducción
automática.
|