QUIENES SOMOS
 
ACTIVIDADES
 
PROYECTOS
 
EMPRESAS DEL GRUPO
 
 
 

 
Proyectos de investigación
Proyectos de desarrollo en el ámbito lingüístico
KAPSULA 2000: Adquisición de contenidos documentales en lenguajes naturales
 
ACOTE: Ayuda a la traducción integrada con técnicas lingüísticas
 
AMETRA: Ayuda a la traducción basada en memorias de traducción
 
JAZOHARI: Sistema de extracción de información y respuestas orientado a sucesos
 
MULCOR: Adquisición de conocimiento multilingüe a partir de corpus.
 
DICCICOR: Diccionarios combinatorios y de frecuencias basados en corpus.
 
OLITE: Ordenagailuz Lagundutako Itzulpen Tresna Eleaniztuna
Proyectos de desarrollo en el ámbito del transporte de mercancías
Colaboraciones con otros centros tecnológicos

AMETRA: Ayuda a la traducción basada en memorias de traducción

Centros tecnológicos participantes en este proyecto:

  • Facultad de Ciencias de la EHU/UPV de Bilbao
  • Institut Tecnològic d’Informàtica de Valencia

Años de actividad: 2002-2004

Objetivos y resultados:

El proyecto AMETRA se sitúa en el terreno de los sistemas de memorias de traducción y tiene como objetivo el desarrollo de una herramienta de Traducción Asistida por Ordenador, en la que se combinen técnicas de Memorias de Traducción, Análisis Lingüístico y Métodos Estadísticos.

Es una continuación natural del proyecto ACOTE, y al igual que en él, las lenguas tratadas son el castellano y el euskera, y su área de aplicación es el ámbito de las traducciones administrativas (boletines oficiales, documentos legales, etc.).

La práctica totalidad de sistemas de ayuda a la traducción (Trados, WordFast...) se basan en comparaciones de las frases de entrada con las almacenadas en las memorias de traducción, y utilizan para ello técnicas basadas en lógica difusa, que dan como resultado las frases almacenadas en la base de datos que más se asemejan formalmente a la frase de entrada, expresando dicha similitud en porcentajes. Últimamente, algunos (principalmente, DéjàVu) han aplicado técnicas de análisis lingüístico, pero a un nivel muy superficial, para conseguir cierto tipo de segmentación inferior a la frase. Dicho análisis lingüístico se limita a las derivaciones de palabras que se puedan establecer a nivel formal, y a la etiquetación de categoría gramatical para cada una de las palabras. En ninguno de los casos se aplican técnicas de análisis estadístico orientado a los corpus y la traducción.

A consecuencia de las limitaciones de los actuales sistemas basados en memorias de traducción, el grado de insatisfacción de los traductores humanos que utilizan estos programas es alto, debido en gran medida a que el grado de similitud real entre las unidades de traducción de los textos supuestamente repetitivos es bastante menor de lo que a primera vista podría parecer.

Partiendo de la experiencia previa de los participantes en este proyecto, se han aplicado, de forma cooperante, diversos métodos de análisis y modelos lingüísticos, para poder aprovechar la repetición y similitud real (no formal) de los textos para la creación de nuevas traducciones. Se han integrado las siguientes técnicas:

ANÁLISIS LINGÜÍSTICO

  • Lematización y análisis morfo-sintáctico.
  • Segmentación y alineamiento de corpus bilingüe.
  • Síntesis de palabras nuevas.
  • Identificación de dígitos, nombres propios, siglas.

MODELOS ESTADÍSTICOS

  • Segmentación bilingüe basada en alineamientos estadísticos de palabras.
  • Incorporación de información de tipo lingüístico para mejorar los alineamientos estadísticos de palabras.
  • Desarrollo de software eficiente para la traducción estadística de segmentos cortos.
  • Traducción puramente estadística para tareas con restricciones léxicas y sintacto-semánticas.

MEMORIAS DE TRADUCCIÓN

  • Indexación de frases, segmentos y subsegmentos, junto a sus equivalencias.
  • Recuperación basada en repetición de segmentos y conjuntos de segmentos.

ASIMISMO, SE HAN INTEGRADO TAMBIÉN LOS SIGUIENTES MECANISMOS SUPLEMENTARIOS

  • Glosarios de correspondencia sistemática (terminológica, de recuperación y de traducción).
  • Visualización de concordancias.
  • Realimentación de las distintas bases (memorias de traducción y glosarios) a través de las nuevas traducciones.

La aplicación cooperante, en una sola herramienta, de todas esas técnicas, puede suponer un avance importante en la productividad de los traductores humanos y una mejora de expectativas de cara a la traducción automática.

Proyecto financiado parcialmente por el Departamento de Industria, Comercio y Turismo del Gobierno Vasco