NOR GAREN
 
JARDUERA
 
PROIEKTUAK
 
TALDEKO ENPRESAK
 
 
 

 
Ikerketa proiektuak
Beste zentru teknologikoekiko lankidetza
KAPSULA 2000: Eduki dokumentalen eskuratzea, lengoaia naturalean oinarrituta
 
ACOTE: Itzulpenari laguntza, hizkuntz teknikekin uztartuta
 
AMETRA: Itzulpenari laguntza, itzulpen memorietan oinarrituta
 
JAZOHARI: Informazioaren eta erantzunen erauzketa, gertakariei zuzenduta
 
MULCOR: Adquisición de conocimiento multilingüe a partir de corpus.
 
DICCICOR: Diccionarios combinatorios y de frecuencias basados en corpus.
 
OLITE: Ordenagailuz Lagundutako Itzulpen Tresna Eleaniztuna.

OLITE: Ordenagailuz Lagundutako Itzulpen Tresna Eleaniztuna

En este proyecto participan tres empresas y tres centros tecnológicos.

Años de actividad: 2013-2015

Objetivos:

El proyecto OLITE se sitúa en el terreno de los sistemas de memorias de traducción y tiene como objetivo el desarrollo de una herramienta de Traducción Asistida por Ordenador (TAO), en la que se combinen técnicas de Memorias de Traducción, Análisis Lingüístico y Métodos Estadísticos.

Las lenguas tratadas por el programa serán cualquier par de lenguas para las que se disponga de una memoria de traducción efectiva. Para el desarrollo del producto se emplearán principalmente el castellano y el euskera, por nuestro conocimiento lingüístico previo. Entendemos que las peculiaridades planteadas por estas dos lenguas pueden sentar las bases de tratamiento necesarias para cualquier otro par de lenguas occidentales.

El producto resultante será un conjunto de herramientas de ayuda a la traducción, que funcionará en entorno corporativo, con un servidor central como repositorio de memorias, trabajos y aplicaciones, que puede ser interno o externo a la empresa. La edición se llevará a cabo en entorno web, para facilitar la independencia del puesto de trabajo de los programas de edición y de propuestas de traducción.

FORMALIZACIÓN DEL OBJETIVO

La práctica totalidad de sistemas de ayuda a la traducción (Trados, WordFast...) se basan en comparaciones de las frases de entrada con las almacenadas en las memorias de traducción, y utilizan para ello técnicas basadas en lógica difusa, que dan como resultado las frases almacenadas en la base de datos que más se asemejan formalmente a la frase de entrada, expresando dicha similitud en porcentajes. Últimamente, algunos (principalmente, DéjàVu) han aplicado técnicas de análisis lingüístico, pero a un nivel muy superficial, para conseguir cierto tipo de segmentación inferior a la frase. Dicho análisis lingüístico se limita a las derivaciones de palabras que se puedan establecer a nivel formal, y a la etiquetación de categoría gramatical para cada una de las palabras. En ninguno de los casos se aplican técnicas de análisis estadístico orientado a los corpus y la traducción.

A consecuencia de las limitaciones de los actuales sistemas basados en memorias de traducción, el grado de insatisfacción de los traductores humanos que utilizan estos programas es alto, debido en gran medida a que el grado de similitud real entre las unidades de traducción ¿al margen de las repeticiones exactas¿ proporciona una información ¿aproximativa¿, a menudo sin una relación lingüística real, y que en muchas ocasiones hay que procesar como si fuera una primera traducción, lo que supone una pérdida de tiempo y, en consecuencia, de eficiencia de la herramienta, reduciendo en gran medida el ahorro que se había conseguido por otra parte.

Partiendo de la experiencia que en diversos campos poseemos los participantes en este proyecto, nuestra propuesta es la aplicación, de forma cooperante, de diversos análisis y modelos, para poder aprovechar la repetición y similitud real (no formal) de los textos para la creación de nuevas traducciones. Se propone utilizar e integrar las siguientes técnicas:

  • Editor bilingüe
    • Editor de textos bilingües
    • Con soporte de edición de segmentos a traducir
    • Con acceso a las propuesta de traducción basada en memorias
    • Con acceso a glosarios
    • Soporte de consultas a diccionarios en red
  • Análisis lingüístico
    • Lematización y análisis morfo-sintáctico
    • Segmentación y alineamiento de corpus bilingüe
    • Síntesis de palabras nuevas
    • Identificación de dígitos, nombres propios, siglas
  • Modelos estadísticos
    • Segmentación bilingüe basada en alineamientos estadísticos de palabras
    • Incorporación de información de tipo lingüístico para mejorar los alineamientos estadísticos de palabras
    • Desarrollo de software eficiente para la traducción estadística de segmentos cortos
    • Traducción puramente estadística para tareas con restricciones léxicas y sintáctico-semánticas
  • Memorias de traducción
    • Indexación de frases, segmentos y subsegmentos, junto a sus equivalencias
    • Recuperación basada en repetición de segmentos y conjuntos de segmentos.
Asimismo, se integrarán también los siguientes mecanismos suplementarios:
  • Glosarios de correspondencia sistemática (terminológica, de recuperación y de traducción)
  • Visualización de concordancias
  • Realimentación de las distintas bases (memorias de traducción y glosarios) a través de las nuevas traducciones

La aplicación cooperante, en una sola herramienta, de todas esas técnicas, nos hace presuponer un avance importante en la productividad de los traductores humanos y una mejora de expectativas de cara a la traducción automática.

Tecnología del proyecto financiada parcialmente por la Diputación Foral de Gipuzkoa - Gipuzkoako Foru Aldundia
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Sailak zatiz finantziatutako proiektua, FEDER