SUBTRAD: Subsegmentos pretraducidos para facilitar la traducción

QUIENES SOMOS

ACTIVIDADES

PROYECTOS

EMPRESAS DEL GRUPO

INGENIERÍA DE SOFTWARE

PRENSA Y PUBLICACIONES

COMUNICACIÓN - ARTES GRÁFICAS

Ikerketa proiektuak

PLN: Programas para el procesamiento del lenguaje natural

TRANSPAR: Transparence. Sistema de reusabilidad y de desarrollo de software multiplataforma

IROM: Indexación y recuperación oracional multilingüe de texto libre

PLNGI: Procesamiento del lenguaje natural aplicado a la gestión de la información

PLNEE: Procesamiento del lenguaje natural aplicado al entorno empresarial

TLA: Técnicas lingüísticas avanzadas

LABUR: Sumarización multireferencia y multilingüe

GALDE: Sistema de búsqueda de respuestas para euskera y español

TEIS: Seguimiento de la implantación terminológica a través de Internet

JAZO: Detección y seguimiento de sucesos para euskera y español

ITZUL: Extracción de información lingüística a partir de traducciones multilingües

CORLIS: Información lingüística y terminológica a partir de corpus

CORLAN: Información lingüística, terminológica y sintáctica a partir de corpus

CORSIN: Optimización y mejoras en el análisis morfo-sintáctico e implementación en herramientas de explotación

ARSIN: Transición hacia un análisis sintáctico robusto y creación de árboles sintácticos

AUSIN: Optimización del análisis morfo-sintáctico a través de técnicas de aprendizaje automático

PROTRAD: Propuestas avanzadas de traducción

TRADI: Mejoras inteligentes en las propuestas avanzadas de traducción

KALITRAD: Investigación de la calidad de las traducciones

MODELA: Modelado Estadístico y Deep Learning para Traducción Automática de Alta Calidad

PROPOST: Propuestas avanzadas de traducción

QUALES: Aprendizaje Automático mediante Supervisión Modulable para la Estimación Automática de la Calidad de Traducción

TECPOST: Tecnologías avanzadas para la PostEdición de traducciones

MODENA: Modelado Neuronal Avanzado para Traducción Automática de Alta Calidad

SUBTRAD: Subsegmentos pretraducidos para facilitar la traducción

MINTZAI: Sistemas de Aprendizaje Profundo E2E para Traducción Automática del Habla

TANDO: Métodos y Sistemas de Traducción Automática Neuronal Coherente

Beste zentru teknologikoekiko lankidetza

Proyectos de desarrollo en el ámbito del transporte de mercancías

Colaboraciones con otros centros tecnológicos

SUBTRAD: Subsegmentos pretraducidos para facilitar la traducción

Años de actividad: 2019 - 2020

Objetivos:

El proyecto SUBTRAD tiene como objetivo el desarrollo de las tecnologías necesarias para agilizar la traducción de textos, basándose en la experiencia positiva que genera en el traductor el poder disponer de subsegmentos pretraducidos que pueda utilizar para completar la traducción y, a su vez, le aporten ideas para generar el texto de destino.

Los traductores necesitan ayuda cuando las memorias de traducción o la traducción automática no proporcionan propuestas de traducción adecuadas al estilo de traducción requerido. En estos casos, las sugerencias de diferentes formas de traducción de subsegmentos pueden dar unas ideas adecuadas para acometer la traducción de cada frase. Las diferentes propuestas se presentan al traductor de forma similar a las funciones de autocompletar existentes en los navegadores y en los entornos de escritura como Word Office o OpenOffice. Esta funcionalidad proporciona poder crear la traducción utilizando subsegmentos ya existentes, sin tener que escribir todas las partes "a mano".

El objetivo del proyecto es desarrollar herramientas de segmentación lingüística ligera, proporcionando subsegmentos adecuados de la forma más óptima posible, y unas herramientas de búsqueda de traducciones para dichos subsegmentos que empleen todas las capacidades desarrolladas en proyectos anteriores, como las traducciones automáticas proporcionadas por MODELA2016 o las propuestas mejoradas proporcionadas por TECPOST2018.

Este proyecto trata de complementar las investigaciones previas realizadas para obtener propuestas de traducción adecuadas y fiables, desarrolladas en los proyectos TrADI2015, PROTRAD2014, KALITRAD2016 y TECPOST2018, abriendo una línea de investigación complementaria basada en la experiencia del equipo de traducción. Cuando las propuestas de traducción no alcanzan el nivel requerido, es mejor basar la traducción en unidades de traducción más elementales, como la traducción básica basada en palabras o la traducción basada en segmentos cortos.

En el transcurso de este proyecto obtendremos herramientas de generación de traducciones de subsegmentos, que pueden verse como unos diccionarios dinámicos, que faciliten al traductor propuestas de traducción lo más cercanas posible al contenido del documento.

La correcta alineación de los subsegmentos del texto generado en las propuestas es una tarea de alta complejidad, en especial entre lenguas con construcciones gramaticales tan lejanas como el euskera y el español. No obstante, el objetivo del estudio y los métodos investigados deberían servir para cualquier par de lenguas de las que se dispongan traducciones y conozcamos en profundidad. Para este proyecto se emplearán fundamentalmente el español y el euskera, por nuestro conocimiento lingüístico previo y por la disponibilidad de recursos específicos y generadores de propuestas. Entendemos que las peculiaridades planteadas por estas dos lenguas pueden sentar las bases de tratamiento necesarias para cualquier otro par de lenguas occidentales, con sus matices.

Las investigaciones que se proponen en este proyecto son una ampliación de las realizadas anteriormente en los proyectos ya citados, TECPOST2018, KALITRAD2016, TrADI2015 y PROTRAD2014. Todos estos proyectos tienen en común la necesidad de investigar mejoras que resuelvan las carencias detectadas en las herramientas de traducción asistida por ordenador (TAO o CAT computer aided translation) y en concreto en OLITE , ante los nuevos paradigmas de la traducción: la traducción automática y la post-edición de textos traducidos (o no) de forma automática. Esto ha generado la necesidad de corregir o post-editar textos donde antes el trabajo consistía en que la persona traductora debía crear un texto en el idioma destino partiendo desde cero, lo que también ha influido en el perfil de los traductores.

Las herramientas TAO-CAT comerciales adolecen habitualmente de la capacidad de personalizar elementos fundamentales para las lenguas minoritarias como el euskera, como puede ser el apartado de segmentación, que facilitan la generación de propuestas de traducción de segmentos cortos o subsegmentos específicos para cada par de lenguas de origen y destino.

El prototipo de OLITE nos sirve como base de nuestra investigación, pues dispone de unas características altamente avanzadas e inteligentes, poniendo en valor el conocimiento y la experiencia que tenemos en el procesamiento del lenguaje natural, en las que se combinan técnicas de Memorias de Traducción, Análisis Lingüístico, Métodos Estadísticos y Sistemas de Traducción Automática (sistemas basados en redes neuronales, como MODELA o los sistemas de traducción automática de Elhuyar).

Proyecto financiado parcialmente por la Diputación Foral de Gipuzkoa - Gipuzkoako Foru Aldundia