CORLAN: Extracción de información lingüística, terminológica y sintáctica a partir de corpus

PROYECTOS

EMPRESAS DEL GRUPO

INGENIERÍA DE SOFTWARE

PRENSA Y PUBLICACIONES

COMUNICACIÓN - ARTES GRÁFICAS

Proyectos de investigación

PLN: Programas para el procesamiento del lenguaje natural

TRANSPAR: Transparence. Sistema de reusabilidad y de desarrollo de software multiplataforma

IROM: Indexación y recuperación oracional multilingüe de texto libre

PLNGI: Procesamiento del lenguaje natural aplicado a la gestión de la información

PLNEE: Procesamiento del lenguaje natural aplicado al entorno empresarial

TLA: Técnicas lingüísticas avanzadas

LABUR: Sumarización multireferencia y multilingüe

GALDE: Sistema de búsqueda de respuestas para euskera y español

TEIS: Seguimiento de la implantación terminológica a través de Internet

JAZO: Detección y seguimiento de sucesos para euskera y español

ITZUL: Extracción de información lingüística a partir de traducciones multilingües

CORLIS: Información lingüística y terminológica a partir de corpus

CORLAN: Información lingüística, terminológica y sintáctica a partir de corpus

CORSIN: Optimización y mejoras en el análisis morfo-sintáctico e implementación en herramientas de explotación

ARSIN: Transición hacia un análisis sintáctico robusto y creación de árboles sintácticos

AUSIN: Optimización del análisis morfo-sintáctico a través de técnicas de aprendizaje automático

PROTRAD: Propuestas avanzadas de traducción

TRADI: Mejoras inteligentes en las propuestas avanzadas de traducción

KALITRAD: Investigación de la calidad de las traducciones

MODELA: Modelado Estadístico y Deep Learning para Traducción Automática de Alta Calidad

PROPOST: Propuestas avanzadas de traducción

QUALES: Aprendizaje Automático mediante Supervisión Modulable para la Estimación Automática de la Calidad de Traducción

TECPOST: Tecnologías avanzadas para la PostEdición de traducciones

MODENA: Modelado Neuronal Avanzado para Traducción Automática de Alta Calidad

SUBTRAD: Subsegmentos pretraducidos para facilitar la traducción

MINTZAI: Sistemas de Aprendizaje Profundo E2E para Traducción Automática del Habla

TANDO: Métodos y Sistemas de Traducción Automática Neuronal Coherente

Proyectos de desarrollo en el ámbito lingüístico

Proyectos de desarrollo en el ámbito del transporte de mercancías

Colaboraciones con otros centros tecnológicos

CORLAN: Información lingüística, terminológica y sintáctica a partir de corpus

Años de actividad: 2010 - 2011

Objetivos:

El objetivo del presente Plan de Especialización es continuar y ahondar nuestro conocimiento en diferentes disciplinas inscritas en la Lingüística de Corpus, y conseguir un alto grado de innovación en los desarrollos a realizar.
El nuevo proyecto que presentamos pretende profundizar en algunas líneas de investigación ya en marcha, así como el comienzo de otras nuevas. Dicha tarea investigadora se puede resumir en tres epígrafes:
- Extracción de terminología y patrones sintácticos
- Sistema de frecuencias lingüísticas
- Explorador sintáctico de corpus
La fase de Extracción de terminología y patrones sintácticos supone la continuacón y finalización del trabajo iniciado en el Plan de Especialización anterior y persigue la aplicación de patrones sintácticos a la hora de lograr una extracción terminológica más robusta.
El apartado del sistema de Sistema de frecuencias lingüísticas se inscribe en la línea ya comenzada en el ejercicio anterior, y pretende una ampliación de aquél por diferentes vías: el número de variables a contemplar, la multiplicidad de corpus de referencia, y el multilingüismo.
La última fase, el Explorador sintáctico de corpus, supone una nueva línea de especialización, que plantea la extracción de información sintáctica desde el punto de vista del usuario.

Proyecto financiado parcialmente por el Departamento de Industria, Comercio y Turismo del Gobierno Vasco