Procesamiento del lenguaje natural: resultados

ACTIVIDADES

EMPRESAS DEL GRUPO

INGENIERÍA DE SOFTWARE

Procesamiento del lenguaje natural

Objetivos

Resultados obtenidos hasta la fecha

Líneas tecnológicas

Procesamiento del lenguaje natural

Resultados obtenidos hasta la fecha

Los resultados de la investigación obtenidos hasta la fecha:

Agrupación de los métodos de indexación, recuperación y lematización en euskera y castellano, mediante la creación de una interface KOA para su utilización en paquetes de uso masivo de ofimática, autoedición y edición multimedia.
Acceso directo al léxico en memoria según un árbol n-ario de sílabas.
Resolución de sinónimos en el motor de recuperación en euskera y síntesis de nombres.
Sistema de equivalencias directas entre unidades léxicas de inglés y euskera.
Alineamiento de textos.
Lematización y segmentación de textos para euskera y español.
Exploración y consulta de corpus.
Visualización de concordancias de expresiones en el texto.
Extracción y seguimiento de terminología.
Tratamiento estadístico de memorias de traducción.
Generación de propuestas de traducción basadas en memorias de traducción elaboradas mediante técnicas lingüísticas y estadísticas combinadas.
Agrupación estadística de documentos (clustering).
Generación de resúmenes y esquemas automáticos.
Sistema de búsqueda de respuestas para euskera y español.
Detección y seguimiento de sucesos para euskera y español.
Extracción de información léxica a partir de corpus.
Extracción de información sintáctica a partir de corpus.
Extracción de información lingüística a partir de traducciones multilingües.

Estos resultados se aplican como tecnologías básicas para el procesamiento de los lenguajes naturales en diferentes proyectos y productos:

Kapsula 2000: procedimientos de base para la indexación textual.
IROM: tecnología de indexación y recuperación oracional.
ACOTE: herramientas de visualización de concordancias y alineamientos de texto.
AMETRA: herramientas de ayuda a la traducción.
JAZOHARI: sistema de extracción de información y respuestas orientado a sucesos.
MULCOR: Adquisición de conocimiento multilingüe a partir de corpus.
DICCICOR: diccionarios combinatorios y de frecuencias basados en corpus.