Procesamiento
del lenguaje natural
Resultados
obtenidos hasta la fecha
Los resultados
de la investigación obtenidos hasta la fecha:
- Agrupación
de los métodos de indexación, recuperación
y lematización en euskera y castellano, mediante
la creación de una interface KOA para su utilización
en paquetes de uso masivo de ofimática, autoedición
y edición multimedia.
- Acceso
directo al léxico en memoria según un árbol
n-ario de sílabas.
- Resolución
de sinónimos en el motor de recuperación en
euskera y síntesis de nombres.
- Sistema
de equivalencias directas entre unidades léxicas
de inglés y euskera.
-
Alineamiento de textos.
-
Lematización y segmentación de textos para euskera y español.
-
Exploración y consulta de corpus.
- Visualización
de concordancias de expresiones en el texto.
-
Extracción y seguimiento de terminología.
-
Tratamiento estadístico de memorias de traducción.
-
Generación de propuestas de traducción basadas en memorias de traducción
elaboradas mediante técnicas lingüísticas y estadísticas combinadas.
-
Agrupación estadística de documentos (clustering).
-
Generación de resúmenes y esquemas automáticos.
-
Sistema de búsqueda de respuestas para euskera y español.
-
Detección y seguimiento de sucesos para euskera y español.
-
Extracción de información léxica a partir de corpus.
-
Extracción de información sintáctica a partir de corpus.
-
Extracción de información lingüística a partir de traducciones multilingües.
Estos
resultados se aplican como tecnologías básicas
para el procesamiento de los lenguajes naturales en diferentes
proyectos y productos:
- Kapsula
2000: procedimientos de base para la indexación textual.
- IROM:
tecnología de indexación y recuperación
oracional.
- ACOTE:
herramientas de visualización de concordancias y
alineamientos de texto.
- AMETRA:
herramientas de ayuda a la traducción.
-
JAZOHARI: sistema de extracción de información y respuestas orientado a sucesos.
-
MULCOR: Adquisición de conocimiento multilingüe a partir de corpus.
-
DICCICOR: diccionarios combinatorios y de frecuencias basados en corpus.
|