JAZOHARI: Sistema de extracción de información y respuestas orientado a sucesos

QUIENES SOMOS

ACTIVIDADES

PROYECTOS

EMPRESAS DEL GRUPO

INGENIERÍA DE SOFTWARE

PRENSA Y PUBLICACIONES

COMUNICACIÓN - ARTES GRÁFICAS

Proyectos de investigación

Proyectos de desarrollo en el ámbito lingüístico

KAPSULA 2000: Adquisición de contenidos documentales en lenguajes naturales

ACOTE: Ayuda a la traducción integrada con técnicas lingüísticas

AMETRA: Ayuda a la traducción basada en memorias de traducción

JAZOHARI: Sistema de extracción de información y respuestas orientado a sucesos

MULCOR: Adquisición de conocimiento multilingüe a partir de corpus.

DICCICOR: Diccionarios combinatorios y de frecuencias basados en corpus.

OLITE: Ordenagailuz Lagundutako Itzulpen Tresna Eleaniztuna

Proyectos de desarrollo en el ámbito del transporte de mercancías

Colaboraciones con otros centros tecnológicos

JAZOHARI: Sistema de extracción de información y respuestas orientado a sucesos

En este proyecto participan dos empresas además del centro tecnológico.

Años de actividad: 2006-2008

Objetivos:

- Documentación (PDF)

El proyecto JAZOHARI tiene por objetivo la creación de un sistema computacional desatendido de resúmenes y esquemas automáticos y de búsqueda de respuestas, que facilite el acceso y aprovechamiento óptimo de grandes volúmenes de información textual. El sistema estará principalmente orientado a sucesos.

Los resúmenes y esquemas automáticos se refieren a la presentación abreviada y desasistida de la información relevante filtrada a partir de una serie de documentos, generando un informe corto de todo lo importante que dicen dichos documentos, para darle al lector una idea de su contenido, sin la necesidad de leerlos en su integridad.
Un sistema de búsqueda de respuestas, es un tipo particular de motor de búsqueda que permite al usuario plantear una pregunta concisa en lenguaje natural, sin obligarle a construir una consulta en un lenguaje artificial de operadores lógicos u otros, o a buscar simplemente una concatenación de palabras.
La orientación a sucesos, se refiere a acciones, hechos o actividades que transcurren en un tiempo y lugar específicos. Pocas veces los sucesos son algo aislado, sino que su complejidad de detalles y matices aumenta proporcionalmente al número de documentos que tratan del mismo, hasta el punto de generar nuevos sucesos relacionados con lo original. Nuestros sistemas de extracción de información tomarán el suceso como foco principal a detectar y tratar.

Todos los desarrollos del presente proyecto se realizarán con un carácter multireferencia (múltiples fuentes y documentos relacionados) y multilingüe (los documentos pueden estar en diferentes idiomas, euskera y español en nuestro caso).

Las fuentes de información a tratar serán principalmente noticias y artículos de prensa, que provendrán de fuentes diversas de prensa escrita, en euskera y español. El corpus de referencia constará de 6 meses de 5 periódicos, con un total aproximado de 15 millones de palabras.

A nivel de usuario, los prototipos finales se aplicarán a la elaboración de revistas de prensa y boletines distribuidos, así como a la ayuda y asistencia para la confección de los mismos.

Las herramientas desarrolladas podrán ser utilizadas en cualquier empresa que precise hacer una Vigilancia Tecnológica, ya que cubren las fases de búsqueda, filtrado, clasificación y análisis de información, necesarias para dicha tarea.

La información utilizada para la generación de los boletines se podrá consultar de forma externa, mediante un acceso web, empleando el sistema de búsqueda de respuestas, para facilitar la consulta ágil a toda la documentación tratada.

En el proyecto se usarán y combinarán tecnologías de diferentes campos de investigación:

Procesamiento de Lenguaje Natural (PLN). Detección y estructuración de toda la información lingüística de los textos: morfológica, léxica, sintáctica, discursiva.
Recuperación de Información (RI). Recuperación de una serie de documentos a partir de una consulta del usuario, generalmente una o varias palabras. El sistema comprueba si esas palabras existen en los documentos de la base, y devuelve una lista, generalmente ordenada en función de la relevancia.
Extracción de Información (EI). Además de recuperar los documentos relevantes a una consulta, también se extraen de ellos los datos o pasajes relevantes.
Detección y Seguimiento de Sucesos (TDT). Análisis de grandes conjuntos de noticias, para detectar y hacer el seguimiento de los sucesos que se citan.
Sistemas de Búsqueda de Respuestas (BR). Permite al usuario plantear una pregunta concisa, cuya respuesta también ha de ser lo más concreta y breve posible.

Proyecto financiado parcialmente por el Departamento de Industria, Comercio y Turismo del Gobierno Vasco, ayuda cofinanciada por el FEDER