JAZOHARI:
Sistema de extracción de información y respuestas orientado a sucesos
En este proyecto participan dos empresas
además del centro tecnológico.
Años
de actividad:
2006-2008
Objetivos:
-
Documentación (PDF)
El proyecto JAZOHARI tiene por objetivo la creación de un sistema computacional desatendido de resúmenes y esquemas automáticos y de búsqueda de respuestas, que facilite el acceso y aprovechamiento óptimo de grandes volúmenes de información textual. El sistema estará principalmente orientado a sucesos.
-
Los resúmenes y esquemas automáticos se refieren a la presentación abreviada y desasistida de la información relevante filtrada a partir de una serie de documentos, generando un informe corto de todo lo importante que dicen dichos documentos, para darle al lector una idea de su contenido, sin la necesidad de leerlos en su integridad.
-
Un sistema de búsqueda de respuestas, es un tipo particular de motor de búsqueda que permite al usuario plantear una pregunta concisa en lenguaje natural, sin obligarle a construir una consulta en un lenguaje artificial de operadores lógicos u otros, o a buscar simplemente una concatenación de palabras.
-
La orientación a sucesos, se refiere a acciones, hechos o actividades que transcurren en un tiempo y lugar específicos. Pocas veces los sucesos son algo aislado, sino que su complejidad de detalles y matices aumenta proporcionalmente al número de documentos que tratan del mismo, hasta el punto de generar nuevos sucesos relacionados con lo original. Nuestros sistemas de extracción de información tomarán el suceso como foco principal a detectar y tratar.
Todos los desarrollos del presente proyecto se realizarán con un carácter multireferencia (múltiples fuentes y documentos relacionados) y multilingüe (los documentos pueden estar en diferentes idiomas, euskera y español en nuestro caso).
Las fuentes de información a tratar serán principalmente noticias y artículos de prensa, que provendrán de fuentes diversas de prensa escrita, en euskera y español. El corpus de referencia constará de 6 meses de 5 periódicos, con un total aproximado de 15 millones de palabras.
A nivel de usuario, los prototipos finales se aplicarán a la elaboración de revistas de prensa y boletines distribuidos, así como a la ayuda y asistencia para la confección de los mismos.
Las herramientas desarrolladas podrán ser utilizadas en cualquier empresa que precise hacer una Vigilancia Tecnológica, ya que cubren las fases de búsqueda, filtrado, clasificación y análisis de información, necesarias para dicha tarea.
La información utilizada para la generación de los boletines se podrá consultar de forma externa, mediante un acceso web, empleando el sistema de búsqueda de respuestas, para facilitar la consulta ágil a toda la documentación tratada.
En el proyecto se usarán y combinarán tecnologías de diferentes campos de investigación:
-
Procesamiento de Lenguaje Natural (PLN). Detección y estructuración de toda la
información lingüística de los textos: morfológica, léxica, sintáctica,
discursiva.
-
Recuperación de Información (RI). Recuperación de una serie de documentos a partir de una consulta del usuario, generalmente una o varias palabras. El sistema comprueba si esas palabras existen en los documentos de la base, y devuelve una lista, generalmente ordenada en función de la relevancia.
-
Extracción de Información (EI). Además de recuperar los documentos relevantes a una consulta, también se extraen de ellos los datos o pasajes relevantes.
-
Detección y Seguimiento de Sucesos (TDT). Análisis de grandes conjuntos de noticias, para detectar y hacer el seguimiento de los sucesos que se citan.
-
Sistemas de Búsqueda de Respuestas (BR). Permite al usuario plantear una pregunta concisa, cuya respuesta también ha de ser lo más concreta y breve posible.
|