NOR GAREN
 
JARDUERA
 
PROIEKTUAK
 
TALDEKO ENPRESAK
 
 
 

 
Ikerketa proiektuak
Beste zentru teknologikoekiko lankidetza
KAPSULA 2000: Eduki dokumentalen eskuratzea, lengoaia naturalean oinarrituta
 
ACOTE: Itzulpenari laguntza, hizkuntz teknikekin uztartuta
 
AMETRA: Itzulpenari laguntza, itzulpen memorietan oinarrituta
 
JAZOHARI: Informazioaren eta erantzunen erauzketa, gertakariei zuzenduta
 
MULCOR: Adquisición de conocimiento multilingüe a partir de corpus.
 
DICCICOR: Diccionarios combinatorios y de frecuencias basados en corpus.
 
OLITE: Ordenagailuz Lagundutako Itzulpen Tresna Eleaniztuna.

DICCICOR: Diccionarios combinatorios y de frecuencias basados en corpus

En este proyecto participan una empresa además del centro tecnológico.

Años de actividad: 2012-2012

Objetivos:

El proyecto tiene por objeto el desarrollo de un servicio SaaS de diccionarios combinatorios basados en frecuencias y extraídos a partir de corpus.

La motivación principal del proyecto es ofrecer útiles que permitan un aumento de la calidad del uso lingüístico en tres ámbitos muy definidos: redacción de textos, traducción y enseñanza de la lengua.

Partiendo de nuestra dilatada experiencia en la lingüística de corpus y en la generación asistida de contenidos lexicográficos, nos proponemos desarrollar una herramienta que cumpla con los siguientes requisitos:

  • Se plantea como una plataforma de servicios SaaS (Software as a Service), con la ventaja de falta de inversiones que acarrea para el cliente, además de su casi nulo impacto negativo en el medio ambiente.
  • El idioma cuya calidad de uso se pretende ayudar a mejorar será el euskera. Sin embargo, la tecnología desarrollada será aplicable a otras lenguas o pares de lenguas.
  • Estará compuesto por dos módulos de consulta: uno bilingüe (español¿euskera), y otro monolingüe (euskera).
  • Se basará en corpus, no solo en cuanto a la masa textual de referencia a procesar, sino también en lo que respecta a la adaptación y reusabilidad de los diccionarios estándares disponibles. Constará, por lo tanto de corpus textuales y lexicográficos.
  • La respuesta a las consultas serán paradigmas combinatorios que hibridarán los candidatos proporcionados por las frecuencias de coaparición en el corpus, así como por su aparición en las propuestas lexicográficas disponibles en los diccionarios.
  • La propuesta presenta un alto valor tecnológico, ya que combina cómputos de frecuencias, procesamiento avanzado del lenguaje natural y reutilización de recursos textuales disponibles.

LEXICOGRAFÍA COMBINATORIA

El ámbito tecnológico del proyecto es la lexicografía combinatoria, que trata de las construcciones lingüísticas que combinan las palabras o lemas de una manera tal que el resultado supone a su vez una unidad léxica, semántica y pragmática. Son consideradas como básicas para el correcto uso del idioma. Podemos diferenciar tres grandes tipos de combinaciones lexicográficas:

a) Expresiones idiomáticas (locuciones y modismos)

Se pueden definir como expresiones formalmente complejas, donde su significado no resulta de la suma o combinación de los significados de cada uno de sus elementos. Ejemplos de locuciones pueden ser «andarse por las ramas» o «tirar la toalla», y de modismos «a troche y moche» o «mondo y lirondo».

b) Colocaciones

Se pueden definir como conjuntos de palabras cuya construcción no se considera libre, sino que está fijada por el uso de la lengua y la habilidad lingüística de los hablantes. Por ejemplo, se dice «estallar una guerra» y no «explotar una guerra», a pesar de que «estallar» y «explotar» son sinónimos. Otro ejemplo distinto sería «conciliar el sueño», ya que se podría esperar que «conciliar la siesta» debería ser también correcto. Se suele decir que la principal diferencia entre un hablante nativo de una lengua respecto al que no lo es, estriba en el uso de las colocaciones lingüísticas. Así, estos últimos pueden utilizar expresiones del tipo «tráfico continuado» o «perpretar una tarea», hipótesis poco imaginable en un hablante nativo.

La principal diferencia entre colocaciones y locuciones es que, en las colocaciones, uno de sus elementos no puede ser libremente elegido, mientras en las locuciones todos sus elementos poseen dicha característica.

c) Restricciones léxicas

Las posibilidades de combinación entre los lemas es prácticamente infinita pero desde el punto de vista semántico no es absolutamente libre. Difícilmente se podrán encontrar ejemplos como «puente bondadoso» o «disolvió la obediencia». Los diferentes lemas (ya sean sustantivos, adjetivos o verbos) tienden a combinarse con otros concretos de una forma inequívoca. Dicha característica es muchísimo más acentuada en los lemas que se combinan con otros de una forma extensiva o figurada. Por ejemplo, el verbo «acariciar», en su uso normal, puede relacionarse con «gato», «niño», etc., pero en su uso figurado puede aparecer junto a «proyecto», «éxito», etc. Estas últimas son mucho más restrictivas respecto a la combinatoria, y son las que más interés tienen en el aprendizaje de una lengua o en su uso correcto.

La diferencia entre colocaciones y combinaciones léxicas es mucho más difusa, pero se podría decir que las colocaciones se enmarcan más en el ámbito de la fraseología, mientras las combinaciones corresponden más a la lexicografía en general.

Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Sailak zatiz finantziatutako proiektua, FEDER