euskaraespañol

El centro HiTZ mejora Latxa, el mayor modelo de lenguaje para el euskera, y ya supera al ChatGPT original

  • Noticias

Fecha de primera publicación: 29/04/2024

Latxa, desarrollada por HiTZ, Centro Vasco de Tecnología del Lenguaje de la UPV/EHU, es una familia de modelos de lenguaje para el euskera y se distribuye con el mayor corpus de textos de licencia libre, que dobla en tamaño a sus predecesores, y varios bancos de prueba sobre competencia lingüística, comprensión lectora, cultura general y exámenes profesionales. Latxa supera a la versión de ChatGPT original lanzado hace un año (ahora conocido como GPT 3.5), y por primera vez para un modelo abierto de un idioma de pocos recursos digitales, supera la última versión (GPT-4) en competencia lingüística. El director del centro HiTZ Eneko Agirre recalca que “cuando salió ChatGPT era inimaginable que se pudiera conseguir un modelo abierto que lo superara en euskera”. Latxa incluye el mayor modelo entrenado para cualquier idioma en el país y refuerza el liderazgo del centro de investigación HiTZ en los modelos de lenguaje de gran tamaño.

Un modelo de lenguaje de gran tamaño, LLM en sus siglas en inglés, es un tipo de modelo de inteligencia artificial que emplea técnicas de aprendizaje automático para comprender y generar lenguaje humano, basándose en el conocimiento obtenido de conjuntos de datos masivos. El euskera cuenta ya con su gran modelo de lenguaje: Latxa. Está basado en los modelos Llama de Meta y reúnen entre 7 y 70 mil millones de parámetros. Los LLMs de hoy en día tienen un impresionante rendimiento en idiomas con muchos recursos; por ejemplo, ChatGPT o Gemini en inglés o castellano. Pero en el caso del euskera y otros idiomas con pocos recursos digitales, su rendimiento es bastante inferior. Este hecho aumenta la brecha tecnológica entre idiomas con muchos y con pocos recursos, al menos en cuanto a herramientas digitales. HiTZ, Centro Vasco de Tecnología del Lenguaje de la UPV/EHU ha desarrollado Latxa con el objetivo de superar esos límites y fomentar el desarrollo de investigaciones, innovaciones y productos que funcionan en euskera.

La nueva versión de Latxa ha sido entrenada sobre el mayor corpus público eneuskera, que también se distribuye junto con los modelos. Este corpus extiende el ya existente EusCrawl con otros corpus construidos en su mayoría sobre contenido público en Internet. En total son más de 4 millones de documentos y 1200 millones de palabras, doblando en tamaño a los corpus existentes hasta el momento.

Con el fin de evaluar la calidad de los modelos, se han construido varios bancos de prueba sobre competencia lingüística, comprensión lectora, cultura general y exámenes profesionales. En el gráfico se muestra el rendimiento de los diferentes modelos por cada tipo de prueba y en la parte derecha se puede ver el promedio de los resultados. Eneko Agirre, director del centro HiTZ, explica que “hemos probado los modelos Llama del inglés, así como GPT-3.5 Turbo (equivalente al ChatGPT lanzado en noviembre de 2022) y GPT-4 Turbo (el mejor modelo que tiene OpenAI) y se ve claramente que el mejor modelo Latxa supera a los Llama y a GPT-3.5 Turbo en todos los casos de prueba. El mejor modelo también supera GPT-4 Turbo en competencia lingüística, por primera vez para un modelo abierto de idiomas con pocos recursos digitales, pero no en el resto de bancos de prueba. Por último, es de subrayar que a medida que Latxa va creciendo de tamaño, los resultados también mejoran”.

Latxa

Julen Etxaniz, uno de los tres autores principales de Latxa junto con Naiara Pérez y Oscar Sainz, comenta que “es notable que hayamos conseguido resultados tan buenos con un corpus relativamente tan pequeño, porque abre la puerta a más mejoras según investiguemos en nuevas técnicas. Es un resultado muy prometedor, no solamente para el euskera sino para el resto de lenguas con pocos recursos digitales”. Naiara Pérez añade que “el euskera se encuentra en la posición 50 entre los idiomas del mundo según la cantidad de texto en Internet, y hay decenas de otras lenguas que tienen cantidades similares de texto, con lo que las técnicas aplicadas al euskera pueden también aplicarse a esos idiomas con resultados previsiblemente similares”.

Oscar Sainz subraya que “se ha superado a GPT-4 Turbo en competencia lingüística pero no en el resto de pruebas, lo que sugiere que las capacidades de los modelos de lenguaje de gran tamaño en un idioma dado no están determinadas solamente por su capacidad lingüística. Esto abre la puerta a mejorar los resultados en idiomas con pocos recursos digitales como el euskera, según se desarrollen mejores modelos abiertos para el inglés. Con la creciente competencia en esta área, bastaría con esperar a modelos abiertos mejores que Llama y entonces podríamos entrenar un Latxa que supere a GPT-4”.

Los modelos de Latxa son modelos básicos que no se han afinado en cuanto a instrucciones o preferencias dirigidas al usuario. Por lo tanto, estos modelos no están pensados para que el público general los utilice directamente. De todos modos, los modelos Latxa son esenciales para construir herramientas exitosas que utilicen tecnología lingüística para el euskera. “Publicamos estos modelos abiertos, para que el personal técnico experto los utilice para desarrollar productos o para que ajuste el modelo a las aplicaciones que le interesen. En paralelo trabajamos en modelos capaces de seguir las instrucciones de las personas usuarias, pero todavía no está claro que sea posible construir modelos conversacionales en euskera con una calidad similar al castellano o al inglés. Ese es, precisamente, el objetivo de nuestras investigaciones. Estamos trabajando en varias direcciones, incluyendo la investigación en técnicas que permitan transferir las capacidades conversacionales ya existentes para otros idiomas al euskera”, explica Eneko Agirre, que también subraya que “el modelo de 70B es el mayor entrenado para cualquier idioma en el Estado y refuerza el liderazgo del centro de investigación HiTZ en los modelos de lenguaje de gran tamaño.”

Información complementaria

El artículo científico bajo revisión, los modelos, corpus y bancos de prueba se pueden obtener en: https://github.com/hitz-zentroa/latxa. Los modelos Latxa heredan el llamado Llama-2 License, que permite la investigación y la actividad comercial.  

Latxa se ha desarrollado en el marco del proyecto IKER-GAITU financiado por el Gobierno Vasco, en colaboración con el proyecto ILENIA financiado por el Ministerio para la Transformación Digital y de la Función Pública y por el Plan de Recuperación, Transformación y Resiliencia – Financiado por la Unión Europea – NextGenerationEU, dentro del proyecto con referencia 2022/TL22/00215335. HiTZ ha usado su propia infraestructura de cómputo de alto rendimiento (HPC), y los modelos finales se han entrenado en el superordenador Leonardo de CINECA, dentro del EuroHPC Joint Undertaking (proyecto financiado EHPC-EXT-2023E01-013).