euskaraespañol

Imagen del día

Premio internacional al trabajo sobre Latxa del centro HiTZ, aumentando el peso del euskera en la investigación

  • Noticias

Fecha de primera publicación: 01/10/2024

Julen Etxaniz, investigador de HiTZ, recogiendo el galardón | Foto: UPV/EHU

Association for Computational Linguistics es la principal asociación científica sobre tecnología del lenguaje. Su congreso anual es el foro científico de publicación principal y más prestigioso en la materia. En la edición de este año ha premiado el artículo sobre el modelo lingüístico Latxa, creado por HiTZ, Centro Vasco de Tecnología del Lenguaje de la Universidad del País Vasco (UPV/EHU). En el mismo congreso, una presentación ha mencionado el peso que tiene el euskera en la investigación, ya que en más de 1.200 artículos hacen referencia a experimentos realizados sobre el euskera.

El congreso organizado por la Association for Computational Linguistics en Bangkok, ha recibido más de 4.400 artículos, y el comité científico de más de 5.000 revisores sólo ha aprobado 940.  Siendo el centro de publicación más prestigioso, sólo se publican artículos de la mejor calidad. Entre los autores se encuentran investigadoras e investigadores de las principales universidades, centros de investigación y empresas como Microsoft, Meta y Apple, entre otras. De los trabajos de investigación aprobados, 14 artículos, han sido seleccionados para los premios, entre ellos el referente al modelo de lenguaje Latxa. La entrega de premios se realizó ante las 4.000 personas investigadoras que se han acercado al congreso.

Un modelo de lenguaje de gran tamaño, LLM en inglés, es un modelo de inteligencia artificial que utiliza técnicas de aprendizaje automático para la comprensión y producción del lenguaje humano, basado en el conocimiento generado a partir de conjuntos masivos de datos. Desarrollada por el centro HiTZ de la UPV/EHU, Latxa es una familia de modelos lingüísticos para el euskera y se distribuye con el mayor corpus de textos de licencia libre y varios bancos de pruebas sobre competencia lingüística, comprensión lectora, cultura general y exámenes profesionales. Latxa supera la versión original ChatGPT (ahora conocida como GPT 3.5) lanzada hace dos años y, por primera vez para un modelo abierto de una lengua con escasos recursos digitales, supera a GPT-4 en competencia lingüística. En el artículo científico que describe Latxa, se describe cómo se han agrupado los corpus, cómo se ha entrenado el modelo, así como la construcción de conjuntos de datos para la evaluación.

Julen Etxaniz es uno de los autores principales, junto a Naiara Pérez y Oscar Sainz, y ha estado en Bangkok presentando el trabajo y recogiendo el premio. Julen Etxaniz ha comentado lo siguiente: “En la entrega del premio se ha subrayado que Latxa va más allá de los modelos, ya que plantea una metodología y un entorno experimental que puede extenderse a otras lenguas de pocos recursos, siguiendo la línea de la ciencia abierta”. Oscar Sainz ha destacado que: "Entre los premiados se encontraban las universidades y centros de investigación más prestigiosos, y el hecho de que entre ellas se mencione a nuestra universidad produce una emoción especial." Naiara Pérez ha añadido: “Según la cantidad de textos en Internet, el euskera ocupa el puesto 50 entre las lenguas del mundo. Por eso las técnicas aplicadas al euskera también son aplicables a muchos otros idiomas de similar dimensión, y la infraestructura que hemos creado junto con Latxa permite a las personas investigadoras explorar mejores técnicas, en beneficio de todos esos idiomas."

Importancia de que los datos y recursos de investigación estén en euskera

En el propio Congreso se ha mencionado que no todas las lenguas reciben la misma atención por parte de las personas investigadoras. La mayoría de los experimentos se realizan en las lenguas predominantes, pero al mismo tiempo hay otras lenguas que reciben menos atención, sobre todo cuando  el número o nivel económico de lo hablantes es pequeño. En una intervención de la empresa Cohere, se ha destacado el impacto negativo que esto puede tener en la tecnología que se comercializa para estos idiomas. Hay excepciones, entre las que se ha citado el caso del euskera. A pesar de que el inglés es el idioma más utilizado en los experimentos de artículos científicos, algunas lenguas de pocos hablantes destacan notablemente, entre ellas el euskera, ya que es empleada por más de 1.200 artículos en sus experimentos. Eneko Agirre, director del centro HiTZ de la UPV/EHU, es también uno de los autores del artículo y destaca la importancia de dicho uso: "Los datos abiertos de corpus y evaluación distribuidos en torno a Latxa darán un nuevo impulso al prestigio y a la difusión del euskera, así como a la investigación relacionada con esta lengua. Gracias a ello esperamos que los resultados que las personas investigadoras foráneas y locales obtengan para el euskera vayan mejorando."

Información complementaria

Los artículos, modelos, corpus y bancos de prueba están disponibles en https://github.com/hitz-zentroa/latxa. Los modelos Latxa heredan el denominado Llama-2 License, permitiendo la actividad investigadora y comercial.  

Latxa ha sido desarrollado en el marco del proyecto IKER-GAITU financiado por el Gobierno Vasco. También ha sido financiado por el Ministerio para la Transformación Digital y la Función Pública y el Plan de Recuperación, Transformación y Resiliencia, asi como por NextGenerationEU de la Unión Europea, en colaboración con el proyecto ILENIA, con referencia 2022/TL22/00215335. HiTZ ha utilizado su propia infraestructura de computación de alto rendimiento (HPC) y los últimos modelos han sido entrenados en el superordenador Leonardo de CINECA, dentro del EuroHPC Joint Undertaking (proyecto EHPC-EXT-2023E01-013).


También te puede interesar