¿Cuál es el mejor modelo de lenguaje en euskera? El centro HiTZ confronta la nueva Latxa con otros como GPT
- Crónica
Fecha de primera publicación: 18/11/2024
El centro HiTZ trabaja en la mejora del modelo de lenguaje Latxa, al tiempo que abre nuevas vías para medir la calidad de los modelos lingüísticos. Las personas que asistieron al Encuentro de Informáticos Vascos celebrado recientemente en Donostia / San Sebastián tuvieron la oportunidad de participar en esta competición de calidad. En este ejercicio, la nueva Latxa compitió contra los mejores sistemas comerciales, quedando casi igual a la GPT-4o. Según esta primera comparación nunca antes realizada, el mejor sistema de euskera es el Claude Sonnet 3.5 de la empresa Anthropic.
El desarrollo de los modelos de lenguaje ha avanzado notablemente en los últimos años. En la actualidad, modelos lingüísticos de "chat" para diálogo como ChatGPT tienen avanzadas capacidades para responder a las preguntas de usuarios y usuarias, generando nuevos contenidos. Ello ha generado, sin embargo, la necesidad de revisar las formas de evaluación. De hecho, ya no son suficientes los conjuntos estáticos de datos para la evaluación, si se desea revelar y medir las capacidades de estos poderosos sistemas. En su lugar, se utilizan comparaciones por parejas que tienen en cuenta la opinión de usuarios y usuarias.
En este método, se le realiza una petición al sistema que da respuestas de dos modelos diferentes uno al lado del otro para que la persona usuaria elija la mejor de las respuestas. Para evitar sesgos, el voto de esta es ciego, es decir, la persona usuaria no sabe qué dos modelos está juzgando. Tras repetir este proceso cuanto sea necesario, se puede utilizar el sistema de evaluación ELO, utilizado en ajedrez, para completar la clasificación de los modelos lingüísticos con los que han competido: los modelos parten de una puntuación inicial arbitraria (por ejemplo, 1.000 puntos cada uno), que irá variando según ganen, pierdan o empaten las partidas, dependiendo de la puntuación de los rivales. Naiara Pérez, investigadora de HiTZ, señala que “este tipo de evaluación se llama arena, porque los modelos lingüísticos compiten entre sí y permite evaluar los sistemas de chat en un escenario más realista y práctico. En este sentido, se ha hecho habitual que las mismas empresas sean las que envíen los mejores modelos para inglés a la ventana del Chatbot Arena”.
Fue el Centro de Tecnología de la Lengua HiTZ de la UPV/EHU la que organizó por primera vez una sesión de arena en euskera dentro del Encuentro de Informáticos Vascos celebrado recientemente en Donostia. Gracias a la participación de las personas asistentes, se llevó a cabo el primer ejercicio para clarificar cuál es el mejor modelo lingüístico de chat en euskera. Allí, la nueva versión de Latxa desarrollada por HiTZ compitió contra los mejores sistemas comerciales.
HiTZ lanzó hace un año el modelo básico de lenguaje Latxa. Por este trabajo recibió uno de los premios al mejor artículo en el congreso ACL de 2024, el congreso más prestigioso en materia de procesamiento lingüístico. Eneko Agirre, director de HiTZ, señala que "desde entonces, se ha trabajado en dos líneas de investigación fundamentales en la mejora de Latxa. Por un lado, se sigue trabajando en corpus de textos en euskera para obtener una mejor base. Por otro lado, la han capacitado para interactuar con personas, al igual que sistemas como ChatGPT, para responder a las demandas de las personas. Ese trabajo supone una inversión de millones de dólares en grandes empresas e HiTZ no ha hecho más que empezar. Tenemos ya preparada una versión de 8 mil millones de parámetros, basada en el modelo lingüístico Llama 3.1 desarrollado por Meta."
Además de la nueva Latxa otros cinco modelos compitieron en la arena organizada en el Congreso de Informáticos Vascos. Oscar Sainz, investigador de HiTZ, señala que "elegimos los tres mejores modelos comerciales, mucho más grandes que Latxa: el GPT 4o de OpenAI, el Claude Sonnet 3.5 de Anthropic y el Command R+ de Cohere, de 105 mil millones de parámetros. Además de estos, también compitieron otros dos, similares en tamaño a la nueva Latxa, Gemini Flash 1.5 de Google y Llama 3.1 de Meta, base de la nueva Latxa".
Sorpresas: Claude mejor que GPT4o y la nueva Latxa a la par de GPT 4o
En total, se recibieron 335 votos, según los cuales el sistema comercial Claude Sonnet 3.5 es el que, en estos momentos, mejor funciona en euskera. El segundo sistema comercial GPT 4o y, casi a la par, el nuevo Latxa. A continuación, Gemini Flash 1.5 quedó un escalón por debajo y, mucho más atrás, Command R+ y el original Llama 3.1. Latxa ha salido victoriosa entre los sistemas de igual tamaño. Naiara Pérez dice que, teniendo en cuenta que ésta ha sido la primera prueba, en el futuro se organizarán más ejercicios de arena, recopilando más votos y conclusiones más profundas.
También ha sido sorpresa que la pequeña nueva Latxa estuviera tan cerca del GPT 4o, tratándose de la primera sesión. De hecho, HiTZ está trabajando en la ampliación y mejora de Latxa. Eneko Agirre afirma que "Éste ha sido el primer prototipo de la nueva Latxa, el más pequeño, y tenemos mucho que mejorar. En los experimentos del año pasado la Latxa más grande le sacó mucho margen a la más pequeña y, por ello, esperamos que la nueva Latxa también sea mucho mejor. Además, estamos recogiendo casos interesantes de uso para usuarios y usuarias vascas con los que mejoren aún más las capacidades de chat de Latxa". El nuevo modelo de Latxa madurará y pronto estará en manos de empresas, centros tecnológicos y desarrolladores.
Información complementaria
Latxa se ha desarrollado en el marco del proyecto IKER-GAITU, financiado por el Gobierno Vasco. El Ministerio para la Transformación Digital y la Función Pública y el Plan de Reactivación, Transformación y Resiliencia, también ha sido financiado por NextGenerationEU de la Unión Europea, en colaboración con el proyecto ILENIA, con referencia 2022/TL22/00215335. HiTZ ha utilizado su propia infraestructura de computación de alto rendimiento (HPC) y los últimos modelos han sido entrenados en el superordenador Leonardo de CINECA, dentro del EuroHPC Joint Undertaking (proyecto EHPC-EXT-2023E01-013).