Zein da euskarazko hizkuntza eredurik onena? HiTZ zentroak Latxa berria eta GPT bezalakoak lehian jarri ditu
- Kronika
Lehenengo argitaratze data: 2024/11/18
HiTZ zentroa Latxa hizkuntza-eredua hobetzen dihardu, eta aldi berean hizkuntza-ereduen kalitatea neurtzeko bide berriak irekitzen. Duela gutxi Donostian ospatutako Informatikari Euskaldunen Bilkuran bertaratutakoek kalitate neurketa horretan parte hartzeko aukera izan zuten. Ariketa horretan, Latxa berria sistema komertzial hoberenen kontra lehiatu zen, eta ia GPT-4o delakoaren pare gelditu zen. Inoiz egindako lehen ariketa honen arabera euskarako sistema onena Anthropic enpresako Claude Sonnet 3.5 da.
Hizkuntza-ereduen garapenak aurrerapauso nabariak egin ditu azken urteotan. Gaur egun, ChatGPT edo antzeko elkarrizketarako “txat” hizkuntza-ereduek erabiltzaileen galderei erantzuteko eta eduki berriak sortzeko gaitasun aurreratuak dituzte. Horrek, ordea, ebaluazio moduak berrikusteko beharra sortu du. Izan ere, ebaluaziorako datu-multzo estatikoak ez dira jada nahikoa, sistema ahaltsu horien gaitasunak azaleratu eta neurtzeko. Horren ordez, erabiltzaileen iritzia kontuan hartzen duten binakako konparaketak erabiltzen dira.
Metodo horretan, erabiltzaileak eskaera bat egiten dio sistemari, eta honek bi eredu ezberdinen erantzunak ematen dizkio bata bestearen ondoan, erabiltzaileak erantzunen artean onena aukeratu dezan. Alborapenak ekiditeko, erabiltzailearen bozka itsua da, hau da, erabiltzaileak ez daki zein bi eredu ari den epaitzen. Prozesu hori nahikoa aldiz errepikatutakoan, xakean erabiltzen den ELO ebaluazio-sistema erabil daiteke lehiatu diren hizkuntza-ereduen sailkapena osatzeko: ereduak hasierako puntuazio arbitrario batetik abiatzen dira (adibidez, 1.000 puntu bakoitzak), eta partidak irabazi, galdu edo berdindu ahala puntuazioa aldatuz joango da, aurkarien puntuazioaren arabera. Naiara Perez HiTZeko ikertzaileak dioenez “Ebaluazio mota honi arena deritzo, hizkuntza-ereduak elkarrekin lehiatzen direlako, eta txat sistemak eszenatoki errealistago eta praktikoago batean ebaluatzea ahalbidetzen du. Zentzu horretan ohikoa bihurtu da enpresa beraiek eredu hoberenak Ingeleserako Chatbot Arena delakoan leihatzera bidaltzea”.
Euskarazko arena baten lehen saioa antolatu zuen UPV/EHUko HiTZ Hizkuntza Teknologiaren Zentroak duela gutxi Donostian ospatutako Informatikari Euskaldunen Bilkuran. Bertaratutakoen partehartzeari esker euskarazko txat hizkuntza-eredurik onena zein den argitzeko lehen ariketa izan zen. Bertan, HiTZek garatutako Latxaren bertsio berria sistema komertzial onenen kontra lehiatu zen.
HiTZek duela urtebete kaleratu zuen Latxa oinarrizko hizkuntza-eredua. Lan horregatik artikulu onenaren sarietako bat jaso zuen 2024ko ACL kongresuan, hizkuntzaren prozesamenduaren arloko kongresurik entzutetsuenean. HiTZeko zuzendari Eneko Agirrek dioenez “Geroztik, ikertzaileak bi ildo nagusitan aritu dira lanean Latxa hobetzen. Batetik, oinarri hobeagoa eduki dezan, euskarazko testu corpusetan lan egiten jarraitu dute. Bestetik, pertsonekin aritzeko gaitasuna eman diote, ChatGPT eta antzeko sistemek bezala pertsonen eskaerei erantzun ahal izateko. Lan horrek enpresa handietan milioika dolarretako inbertsioa suposatzen du, eta HiTZ hasi besterik ez da egin. Jadanik, prest daukagu 8 mila milioi parametroko bertsio bat, Metak garatutako Llama 3.1 hizkuntza-ereduan oinarritzen dena.”
Informatikari Euskaldunen Bilkuran antolatutako arenan Latxa berriaz gain beste bost eredu lehiatu ziren. Oscar Sainz HiTZeko ikerlariak dioenez “Latxa baino askoz handiagoak diren hiru eredu komertzial onenak aukeratu genituen: OpenAIren GPT 4o, Anthropicen Claude Sonnet 3.5 eta Cohere-ren Command R+ 105 mila milioi parametrokoa. Horietaz aparte, Latxa berriaren tamainaren pareko bi ere lehiatu ziren, Google-en Gemini Flash 1.5 eta Metaren Llama 3.1, azken hau Latxa berriaren oinarria dena”.
Ezustekoak: Claude GPT4o baino hobea eta Latxa berria ia GPT 4o-ren pare
Denera 335 bozka jaso ziren, eta horien arabera, Claude Sonnet 3.5 sistema komertziala da momentu honetan euskaraz hobekien dabilena. Bigarren GPT 4o sistema komertziala letorke eta, ia parean, Latxa berria. Horren ondotik koska bat beherago geratu da Gemini Flash 1.5, eta askoz beherago Command R+ eta Llama 3.1 originala. Tamaina bera duten sistemen artean Latxa atera da garaile. Naiara Perezek dioenez hau lehenbiziko proba izanda, etorkizunean arena ariketa gehiago antolatuko dira, bozka gehiago jaso eta ondorio sendoagoak ateratzeko.
Ezustekoa izan da ere Latxa berri txikia hain gertu egotea GPT 4o-tik, lehen saioa baitzen. Izan ere HiTZ Latxa handitu eta hobetzeko lanean ari da. Eneko Agirrek dioenez “Hau Latxa berriaren lehen prototipoa izan da, txikiena, eta asko dugu hobetzeko. Joan den urteko esperimentuetan Latxa handienak tarte handia atera zion Latxa txikienari, eta hortaz Latxa berri handia ere askoz hobea izatea espero dugu. Horretaz gain, euskal erabiltzaileen intereseko erabilera kasuak ari gara jasotzen, eta horiekin Latxaren txat gaitasunak are gehiago hobetuko dira”. Latxa eredu berria ondu eta laster egongo da enpresa, teknologia-zentro eta garatzaileen esku.
Informazio osagarria
Latxa Eusko Jaurlaritzak finantzatutako IKER-GAITU proiektuaren esparruan garatu da. Eraldaketa Digitalerako eta Funtzio Publikorako Ministerioak eta Suspertze, Eraldatze eta Erresilientzia Planak, Europar Batasuneko NextGenerationEUk ere finantzatu du, ILENIA proiektuarekin lankidetzan, 2022/TL22/00215335 erreferentzia duena. HiTZek errendimendu handiko konputazio azpiegitura (HPC) propioa erabili du, eta azken ereduak CINECAren Leonardo superordenagailuan entrenatu dira, EuroHPC Joint Undertaking barruan (EHPC-EXT-2023E01-013 proiektua).