Eneko Agirre
Hizkuntza-ereduak, ikerkuntza eta euskararen etorkizuna
Irakasle Osoa eta HiTZ Hizkuntza Teknologiako Euskal Zentroaren zuzendaria
- Cathedra
First publication date: 13/10/2022
“Inventen, pues, ellos y nosotros nos aprovecharemos de sus invenciones. Pues confío y espero en que estarás convencido, como yo lo estoy, de que la luz eléctrica alumbra aquí tan bien como allí donde se inventó”. Miguel Unamuno [1]
“Si no ponemos en alto lugar en la lista de nuestras prioridades la Ciencia y la Tecnología, no seremos protagonistas de nuestro futuro. Nos vendrá dado desde fuera”. Pedro Miguel Etxenike [2]
Adimen artifiziala darabilten gailuak iritsi dira, eta, zalantzarik gabe ugaritzen joango dira. Tentuz ibili beharra dago, erabilera egokiak bultzatu eta bestelakoak ekidin, teknologia disruptibo guztiak bezala. Hizkuntzaren teknologiaren kasuan, ohitzen hasita gaude gailuei ahotsez aginduak eman edo galderak egiten, edo itzulpen automatikoa erabiltzen. Erakundeetan hizkuntzaren teknologia erabiltzen duten langileak ugaritzen ari dira, informazioa hobeto kudeatzeko, hau da, galderen erantzunak zuzenean emateko, laburpenak egiteko edo testuetatik informazioa erauzteko. Azken hilabeteetan ere ikusi dugu, oraingoz prototipo bezala, pertsonek egindakoak diruditen testu, irudi edo bideoak automatikoki nola sortu. Sormena erabiltzen den alorretan ohikoa izango da laster halakoak erabiltzea tresna lagungarri bezala. Hizkuntzarako asmatu diren teknika asko beste alorretan ere ari dira aplikatzen, eta hala sortu dira proteinak edo geneak sortu eta adierazi dituzten gailu iraultzaileak ere. Berrikuntza disruptibo guzti hauek oinarrizko ikerkuntza egiten duten laborategietatik datoz, erakunde publikoetatik edo multinazionalek finantzatutako ikerketa zentro pribatuetatik ere.
Atzerrian egiten ari diren aurrerapen horiek guztiak hemen erabil daitezke zuzenean. Adibidez, Estatu Batuetan sortu den proteina batek hemen ere balioko du, eta horretan adituak diren ikertzaileak izanez gero, hemen ere sortu ahal izango dira proteinak. Baina hizkuntzaren kasuan berezitasun bat dago: hizkuntza guztiak ezberdinak dira elkarren artean, eta ingeleserako edo gaztelerarako balio duenak ez du balio euskal hiztunentzat. Hori horrela, etorkizun hurbilean hiru eszenatoki daude. Bi kezkagarriak dira, eta bakarra da euskarari kalte ez diona egingo: Mugikorrak eta bestelako makinak euskaraz ez aritzea; Makinak euskaraz aritzea, baina inguruko hizkuntzetan baino okerrago; Eta, azkenik, euskaraz kalitate egokiaz aritzea.
Europako Batzordeak bultzatutako European Language Equality (Europako Hizkuntzen Berdintasuna) proiektuan hizkuntzen “desagertze digitala” eragozteko neurriak aztertzen ari gara. Diagnostikorako Europako hizkuntzen egoera digitala aztertu da, hizkuntzaren teknologia ardatz hartuta. Hizkuntza gehienen osasun digitala Ingelesaren egoeratik urruti dagoela ikusi da. Hiztun kopuru antzekoa duten hizkuntzak baina hobeto dago euskara, baina hala ere euskararako dagoen hizkuntza teknologiaren egoera “fragmentary” besterik ez da (lau maila posibletik bigarren okerrena) [3].
Hizkuntza-ereduak
Egungo hizkuntzaren teknologia moderno guztia hizkuntza-ereduetan oinarritzen da. Eredu hauek dira hizkuntzaren inguruko aplikazio gehienen motorra, eta testu, ahots eta irudi masa handiak dira motor horren gasolina. Ereduak gai dira hizkuntza baten barne-egitura ikasteko (bere gramatika, kasu), eta baita ere munduari buruzko ezagutza. Horretarako, testuak irakurri, ahotsak entzun eta irudiak ikustearekin nahikoa dute. Bere horretan. Hau izan da azken urteetako iraultzaren muina, hizkuntza-eredu ahaltsuak sortzea.
Enpresa handiek zabaldu izan dituzte euskararako baliagarriak diren hizkuntza-ereduak, baina, tamalez, euskarazkoen kalitatea ez da beste hizkuntzatarako dagoenaren parekoa. Gainera, enpresa hauek edozein momentutan erabaki dezakete hizkuntza-eredu berriak zabaltzeko baldintzak gogortzea, edo, zuzenean, hizkuntza-ereduak ez zabaltzea. Beharrezkoa da kalitatezko hizkuntza-ereduak hemen eraikitzea, era irekian zabaldu, erakunde zein enpresen esku utziko direnak eta urteetan zehar eguneratuko direnak.
Datuak + baliabideak + adituak
Adimen artifizialeko edozein proiektutan bezala, euskarazko hizkuntza-ereduak eraikitzeko datuak, baliabideak eta adituak behar dira. Azter ditzagun euskarazko hizkuntza-ereduak sortzeko behar direnak.
Datuak: Hizkuntzaren ereduak sortzeko testu, ahots eta irudi masa handiak behar dira, oso handiak. Adibidez telebistan azaltzera iritsi den GPT-3 eredu pribatu ospetsuak 500 mila miloi hitz irakurri ditu ingelesez, hau da, hiru miloi liburu inguru. Pertsona batek 3000 urte inguru beharko lituzke horiek irakurtzeko, lo egin gabe. Badaude testu masa “txikiagoko” ereduak ere. Adibidez publikoa den BERT deritzana oso erabilia da enpresatan, 3 mila miloi hitz irakurri dituena. Euskaraz, tamalez, ez daude hainbeste hitz ikerlarien eskura. EusCrawl, gure zentroak MetaAI-rekin batera kaleratu duen corpusak [4] 423 milioi hitz ditu.
Corpus horrekin egindako ikerkuntzatik bi lezio ikasi ditugu. Alde batetik, HiTZ eta MetaAI-ren elkarlanari esker, euskarazko hizkuntza-eredu hoberenak entrenatu ditugu, enpresa handiek bere kabuz egindakoak baino hobeak. Horregatik esaten dugu hemen eraiki behar ditugula euskarako hizkuntza-ereduak. Beste aldetik, berri txarra: hizkuntza ereduen kalitatean garrantzitsuagoa da testu kopurua kalitatea baino. Gaur egun ezagunak diren euskarazko corpus guztiak bilduta ere, hizkuntza nagusien corpusen tamainatik oso urruti gaude, eta horrek euskarazko hizkuntza-ereduen kalitateari muga ezartzen die. Ondorioz, arriskua dago euskararentzat sor daitezkeen tresnen kalitatea inguruko hizkuntza handien mailara ez iristeko.
Nahiz eta hemen testuzko hizkuntza-ereduez aritu garen, ahotsaren kasuan egoera are kezkagarriagoa da, eskuz anotatuta dauden ahots grabazio kopuru handiak behar direlako, lortzeko zailagoak direnak. Ez gara horretaz orain arituko, baina berebiziko garrantzia du horrek ere.
Baliabideak: Eredu hauek erabiltzeko superkonputagailu berezi batzuk behar dira, adimen artifizialerako neurrira egindako GPUez osatuak. GPT-3 eredua sortzeko, adibidez, 1.024 GPU inguru behar dira, 80 gigakoak bakoitza, hilabete oso batez. BERT izenekoa, aldiz askoz arinagoa da: bertsio handiena 8 GPUrekin 7 egunetan entrenatu daiteke. Euskarak dauzkan mugak gainditzu hala izateko, hau da, testu masa gutxiagorekin emaitza hobeak lortzeko, beharrezkoa da hizkuntza-eredu berriak diseinatu eta probatzea, behin eta berriro, ehundaka esperimentutan, eta hortik dator GPU askoren beharra.
Adituak: Nahiz eta hizkuntza-ereduak entrenatu eta erabiltzeko kodea libre dagoen eta doako ikastaroak online dauden, ez da nahikoa edozein informatikarik kodea hartu eta halako bat ganoraz sortzeko. Ikerkuntzako gailuak dira, eta ez baditu aditu batek kontu handiarekin doitzen, eraikitako motorra kalitate txarrekoa izango da. Adibidez, gaztelerazko hainbat eredu eraiki izan dira azken bi urteotan, horietako batzuk gobernuaren laguntza oparoa jaso dutenak. HiTZ zentroan berriki egin dugun ebaluazioan ondorioztatu da enpresa erraldoiek lehenagotik kaleratu izan dituzten ereduak baino okerrago dabiltzala. Salbuespena tamaina txikikoen artean topatu dugu, HiTZen garatutako eredua baita hoberena. Hizkuntza-eredu onenak sortzeko horretan espezialista diren ikerlariak behar dira. Mundu mailan halako ikerlari gutxi daude, eta munduko enpresa eta ikerkuntza taldeak halakoen bila ari dira etengabe.
Euskararen etorkizuna: ikerkuntza
Makinak euskaraz kalitatez aritzeak berebiziko garrantzia du, eta are gehiago izango du etorkizun hurbilean. Hizkuntza-eredu ahaltsuak eraiki behar dira, gainontzeko hizkuntzetarako daudenen parekoak. Arlo hau etengabe ari da berrizten, eredu berriak asmatzen, eta horiek euskarara ekartzeak denboran zehar luzatuko den ahalegina eskatzen du. Guzti honek euskarazko testu-masa handiagoak biltzea, GPU ugariz hornitutako ikerkuntzarako azpiegitura eta ikerlari aditu bikainak biltzea eskatzen du.
Bestela, euskaldun elebidunek gaztelera edo frantsesera joko dute makinekin aritzeko. Unamunorekin jarraituz, bonbilla piztu eta itzaliko da gure ahotsezko aginduen arabera, bai, baina erderaz eskatu beharko dizkiogu halakoak. Besteek asmatutako euskararako hizkuntza-eredu berritzaileak egongo direnik ezin dugu espero, guk asmatu beharko ditugu, eta horretarako ikerkuntzan sakondu beharra dago.
[1] El pórtico del templo, 1906
[2] Pedro Miguel Etxenikeren diskurtsoa kongresuan, 2005. (https://web.archive.org/web/20060427002124/http://www.fisica2005.org/view/cm_view_tpyr.asp?tipo=reflexiones&id=384)
[4] https://www.unibertsitatea.net/blogak/ixa/2022/03/16/euscrawl-kalitate-handiko-euskal-corpus-librea/