Hizkuntza-teknologiak eraldatzeko eredu neuronal berriak
Adimen artifizialeko azken teknikak erabiltzen dituzten hizkuntza-eredu neuronalak sortu dituzte UPV/EHUko HiTZ zentroak, Oraik eta Vicomtech-ek
- Ikerketa
Lehenengo argitaratze data: 2022/10/06
Bi urtez aritu dira Euskal Herriko Unibertsitateko HiTZ zentroko, Orai NLPko eta Vicomtech-eko ikertzaileak DeepText proiektuan lanean, HiTZ zentroa buru dela. Adimen artifizialeko hizkuntza-eredu neuronalen belaunaldi berria sortzea izan dute helburu, Euskal Herriko industriaren hizkuntza-teknologiak eraldatzeko. Izan ere, ekoizpen zientifikoak eta garapen teknologikoak, oro har, ez dute kontuan hartu gaztelania ingelesa bezainbeste, eta are gutxiago euskara. Horren ondorioz, orain arte ez da aukera handirik izan hizkuntza naturalaren prozesamendua eta horri lotutako zerbitzuak garatuz hizkuntza-teknologietako eta adimen artifizialeko sektorea eraldatzeko.
Arlo honetan euskarak eta gaztelaniak duten egoera hobetzeko, euskararako eta gaztelaniarako azken belaunaldiko hizkuntza-eredu neuronalak sortu dituzte (euskararako, lehenak), baita hizkuntza-eredu neuronal eleaniztunak ere (euskara, gaztelania, frantsesa eta ingelesa biltzen dituztenak).
“Hizkuntza naturalaren prozesamenduaren helburua da makinak gure hizkuntza ulertzeko eta sortzeko gai izatea, horri esker zenbait ataza egiteko ahalmena izateko”, diote partzuergoko ikertzaileek. Orain arte horretarako erabili izan diren teknikak zaharkituta geratu dira, eta hizkuntza-eredu neuronaletan oinarritutako sistemak erabiltzen dira orain. Azken urteetan, paradigma-aldaketa erabat disruptiboa gertatzen ari da hizkuntza naturalaren prozesamenduan: “Hizkuntza-eredu neuronal generikoak entrenatzen dira testu-corpus erraldoiak erabiliz, hizkuntzaren ezagutza orokor bat izan dezaten, eta, gero, doitu egiten dira ataza jakin bat egiteko gai izan daitezen (bilaketak egin, testuen gaiak sailkatu, testuetako sentimenduak detektatu, laburpen automatikoak egin, etab.)”, azaldu dute.
Baliabide urriko hizkuntzek arazoak dituzte halako corpus handiak osatzeko, baina proiektu honetan euskararako inoiz izan den corpusik handiena osatu da: 350 milioi hitzeko corpusa. Hala, corpus hori eta euscrawl corpusa (288 milioi hitzekoa eta IXA Taldeak sortua) erabilita, euskararako lehenengo hizkuntza-eredu neuronalak sortu dituzte, paradigma berria erabilita, eta hainbat ataza egiteko entrenatu dituzte, sistema berrietan ezartzeko.
Hizkuntza-eredu neuronal eleaniztunak baliabide urriko hizkuntzetarako tresnak ezartzeko erabiltzen dira: “Munduan 7.000 hizkuntza inguru daude —azaldu dute ikertzaileek—; gehienak, baliabide urrikoak. Corpus eta material digital gutxi dutenez, zailtasunak dituzte entrenamendu-adibideak sortzeko. Euskara ere multzo horretan sar dezakegu. Halakoetan, hizkuntza-eredu eleaniztunak erabiltzea alternatiba eraginkorra da (gai dira hizkuntza desberdinetako testuak ulertzeko, baita baliabide urrikoetakoak ere). Oinarri hori hizkuntza handi bateko adibideekin entrenatzen da (ingelesa, adibidez), eta gero euskarazko datuekin probatzen da ea zer emaitza ematen dituen ikusteko”. Ikertzaileek onartzen dute transfer learning deritzon teknika horrek ez dituela emaitza “perfektuak” ematen, baina adierazi dute “oso emaitza interesgarriak ematen dituela, adibidez, galdera-erantzun bidezko bilaketak egiteko”.
Ez euskararako bakarrik
Horrez guztiaz gainera, ebaluazio-ingurune bat ere sortu dute, hizkuntza-eredu neuronalek hizkuntza ulertzeko zenbaterainoko gaitasuna duten neurtzeko; ezinbestekoa, alor honetako ikerketak aurrera eramateko. “Ebaluazio-ingurune horrek zenbait ataza linguistiko biltzen ditu (izen berezien detekzioa, sentimenduen detekzioa, gai-sailkapena, korreferentziak ebaztea, galderak erantzutea...). Ingurunea euskara eta gaztelania ebaluatzeko sortu dugu”, azaldu dute. Ikertzaileek garrantzi berezia ematen diote euskara ebaluatzeko atalari (BasqueGLUE), hizkuntza horretarako lehena baita.
Ikertzaileen iritziz, “oso ezinbesteko pauso bat eman dugu Euskal Herriko hizkuntza teknologiak garatzeko bidean. Bi urte hauetan, hizkuntza-teknologiek aurrera egiteko behar duten oinarri teknologikoa ikertu dugu euskara, gaztelania, ingelesa eta baliabide urriko beste hizkuntza batzuetarako. Gaur egun, hizkuntza-teknologietako produktuak garatzeko eta emaitzarik onenak lortzeko beharrezkoak dira hizkuntza-eredu neuronalak. Orain arte euskararako horrelako eredurik ez zen sortu. Hizkuntza-eredu neuronalak nola erabili aztertu dugu, eta ataza jakinak egiteko doitu; eta, bestalde, hizkuntzen arteko eta domeinuen arteko (literatura, medikuntza…) transferentzia nola egin ikasi dugu”.
Jakina da garrantzitsua dela euskal industriaren lehiakortasuna hobetzeko eta giltzarri diren teknologien garapenerako gaitasun zientifiko-teknologiko beregainak izatea. Horretarako, premiazkoa da funtsezko ikerketan jarraitzea, eredu neuronaletan oinarritutako teknika berritzaileak asmatzea eta horiekin esperimentatzea. Bide horretan jarraitzeko gogotsu daude ikertzaileak, eta espero dute I+G proiektuak bultzatzeko politika publiko eta funtsetan isla izatea.
Informazio osagarria
Deeptext proiektuan IXA Taldeko Aitor Soroa izan da buru (HiTZ zentroa), eta Orai NLP Teknologiak languneko ikertzaileek eta Vicomtech zentro teknologikoko ikertzaileek hartu dute parte. Eusko Jaurlaritzaren Elkartek programaren bidezko diru-laguntza izan du. Hemen daude ikusgai proiektuan landutako baliabide guztiak.