euskaraespañol

Eguneko irudia

Itziar Aldabe, Mikel Iruskieta eta Oier Lopez de Lacalle

Hizkuntza-ereduak eta adimen artifiziala: aukerak eta arriskuak hezkuntzan

Ikertzailea (HiTZ Zentroa – Ixa), irakaslea (Bilboko Hezkuntza Fakultatea eta HiTZ Zentroa – Ixa) eta irakaslea (Informatika Fakultatea eta HiTZ Zentroa – Ixa), hurrenez hurren

  • Cathedra

Lehenengo argitaratze data: 2023/09/14

Itziar Aldabe, Mikel Iruskieta eta Oier Lopez de Lacalle
Itziar Aldabe, Mikel Iruskieta eta Oier Lopez de Lacalle | Argazkia: Nagore Iraola. UPV/EHU.

Gogoaren edo adimenaren, hizkuntzaren eta pentsamenduaren arteko loturak anitzak dira gauza bera ez badira ere. Testuinguru digitalean ere adimen artifizialaz ezagutzen denaren erdigunean dago hizkuntzaren prozesamendua eta makina-gizaki elkarrizketa. Gai hori dela eta, aurreko ikasturtean ChatGPT1 edota Bing txat2 sistemez aritu ginen eta aurtengo ikasturte honetan LLaMA23 eta Falcon4 sistemak ditugu hizpide, besteak beste. Sistema horiek OpenAI5 edo Meta6 moduko enpresek zein Abu Dhabiko Technology Innovation Institute (TII) bezalakoek sortutakoak dira eta sistema bakoitzak ezaugarri, muga eta lizentzia ezberdinak dituzten arren, horiek guztiak hizkuntza-ereduak dira. Aipatutako hizkuntza-eredu horiek guztiak elkarrizketak izateko egokituak edo doituak izan dira. Baina zer esan nahi dugu hizkuntza-ereduak direla diogunean?

Hizkuntza-eredua esaten zaio giza hizkuntza idatzi jakin bat edo batzuk irakurtzeko, prozesatzeko eta sortzeko diseinatutako adimen artifizialeko ereduari. Testu-datu kopuru handietan entrenatzen denez, testuinguru bat emanda, hitz-segida baten probabilitatea iragartzen du, beste sistema batzuk baino hobeto. Testuak iragar eta sor ditzakeenez, hizkuntza naturalaren prozesamenduko hainbat atazatan erabiltzen da eta horregatik esaten da erabilera anitzeko (galdera-erantzun sistemak edota txatbotak, batzuk aipatzearren) eredua dela. Funtsean, hizkuntza-ereduek testu-datu kopuru handietan oinarrituz hizkuntza-patroiak eta -egiturak prozesatzen, gordetzen eta erabiltzen (“ulertzen” esan daiteke) ditu eta horri esker hizkuntzako zenbait zeregin egin ditzake.

Azken aldian argitaratu diren hizkuntza-ereduek errendimendu nabarmena lortu dute Transformer deituriko ikasketa automatiko sakoneko arkitektura erabiliz. Arkitektura horri esker datu sekuentzialak modu eraginkorrean kudeatzen dira eta 2017. urteaz geroztik oinarrizko arkitekturatzat hartzen dute hizkuntza-eredu askok. Arkitektura horretan oinarritutako ereduek, GPT (Generative Pre-trained Transformer) ereduak, adibidez, testua iragartzen dute (hurrengo letra, hitza, esaldia edota paragrafoa), arestian aipatu bezala, aurretik irakurritako edo entrenamendu datuetan oinarrituz. ChatGPTren oinarri-ereduak GPT3.5 eta GPT4 dira, testu hau idaztean. Aurretik aipatutakoaz gain, eredu horiek elkarrizketetan erabiltzeko birdoitzen dira giza feedbackarekin errefortzu bidezko ikasketa (Reinforcement Learning from Human Feedback - RLHF) erabiliz.

Aurre-entrenamenduko fasean datu-multzo masiboetatik hizkuntza-patroiak ikasi ondoren, bi pausutan hizkuntza-eredua egokitu eta hobetu egiten da idatzizko elkarrizketarako landutako giza ikuspegiak eta iritziak kontuan izanik. Lehenengo pausu batean, gizakiek sortutako sarrera-irteera bikoteak ematen zaizkio ereduari giza jokabidea imitatzen ikasi eta erantzun balizkoak edota horien antzekoak birsortzeko. Gizakiek sortutako sarrera-irteera bikoteak agindu-erantzun moduko adibideak dira. Horrez gain, eredua hobetzeko asmoz, lehenengo doiketan ebaluazio-emaitzetan oinarrituz, ereduari entrenamendu eta doitze iterazio gehiago eragiten zaizkio. Gainbegiratutako fasea amaitutakoan, ereduak balizko giza erantzunak (bir)sortzen ikasi badu ere, akatsak egin ditzake. Hori saihesteko, errefortzu bidezko ikasketa-fasea aplikatzen da. Horretan, gizakiek ebaluatzen dituzte ereduak sorturiko erantzunak, erantzunen kalitatea ebaluatuz edota emaitza hobetzeko erantzun-proposamenak erakutsiz. Horrela, ereduak giza erantzun horietara gehien hurbiltzen diren balizko testu iragarpenak hobetsiko ditu.

Txatboten oinarrizko funtzioa gizaki baten idazkera imitatzea da, baina aipatu dugun moduan, ChatGPT moduko ereduak moldakorrak dira. Beraz, erabilera anitzetarako erabil daitekeen tresna bihurtzen da moldaketa egokiei esker, esaterako, ordenagailu programak idatzi, ipuinak edo ikasleen idazlanak osatu, galderak erantzun edota testuak laburtzeko doitu daiteke, besteak beste.

Ataza horietara doitutako ereduek badituzte zenbait muga esan gabe utzi ezin direnak, esaterako, euskal komunitateko zein beste baliabide urriko hizkuntza komunitateetako erabiltzaileek beraien hizkuntzan sistema horiek erabiltzeko mugak edo arazoak izango dituzte. Izan ere, horrelako sistemak sortzeko erabilitako testu gehienak ingelesez daude eta ereduak beste hizkuntza batzuetan testua iragar badezake ere, argi dago ingelesez egokitasun eta zuzentasun handiagoa dutela. Horrez gain, entrenatzeko eta doitzeko erabilitako testuek hizkuntza-joera alboratzailea izan dezaketenez, ChatGPTek eduki iraingarriak sor ditzake. Ez hori bakarrik, jendarte edota kultura jakin batzuen isla duenez, euskal kulturari buruzko testu iragarpenaren kalitatea okerragoa da, egotekotan. Era berean, egungo jendarte aniztasuna ere bere horretan agertzeko zailtasuna nabaria da.

Erabiltzerakoan ezinbestekoa da ChatGPT modukoak arduraz erabiltzea eta aipatutako mugez jabetzea. Erabiltzeko aukera dagoenez, ikertzaileok eta hezitzaileok aukera ezberdinak ditugu: batetik, bere erabilera mugatzen saia gaitezke edo ikasleei horien erabilera gaitzestea bultza daiteke; bestetik, erabilera onartuz, erabilera kritikoa eta arduratsua sustatu daiteke.

Argi dago, baliabide digitalak hiztegi elektronikoak, entziklopediak, datu-baseak, ChatGPT eta itzulpen automatikoko tresnak, besteak beste, oso erabiliak direla ikaskuntza-prozesuetan. Nork ez du ezagutzen baliabide horietako baten erabilera okerra? Hiztegian bilatu ordez itzultzailea erabili hitza ulertzeko, entzuteko edota itzultzeko. Entziklopediako testua ChatGPTrekin berridatzi daiteke, laburtu, luzatu edota estiloz aldatu, norbere produkzioko testutzat aurkeztuz eta ia sortutako testuak irakurri edota berrikusi gabe. Testu baten itzulpen automatikoa berrikusi eta berridatzi gabe entregatu. Hamaikatxo aipa daitezke. Beraz, argi dago ChatGPTk hezkuntzan testuen produkzio idatzia handituko duela eta hori ikasleek zein irakasleek baliatuko dutela. Itzultzaile automatikoen tamainara helduko al da? Muga daiteke hori?

Galdera horri erantzun beharrean, gure ustez egokiagoa da gure hezkuntza-sistemaren kultura eta hizkuntza baliatzen dituzten sistema ireki eta publikoak sortzea. Horiek sortuta, ikuspegi teknopedagogikoari jarraituz, hizkuntza-ereduak modu egokian erabiltzea eta ikaslea protagonista izanik ikaskuntzaren esparru kognitibo, afektibo eta sentsorial sakonetan baliatzea, hezkuntza praktika transformatzailea eta sortzailerako ikas-egoerak proposatuz.

  1. https://chat.openai.com/
  2. https://www.bing.com/search?q=Bing+AI&showconv=1&FORM=hpcodx
  3. https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI
  4. https://huggingface.co/spaces/tiiuae/falcon-180b-demo
  5. https://openai.com/
  6. https://about.meta.com/