Doktorego tesiaren defentsa: Ikasketa-adibide urriko Informazio-Erauzketa
Lehenengo argitaratze data: 2024/07/10
Egilea: Oscar Sainz Jiménez
Izenburua: "Ikasketa-adibide urriko Informazio-Erauzketa"
Zuzendariak: Eneko Agirre Bengoa / Oier López de Lacalle Lekuona
Eguna: 2024ko uztailaren 15ean
Ordua: 11:00h
Tokia: Ada Lovelace aretoa
Abstract:
"Informazio-erauzketaren arloak makina bati testuan agertzen den informazioa identifikatzea eta sailkatzea nola irakatsi ikertzen du. Ataza hau, gizakiontzat ere erreza ez dena, azken urteetan ikasketa-automatikoan egindako aurrerapenek sustatu dute, datu-anotatuak erabiliz ereduak entrenatuz. Hala ere, corpora handiak anotatzea lan neketsu eta garestia da, batez ere baliabide urriko inguruneetan.
Tesi honen helburua baliabide urriko inguruneetan IE metodoak aztertzea eta garatzea da. Zehazki, hizkuntza-ereduen orokortze gaitasunak erabiltzea, batez ere baliabide handiko iturrietatik ikasitakoa baliabide urriko inguruneetara transferitzeko gaitasuna. Tesia bi zati nagusietan banatzen da. Laburki, lehenengo zatian, hizkuntza-eredu kodetzaileak erabiliz ikasketa-adibiderik gabeko edo urriko sistema bat garatu da informazio-erauzketa gauzatzeko gai dena. Bigarren zatian, hizkuntza-eredu handiagoetara salto egin da eta aurreko metodoaren zenbait mugarri aztertu dira.
Zehatzago, adibiderik gabeko edo urriko informazio-erauzketa sistema bat garatzeko beharrezkoa da eskemen menpe dauden datu-anotatu kopuru handien beharra gainditzea. Hizkuntzaren prozesamenduan azkenaldian egon diren aurrerapenei esker ikusi da ataza asko birformulatu daitezkeela testu-sorkuntza edo bestelako baliabide handiko ataza batzuetara, eta, honi esker hizkuntza-ereduen bitartez ebatzi ahal izatea. Tesi honetan testuzko inferentzia erabiltzea proposatzen da informazio-erauzketa ebazteko erdibideko ataza bezala. Testuzko inferentzia bezala birplanteatuz entrenatutako eredua ez da gehiago eskema bati lotuta egongo. Horrela, ataza edo eskema berrietara orokortzea eta adibiderik gabe informazio-erauzketa gauzatzea lortuz. Tesi honetan erakutsi da hurbilpen honek duela urte batzuetako sistema gainbegiratuen emaitzak berdintzea lortzen duela ikasketa adibiderik erabili gabe. Ez hori bakarrik, proposatutako hurbilpena adibide gutxi batzuekin entrenatuz gero, gaur egungo artearen egoera berdintzen duela erakutsi da. Anotazio-eskemarekiko menpekotasuna ezabatzean erakutsi da ere-dua hainbat eskemetatik —datu-multzoetatik— ikas dezakeela aldi berean. Ataza antzekoetako datu-multzoentzat, eskema batean entrenatutako eredu batek beste eskemara ezagutza transferitu dezake, adibiderik gabeko eta sistema gainbegiratuen arteko emaitzen desberdintasuna are gehiago txikituz.
Informazio-erauzketako atazak testuzko inferentzia atazara birformulatzeko eskuzko lana behar da, atazaren adibideak premisa-hipotesi pareetara bihurtu behar direlako. Helburu horretarako, eskuz sorturiko txantiloiak erabiltzen dira lehendabizi automatikoki hipotesiak sortzeko. Txantiloi hauek testuzko adierazpen deitu dira. Tesi honetan erakutsi da testuzko adierazpen hauek sortzeko esfortzua esanguratsuki txikiagoa dela informazio-erauzketako adibideak anotatzea baino, errendimendu askoz hobea lortuz esfortzu berdinerako. Horretaz gain, erakutsi da jakintza arlo desberdinetako adituek sortutako testuzko adierazpenekin —estilo desberdina dutenak— emaitza antzekoak lortzen direla. Emaitza hauetan oinarrituta, lan fluxu berri bat —verbalize-while-defining deiturikoa— proposatu da eta definitu, anotatu eta entrenatu lan-fluxu tradizionalarekin konparatu da. Lan-fluxu berri honek, erabiltzaile berri bati ahalbidetzen dio informazio-erauzketa eskema konplexuak garatzea errendimendu altu batekin, horrela gaiko adituek ereduak sortutako anotazioak esfortzu gutxiagorekin zuzendu ditzaten. Proposatutako lan-fluxua praktikan erakusteko prototipo bat garatu da.
Tesiaren azkeneko zatian, testuzko inferentzian oinarritutako hurbilpenak dituen mugak aztertu eta batzuk konpondu dira. Hizkuntza-eredu deskodetzaileek ekarri dituzten abantailak baliatu dira eta GoLLIE garatu da: informazio-erauzketako anotazio gidalerroak jarraitzeko gai den hizkuntza-eredu handia. Testuzko inferentzian oinarritutako hurbilpenak ez bezala, GoLLIE-k anotazio gidalerro detailatuak —testuinguru luzera handiagoari esker— erabiltzen ditu testuzko adierazpen sinple batzuen ordez, ereduari detaile handiagoko instrukzioak jarraitzea ahalbidetuz. Gainera, errore-analisia egin eta etorkizuneko ikerketa-lerroak proposatu dira."