Hitzen eta kontzeptuen irudikapen interlinguistikoak ikastea
Programa espezifikoa: Google Global Faculty Research Awards
UPV/EHU: Onuraduna
UPV/EHU IP: Eneko Agirre
Proiektuaren hasiera: 2016/03/01
Proiektuaren amaiera: 2017/02/28
Deskribapen laburra: Hitzen irudikapenaren azken aurrerapenek erakutsi dute testu-corpusetik eratorritako banaketako irudikapen semantikoek modu eraginkorrean atzematen dituztela hitzen antzekotasunaren nozioak eta aplikazio askotan hobekuntzak ahalbidetzen dituztela. Arrakasta orokortua izan arren, oraindik ere badago hobekuntza gehiagorako tarterik: kontzeptuetara pasatzea hitz anbiguoen esanahiak bereizteko (bankua finantza-erakunde gisa, bankuaren aurrean ibai baten ertz gisa); ezagutza-grafoei (KG) lotzea, hala nola WordNet edo DBpedia, inferentzia-gaitasun handiagoa ahalbidetzeko; eta hizkuntzen arteko osagarritasuna ustiatzea kontzeptu mailan. Proiektu honen helburua KG eta corpuseko informazioa konbinatzen duten kontzeptuetan oinarritutako irudikapen interlinguistikoak eraikitzea da.
Aurretik zeuden irudikapen banatzaileei KG murrizketen kopuru mugatua gehitzen dieten aurreko lanetan ez bezala, guk ezagutzan oinarritutako irudikapen indartsuak eraikitzen ditugu eta zuzenean konbinatzen ditugu irudikapen banatzaileekin. Proiektuak erakutsiko du teknika inkrustazio-espazio berean kontzeptuen irudikapenak eraikitzeko erabil daitekeela, eta erraz zabal daitekeela corpus paraleloen eta KG eleaniztunen informazio eleanitza sartzeko. Horrek hitzen eta kontzeptuen hizkuntza arteko irudikapenak sortzen ditu txertaketa-espazio berean.
Teknika berriek hizkuntza arteko esanahia hizkuntza guztietan irudikatzeari buruzko ikerketa irekiko dute, DBpedia edo Freebase bezalako beste KG batzuk aztertuz. Horri esker, kontzeptuak eta instantziak hizkuntza artean desanbiguotu ahal izango dira, eta hizkuntza natural elebakarrak eta translinguistikoak prozesatzeko aplikazioak oro har hobetu ahal izango dira, informazioa berreskuratzea, ateratzea eta antolatzea barne.