Defensa de tesis doctoral: Integrating Outside Knowledge and Spatial Reasoning in Vision and language Models
Fecha de primera publicación: 11/10/2024
Autor: Ander Salaberria Saizar
Tesis: "Integrating Outside Knowledge and Spatial Reasoning in Vision and language Models"
Directores: Eneko Agirre Bengoa / Gorka Azcune Galparsoro
Día: 17 de octubre de 2024
Hora: 11:00h
Lugar: sala Ada Lovelace
Abstract:
"Hizkuntza naturalaren prozesamendua (NLP) eta konputagailu bidezko ikusmenaren (CV) alorrak asko hazi dira azkenaldian. Bultzada hau ordenagailuen kalkulu-ahalmen eta eskuragarri dagoen datu kopuruaren hazkundeari esker lortu da, baita etengabe hazten ari den ikerketa-komunitateari esker ere. NLP eta CV-ren arteko zubian aurrerapenak lortu dira ere bai, batez ere testu eta ikusmen modalitateen oinarritzea eskatzen duten zereginetan, hala nola, ikusizko galdera-erantzute (VQA) eta testuan baldintzatutako irudi sorkuntza. Horrek sistema eta aplikazio sofistikatuagoetarako bidea zabaltzen du hainbat domeinutan. Dena den, sistema hauek konponbide errazik ez dituzten ahuleziak dituzte oraindik.
Tesi honen helburua egungo ikusizko hizkuntza-ereduen (VLM) bi ahulezi aztertzea da: munduko ezagutzaren integrazioa eta arrazoinamendu espaziala. Tesi hau bi zati nagusitan bana daiteke, jorratzen dugun ahulezi bakoitzeko bana alegia. Lehenengo zatian, irudietatik goiburukoak sortzen ditugu hizkuntza-ereduetan inplizituki kodetuta dagoen munduko ezagutza hobeto aprobetxatzeko. Bigarrenean, aldiz, objektu anotazioetatik datu sintetikoak sortzen zentratu gara arrazoinamendu espazialaren ikasketari laguntzeko, bai hizkuntza-ereduetan eta baita testu bidezko irudi sortzaileetan ere.
Gehiago sakonduz, VQA bezalako ikusmen-testu atazetan ohikoa da irudi baten gaineko arrazoinamendua burutzea munduko ezagutza integratuz. Hizkuntza-eredu aurrentrenatuek ezagutza hau kodetzen dutela erakutsi denez, modalitate bakarra (testua soilik) erabiltzea proposatzen dugu, irudietatik goiburukoak automatikoki sortuz eta irudi bera gainerako inferentzietatik baztertuz. Hizkuntza-ereduaren sarrera kodetzeko testua soilik erabiltzea bereziki eraginkorra dela erakusten dugu munduko ezagutza eskatzen duten VQA atazetarako. Horrez gain, gure hurbilpen unimodalak pareko parametro kopuruak dituzten VLM-ak gainditzen dituela erakusten dugu. Bi aldaera hauek osagarriak direla antzeman dugu, munduko ezagutza beharrak dituzten VQA atazekin eta ezagutza behar hori gabekoekin ere bai. Gure analisi kualitatiboak goiburuko automatikoek galdera erantzuteko behar den informazioa sarritan ez dutela jasotzen agerrarazten du. Hala ere, gabezi hau inferentzia hobeagoak egiteko kapazitatearekin orekatzen dela dirudi.
Arrazoinamendu espazialaren alorrean sartuz, testua soilik jasotzen duten hiz\-kuntza-ereduek erlazio espazialak (ezkerrean edo azpian) oinarritzen ikas ditzaketela erakutsi dugu. Ikasketa hau burutzeko ezinbestekoa da objektuen kokapen esplizituak ereduari ematea eta behar bezala prozesatzen ikasteko atazak erabiltzea. Gure kasuan, ezagutza espazial hori objektuen kaxa inguratzaileen informazioa kodetuz lortzen dugu token berezi batzuk erabiliz, hots, kokapen-tokenak. Kokapen-token hauek publikoki eskuragarri dagoen objektu detektore bat erabiliz eskuratzen ditugu. Erlazio espazial bakoitza kokapen-token multzoekin lotzen ikasteko, erlazio jakin bat betetzen den ala ez zehazten duten erregela sinpleak definitzen ditugu. Erregela hauekin datu-multzo sintetiko bat eraiki dezakegu eta hizkuntza-ereduak doitu. Horrela, VSR datu-multzoaren artearen egoera ezarri dugu, VLM-en errendimendua hobetuz. Gure analisiak testua soilik erabiltzen duten hizkuntza-ereduak entrenamenduan zehar ikusitako erlazioetatik haratago orokortu dezaketela erakusten du hein batean, lehen aipatutako erregeletan kodetutakoa baino informazio baliagarriagoa ere ikasiz.
Testu bidezko irudi sorkuntza atazari ere aurre egiten diogu antzeko hurbilpen bat jarraituz. Artearen egoerak ez ditu erlazio espazial esplizituak ondo irudikatzen eta, gure ustez, entrenamenduan erabiltzen diren datu-multzoetan hauen agerpena urria delako. Hori dela eta, Spatial Relations for Generation edo SR4G datu-multzoa aurkezten dugu. SR4G-ek 14 erlazio espazial esplizitu ezberdinez osatutako goiburuko sintetikoak ditu, 9 milioi irudi-goiburuko pare definituz entrenamendurako eta 60K goiburuko baino gehiago ebaluatzeko. Gainera, datu-multzoaren unseen bertsio bat definitu dugu, goiburukoetan objektu ezberdinak zehazten direlarik entrenamendu, garapen eta ebaluazio azpimultzoetan. Stable Diffusion ereduak SR4G datu-multzoan doitzeak (SD_SR4G) hobekuntza nabarmenak ematen ditu VISOR metrikan, erlazio espazialak irudietan betetzen diren ala ez neurtzen duen ebaluazio metrika automatikoa dena. Unseen bertsioan hobekuntzak mantentzen dira, SD_SR4G eredu doituak ikusten ez dituen objektuetara orokortzeko gai dela erakutsiz. Horrela, artearen egoera hobetzen dugu parametro gutxiago erabiliz eta arkitektura konplexuak saihestuz."