Aprendizaje de representaciones interlingüísticas de palabras y conceptos
Programa específico: Google Global Faculty Research Awards
UPV/EHU: Beneficiario
UPV/EHU IP: Eneko Agirre
Inicio del proyecto: 01/03/2016
Fin del proyecto: 28/02/2017
Breve descripción: Los últimos avances en la representación de palabras han demostrado que las representaciones semánticas distributivas derivadas de corpus de texto capturan de manera efectiva las nociones de similitud de palabras y permiten mejoras en muchas aplicaciones. A pesar del éxito generalizado, todavía hay margen para más mejoras: pasar a los conceptos para distinguir entre diferentes significados de palabras ambiguas (banco como institución financiera frente a banco como orilla de un río); vincularse a grafos de conocimiento (KG) como WordNet o DBpedia para permitir una mayor capacidad de inferencia; y explotar la complementariedad entre idiomas a nivel de concepto. El objetivo de este proyecto es construir representaciones interlingüísticas basadas en conceptos que combinen información de KG y corpus.
A diferencia de trabajos anteriores que añaden un número limitado de restricciones de los KG a las representaciones distribucionales preexistentes, nosotros construimos representaciones potentes basadas en el conocimiento y las combinamos directamente con representaciones distribucionales. El proyecto demostrará que la técnica se puede utilizar para construir representaciones de conceptos en el mismo espacio de incrustación, y que se puede ampliar fácilmente para dar cabida a información multilingüe de corpus paralelos y KG multilingües, lo que produce representaciones interlingües de palabras y conceptos en el mismo espacio de incrustación.
Las nuevas técnicas abrirán la investigación sobre la representación del significado interlingüe en todos los idiomas, explorando otros KG como DBpedia o Freebase, lo que permitirá la desambiguación interlingüe de conceptos e instancias, y la mejora general de las aplicaciones de procesamiento del lenguaje natural monolingües y translingües, incluida la recuperación, extracción y organización de la información.