Investigadores e investigadoras de la UPV/EHU, la UNED y Elhuyar han creado el sistema VIGICOVID, gracias al Fondo Supera COVID-19 de la CRUE. Este sistema responde a la necesidad de buscar respuestas en la avalancha de información generada por todas las investigaciones realizadas mundialmente relacionadas con la pandemia. Mediante inteligencia artificial, el sistema muestra las respuestas encontradas en un conjunto de artículos científicos, de manera ordenada, utilizando preguntas y respuestas en lenguaje natural.
Un sistema de extracción automática de información de artículos científicos sobre la COVID-19
VIGICOVID es un sistema para conseguir respuestas en la avalancha informativa sobre la COVID-19 y el SARS-CoV-2, mediante preguntas en lenguaje natural
- Investigación
Fecha de primera publicación: 24/03/2022
La comunidad investigadora biosanitaria mundial está realizando un gran esfuerzo en la generación de conocimiento en torno a la COVID-19 y al SARS-CoV-2. Este esfuerzo se traduce en una producción ingente y muy rápida de publicaciones científicas, lo cual dificulta la consulta y el análisis de toda esa información. Por ello, resulta necesario proporcionar sistemas de información a las personas expertas y a las autoridades responsables en la toma de decisiones, que les permitan adquirir el conocimiento necesario.
Eso es, precisamente, lo que han investigado en el proyecto VIGICOVID investigadores e investigadoras del Centro HiTZ de la UPV/EHU, del grupo NLP & IR de la UNED y de la Unidad de Inteligencia Artificial en el ámbito lingüístico de Elhuyar, gracias al Fondo Supera COVID-19 otorgado por la CRUE. En el estudio, han creado un prototipo para extraer información mediante preguntas y respuestas en lenguaje natural de un conjunto actualizado de artículos científicos publicados por la comunidad investigadora mundial en torno a la COVID-19 y el SARS-CoV-2, bajo la coordinación del grupo de investigación de la UNED.
“El paradigma de las búsquedas de información está cambiando gracias a la inteligencia artificial —afirma Eneko Agirre, director del Centro HiTZ de la UPV/EHU—. Hasta ahora, para buscar información en la red, se introduce una pregunta, y la respuesta se debe buscar en los documentos que nos muestra el sistema. Sin embargo, en función del nuevo paradigma, cada vez están más extendidos los sistemas que ofrecen directamente la respuesta, sin necesidad de leer todo el documento”.
En este sistema, “la persona usuaria no solicita la información mediante palabras clave, sino que formula directamente una pregunta”, explica el investigador de Elhuyar Xabier Saralegi. El sistema busca las respuestas a esa pregunta en dos fases: “En primer lugar, recupera los documentos que pueden contener la respuesta a la pregunta realizada, utilizando una tecnología que combina palabras clave y preguntas directas. Para eso hemos investigado arquitecturas neuronales”, añade el doctor Saralegi. Han utilizado arquitecturas neuronales profundas alimentadas con ejemplos: “Eso significa que los modelos de búsqueda y los modelos de respuesta a las preguntas se entrenan a través del aprendizaje automático profundo”.
Una vez extraída la serie de documentos, se vuelven a procesar mediante un sistema de preguntas y respuestas, para así obtener respuestas concretas: “Hemos construido el motor que responde a las preguntas; proporcionándole una pregunta y un documento, el motor es capaz de detectar si la respuesta se encuentra o no en el documento, y en caso afirmativo, dice exactamente dónde se encuentra”, explica el doctor Agirre.
Un prototipo fácilmente comercializable
Los investigadores están satisfechos con los resultados obtenidos en la investigación: “De las técnicas y las evaluaciones que hemos analizado en nuestros experimentos, hemos llevado al prototipo aquellas que han dado mejores resultados”, señala el investigador de Elhuyar. Han establecido una base tecnológica sólida, y han publicado varios artículos científicos al respecto. “Hemos conseguido otra manera de realizar búsquedas para casos de necesidad de información urgente, que facilita el proceso de consumo de información. A nivel de investigación hemos demostrado que la tecnología propuesta funciona, y que el sistema da buenos resultados”, apunta Agirre.
“Nuestro resultado es un prototipo de un proyecto de investigación básica. No se trata de un producto comercial”, destaca Saralegi. Pero este tipo de prototipos se pueden modelar fácilmente y en poco tiempo, para poder comercializarlos y ponerlos al alcance de la sociedad. Estos investigadores destacan que gracias a la inteligencia artificial se podrá disponer de instrumentos cada vez más potentes para trabajar con grandes bases de documentos. “Estamos avanzando muy rápidamente en este ámbito. Y, además, todo lo que se investiga llega fácilmente al mercado”, concluye el investigador de la UPV/EHU.
Referencia bibliográfica
- Information retrieval and question answering: A case study on COVID-19 scientific literature
- Knowledge-Based Systems
- DOI: 10.1016/j.knosys.2021.108072