euskaraespañol

EusCrawl: el corpus vasco libre de gran calidad

  • Noticias

Fecha de primera publicación: 25/03/2022

Los investigadores Rodrigo Agerri y Aitor Soroa en la Facultad de Informática. Foto: Nagore Iraola. UPV/EHU

Lograr que las computadoras comprendan el lenguaje humano es uno de los principales retos a los que se enfrenta la inteligencia artificial y ese es precisamente el objetivo del procesamiento del lenguaje. Este campo de la inteligencia artificial ha experimentado una gran revolución en los últimos años, gracias a las técnicas de aprendizaje profundo o Deep learning y, más concretamente, a la tecnología denominada modelo lingüístico.

Los modelos lingüísticos se entrenan con grandes cantidades de textos y, a través de su lectura, son capaces de aprender la estructura de la lengua y producir nuevos textos. Son la base de las actuales aplicaciones de procesamiento de lenguaje, como las aplicaciones de búsqueda, de respuesta a preguntas, la traducción automática, el reconocimiento de voz o los sistemas de diálogo o chatbotes. Esto es, podríamos decir que los modelos lingüísticos son el motor de la mayoría de las aplicaciones lingüísticas y los textos, su gasolina.

La cantidad de textos necesaria para construir buenos modelos lingüísticos es astronómica. Así, los idiomas tales como el inglés no plantean problemas a la hora de encontrar textos, puesto que se pueden localizar fácilmente

en Internet. Se han recopilado grandes conjuntos de textos de esa manera, por ejemplo, el Colossal Clean Crawled Corpus, (C4) que contiene 156 mil millones de palabras. Una persona tardaría 2000 años en leerlos todos, aun dedicando 10 horas al día a esa labor. Los modelos lingüísticos construidos a partir de esos textos son también colosales. Se podrían mencionar BERTlarge (350 millones de parámetros) y, el más conocido y citado en medios de comunicación, GPT-3 (175 mil millones de parámetros). Se trata de unos de los dispositivos más complejos construidos con inteligencia artificial, en cuanto al número de parámetros. y se han destinado millones de euros a la computación necesaria para entrenarlos (unos 4 millones de dólares en el caso de GPT-3).

Sin embargo, reunir grandes masas de textos para lenguas de escasos recursos como el euskera es un gran problema. Las mayores masas de textos disponibles y existentes en el caso del euskera son los corpus mC4 y CC100 que Google y Meta-AI (anteriormente conocido como Facebook) han venido descargando automáticamente de Internet e identificando mediante programas de lenguaje documental. El primero contiene mil millones de palabras en euskera y el segundo, 416 millones de palabras. A pesar de ello, su calidad es dudosa por el ruido de Internet y los errores del programa automático que determina que los documentos están escritos en euskera.

La importancia de EusCrawl

EusCrawl pretende solventar esta carencia. Los documentos de los que se compone el corpus, 12,5 millones de documentos y 423 millones de palabras, se pueden distribuir libremente a través de licencias de Creative Commons y se han extraído de páginas web seleccionadas manualmente (crawl en inglés).

Además del corpus, hemos creado dos modelos lingüísticos entrenados con EusCrawl. Uno de ellos contiene 355 millones de parámetros y es el mayor modelo existente actualmente para el euskera.

El hecho de que el corpus EusCrawl sea libre aumenta la visibilidad del euskera en el mundo, lo que facilita que investigadores en cualquier punto del globo creen mejores recursos para nuestro idioma. Por ejemplo, sabemos que lo utilizarán en el proyecto BigScience, cuyo objetivo es construir un enorme modelo plurilingüe y libre, al que se destinarán cinco millones de horas de computación. Por lo tanto, el resultado sabrá también euskera. Que los recursos como EusCrawl sean libres es imprescindible para que el euskera forme parte de la escena digital.

Aparte de ser útil para el procesamiento del lenguaje y para la inteligencia artificial, EusCrawl es una herramienta ideal para quien quiera estudiar el idioma, pues no debemos olvidar que, al ser los corpus reflejo del uso real de las lenguas, su explotación es actualmente uno de los pilares de la lingüística. No es la primera vez que se reúnen y ponen disponibles para consultar públicamente grandes corpus en euskera; sin embargo, EusCrawl ofrece la posibilidad de descargarlo y reutilizarlo en su totalidad. Hay que destacar que no es lo mismo poner el corpus de forma consultable que ponerlo de forma descargable dado que las consultas simples no permiten realizar estudios lingüísticos e investigaciones reales.

Lo que hemos aprendido gracias a EusCrawl

Además de formar el corpus, hemos comparado los modelos lingüísticos creados a partir de EusCrawl con los de otros corpus y hemos medido su calidad en varias tareas de procesamiento de la lengua. Los experimentos indican que es más relevante el número de textos que la calidad de estos. Aunque reuniéramos todos los corpus en euskera, su tamaño diferiría mucho del de los corpus de las principales lenguas, lo que supone una cota superior para los modelos lingüísticos en euskera. Por tanto, existe el riesgo de que la calidad de los instrumentos que puedan crearse para el euskera no alcance el nivel de aquellos de otras lenguas como el inglés.

Ante eso, se nos plantean dos objetivos estratégicos para avanzar en las tecnologías del euskera y de otras lenguas con escasos recursos.

-Recopilar corpus de mayor tamaño, logrando que se liberen más contenidos producidos en euskera. EusCrawl se ha creado gracias a Berria, Argia, Hitza y otros medios de comunicación en euskera que distribuyen su contenido con licencias libres. Es necesario que otros productores de textos sigan ese camino.

-Promover la investigación de modelos lingüísticos que aprendan con menos textos. Lamentablemente, todo ese esfuerzo tiene un límite: el número de textos que se escriben en una lengua. Más allá de los métodos construidos con las técnicas disponibles, el euskera necesita modelos lingüísticos que aprendan de menos textos. Impulsar esta línea de investigación es imprescindible para garantizar la calidad de las herramientas del euskera.

El corpus está disponible en http://ixa.ehu.eus/euscrawl y toda la información referente al mismo en https://arxiv.org/abs/2203.08111. Los modelos lingüísticos y experimentos de investigación que se han creado a partir de EusCrawl son fruto de la colaboración entre Hitz y Meta-AI.