inf_prosa-de-referencia

Prosa de Referencia (PR)

El llamado Corpus de Referencia se refiere a un corpus de textos lingüísticos escritos en prosa en el período 2000-2007. En conjunto son 25,1 millones de palabras, de los que 13,1 millones son libros escogidos por su calidad (287 libros) y 12 millones son textos publicados en prensa, tanto en España (Berria) como en Francia (Herria).

Se trata de un corpus cerrado, porque el equipo de investigadores entiende, después de haber realizado numerosas pruebas, que la información que se pueda obtener por encima de estos 25 millones de palabras no es pertinente para los objetivos que se persiguen y sólo añade mayor confusión y pérdida de tiempo en el tratamiento de los datos. En cualquier caso, en el futuro se integrarán otros corpus lingüísticos, con características diferentes, en la página del Instituto de Euskera.

En este corpus se pueden consultar las palabras utilizadas por los escritores en el uso actual de la lengua, en la prosa escrita. La palabra sobre la que se solicita información aparecerá en su contexto, incluyendo la frase entera. Se indica la frecuencia (número de veces que aparece, en libros y en prensa), el escritor que lo utiliza, especificando título del libro y página.

Este corpus ha dado lugar a varios trabajos académicos que se han podido desarrollar gracias a la información que el corpus recoge:

, etc., disponibles en la página web del Instituto de Euskera.

Esta parte del proyecto ha sido financiado, en parte, por el Ayuntamiento de San Sebastián y la Diputación Foral de Gipuzkoa.