inf_prosa-de-referencia

Prose de Référence Contemporaine (PRC)

Ce que nous appelons Corpus de Référence se réfère à un corpus de textes linguistiques en prose écrits dans la période 2000-2007. Au total, il contient 25,1 millions de mots, dont 13,1 millions sont extraits de livres choisis pour leur qualité (287 livres) et 12 millions sont des articles de presse publiés aussi bien en Espagne (Berria) qu'en France (Herria).

Il s'agit d'un corpus fermé. L'équipe de chercheurs a conclu, en effet, au terme de maintes recherches, que l'information qui pourrait être glanée au-dessus de ces 25 millions de mots n'est pas pertinente pour les objectifs poursuivis et ne fait qu'ajouter confusion et perte de temps dans le traitement des données. En tout état de cause, dans le futur on intègrera d'autres corpus linguistiques, dont les caractéristiques seront différentes, sur le site de l'Institut de la langue basque.

Ce corpus permet de consulter les mots employés par les écrivains dans l'emploi actuel de la langue, dans la prose écrite. Le mot à propos duquel on demande des informations s'affiche dans son contexte, dans la phrase complète. On indique aussi la fréquence d'utilisation (nombre de fois qu'il apparaît dans les livres et les articles de presse), le nom de l'écrivain qui l'utilise, le titre du livre et la page.

Ce corpus a donné lieu à divers travaux académiques qui n'ont été possibles que grâce l'information contenue dans le corpus:

, etc., disponibles sur le site de l'Institut de la langue basque.

Cette partie du projet a été financée en partie par la mairie de San Sebastián et Conseil général (Diputación Foral) de Gipuzkoa.