inf_corpus-goenkale

Corpus Goenkale

Goenkale es una serie que se emite en la televisión vasca, ETB, de forma ininterrumpida desde el año 1994. En 2010 se emitió el capítulo número 3.000. Es una de las series más longevas en Europa. Este corpus se ha diseñado a partir de los textos utilizados en la serie que se han podido recuperar desde los inicios. Veamos algunos datos:

  • Número de capítulos: 2.418
  • Secuencias: 38.821
  • Número de diálogos: 805.796
  • Número de palabras: 11 millones
  • Número de palabras en los diálogos: 7,7 millones

El interés fundamental de este corpus radica en los diálogos. Es muy difícil encontrar masas de palabras que correspondan a diálogos y a conversaciones. Esta serie tiene, además, una característica muy especial: sus diálogos están caracterizados por reflejar un habla muy natural (así lo reconocen los televidentes) y están firmados por buenos especialistas. Se trata de un corpus nada desdeñable, puesto que solo en diálogos tiene casi 8 millones de palabras.