inf_estructura-frecuencias-lexico-vasco

Euskal Hiztegiaren Maiztasun Egitura (EHME)

Aplikazio honek euskal hiztegiaren hainbeste maiztasun datu jarri nahi ditu erabiltzaileen eskura. Corpusetik erauzitako datuak dira, eta hainbeste elementu kontsideratzen ditu:

  • Hitzaren maiztasuna.
  • Hitzaren egitura ortografikoa: letra kopurua, silaba kopurua, CV egitura, silaba egitura...
  • Hitzaren auzokideak: letra bat aldatuz, kenduz, gehituz....
  • Silabak, letra bikoteak eta hirukoteak; haien kokapena hitzaren barnean.
  • Morfologia: lema eta bere maiztasuna, kategoria gramatikala...

Maiztasun datuok lortzeko erabili den corpusa Ereduzko Prosa Gaur (EPG) izan da. Hala ere, lexiko arrunteko hitzak bakarrik hartu dira aintzat, lemaren bat atxikita dutenak. Bazter utzi dira izen propioak, beste hizkuntzetako hitzak, erratuak, eta abar. Horren ondorioz, EPGn 25,1 milioi testu-hitz baldin badira, egitura honetan 22,7 milioi testu-hitz izan dira erabilitakoak.

Maiztasun egiturarako sarbidea hiru modutara egin daiteke:

  • Datuak: Datubaseko datu orokorrak.
  • Datuetatik hitzetara: Hainbeste irizpide erabakita, irizpideok betetzen dituzten hitzen zerrenda itzultzen du bilaketak.
  • Hitzetatik datuetara: Hitz zerrenda bat idatzita, edo fitxategi batean igota, hitz horiei buruzko maiztasun datuak itzultzen ditu bilaketak.