Web-corpusen ataria sortu du Elhuyar Fundazioak

2013 Otsaila 19
Web-corpusen ataria sortu du Elhuyar Fundazioak

Kontsultagai dago Elhuyar Fundazioak sortu duen web-corpusen ataria . Web-atari honetan dagoen informazio guztia Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak egindako ikerketen emaitza da. Bertan kontsultagai dauden corpusak Internetetik automatikoki eratuak dira, taldeak berak garatutako tresnak erabiliz.

Une honetan, bi corpus eskaintzen ditu:

  • Euskarazko corpus elebakarra. Euskarazko web-corpusa, 124.625.420 testu-hitz dituena. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta gaur arte eratu den euskarazko corpusik handiena da. Linguistikoki etiketatuta dago.
  • Euskara-gaztelania corpus paraleloa. Euskara-gaztelania web-corpusa, esaldi mailan parekatua, eta 18.753.613 testu-hitz dituena (7.891.104 euskaraz eta 10.862.509 gaztelaniaz). 659.630 segmentu elebidun ditu. Egungo euskara-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezala, hau ere linguistikoki etiketatua da. Oso baliagarria da hizkuntza bateko hitz edo esapide bat beste hizkuntzan nola eman den jakiteko.

Corpus horiez gain, Hitz-konbinazioen atala ere eskaintzen du atariak: euskarazko corpus elebakarretik automatikoki erauzitako bigramak kontsulta daitezke, hiru kategoria-konbinaziotakoak: izen+aditz, izen+izen eta izen+izenondo. Horren bidez, esaterako, erabiltzaileak ikus dezake izen jakin batekin zein aditz konbinatzen diren, neurri estatistiko batzuen arabera ordenatuta, baita horien testuinguruak bistaratu ere.