Itzulpen Memorien Banku Publikoa
Eusko Jaurlaritzako Hizkuntza Politikarako Sailburuordetzak Itzulpen Memorien Banku Publikoa jarriko du martxan aurki. Bi lan-eremutan antolatuta dagoen aplikazioa, Internet (irekia, edozein erabiltzailek kontsultak eta esportazioak egiteaz gain, Bankua bere memoriekin eta dokumentuekin elikatu ahal izango ditu) eta intraneta (Bankua kudeatzeko eta administratzeko), itzulpengintzari laguntzeko tresna garrantzitsua ez ezik, Informazioaren eta Komunikazioaren Teknologien alorrean aplikazioak garatzeko tresna erabilgarria ere izango da. Hain zuzen, denboraz, edozein pertsonak edo entitatek eskura izan dezake corpus elebidun paralelo handia, behar izanez gero. Artikulu honetan, Bankuaren xehetasun orokorrak aurkezten dira.
Itzulpen Memorien Banku Publikoa Eusko Jaurlaritzaren informatika-sisteman ezartzen ari da artikulua idazten ari den momentuan. Hortaz, baliteke artikuluan azaltzen diren interfazeak guztiz behin betikoak ez izatea. Izan ere, probak egin ahala egokitzapenak egiten ari dira.
Aurrekariak
Eusko Jaurlaritza, hainbat planen bidez, aspaldian hasi zen Informazioaren eta Komunikazioaren Teknologiak (IKTak) garatzen, sustatzen eta erabiltzen. Aldi berean, ezinbestekoa zen euskara teknologia horietan integratzea. Hori dela eta, asko dira, azken urteotan, IKTen alorrean euskararen ezagutza eta erabilera sustatzeko abian jarritako proiektuak eta programak. Horietako bat espainiera-euskara itzultzaile automatikoa da. Euskarak garapen teknologiko estrategiko hori behar zuen eta, hori aintzat hartuta, 2008an jarri zuen martxan Hizkuntza Politikarako Sailburuordetzak (HPS) testu orokorrak gaztelaniatik euskarara itzultzeko tresna garatzeko proiektua. Horren emaitza da, 2012ko otsailean, testu laburrak eta webguneak itzultzeko Interneten jarritako itzultzaile automatikoa. Itzulpen automatikoaren plataforma horri, aurten, euskara-gaztelania eta ingelesa-euskara itzulpen- noranzkoak gehituko zaizkio. Izan ere, Hizkuntza Politikarako Sailburuordetzak aurreikusia du 2013ko udazkenean abiatutako lan horiek urtearen bukaerarako amaituta egotea eta Interneten erabilgarri jartzea. Hortik aurrera, itzultzailea erabiltzen, zuzentzen eta osatzen jarraitu behar da, kalitatea gero eta hobea izan dadin.
Eusko Jaurlaritzaren itzultzaile automatikoa pentsatuta eta diseinatuta dago, bereziki, herri- administrazioetan sortzen diren testuak itzultzeko, hau da, testu orokorrak eta inpert sonalak, lexiko orokorra eta morfologia eta sintaxi zuzena dutenak. Administrazioko testuak, askotan, egiturari eta lexikoari dagokienez, errepikakorrak dira (aldizkari ofizialetakoak, kasurako). Hori dela eta, itzultzaile automatikoa tresna lagungarri izango da Administrazioko testu gehiago euskaratu ahal izateko eta, zentzu horretan, helburua litzateke itzultzaileez gain, Administrazioan euskarazko testuak ekoizteko gai diren herri-langileek ere, eguneroko lanean, erabiltzea.
Itzultzaile automatikoarekin batera, corpus elebidun/eleaniztun handia eraikitzeko premia zegoen gurean, hau da itzulpen-memoriak bilduko eta kudeatuko dituen banku handi bat. Corpus hori itzulpengintzari laguntzeko tresna erabilgarria izateaz gain, oso baliotsua izango da, besteak beste, itzultzaile automatikoarekin lotzeko. Izan ere, itzulpen-sistema integral batean –itzulpen-memoriak eta itzulpen automatikoa konbinatzen dituena–, testu bat itzultzera bidaltzen denean, sistemak lehenengo eta behin itzulpen-memorietan begiratuko du eta bat egiten duten itzulpen-unitateak bertatik hartuko ditu (giza itzulpena da, beraz oso fidagarria) eta aurkitzen ez duena itzultzaile automatikora bidaliko du. Eusko Jaurlaritzaren itzultzaile automatikoak itzulpen-memoriak txertatzeko motorra duenez, printzipioz, oso baliagarri izango da corpus hori itzulpen-sisteman integratzeko.
Horretaz gain, teknika estatistikoak erabiltzen dituzten itzulpen-sistementzat ezinbestekoa da corpus elebidun handiak erabiltzea. Momentu honetan, itzulpen automatikoan emaitzarik onenak ematen dituztenak sistema hibridoak dira, hau da hizkuntza-arauak eta gramatika-transferentzia, eta estatistikak erabiltzen dituztenak.
Hortaz, hori guztia kontuan, Itzulpen Memorien Banku Publikoaren proiektua jarri zuen martxan, 2011n, Eusko Jaurlaritzako Hizkuntza Politikarako Sailburuordetzak EJIE Eusko Jaurlaritzaren Informatika Elkartearen bitartez.
Hizkuntza Politikarako Sailburuordetzak hartu zuen bere gain proiektuaren ardura eta gidaritza eta hura aurrera eramateko (baldintza teknikoen plegua egiteko, Bankua diseinatzeko eta garapenaren jarraipena egiteko), EJIEren eta Itzultzaile Zerbitzu Ofizialaren laguntza izan du. Proiektua diseinatu baino lehen hainbat enpresarekin hitz egin zuten hiru erakundeetako ordezkariek ikuspuntu desberdinak ezagutzeko; gainera, Luxemburg-en dagoen Europako Batzordera joan ziren, bertan dituzten hizkuntza-kudeaketako zerbitzuak ezagutzeko asmoz.
Itzulpen Memorien Banku Publikoa (IMBP)
1. Definizioak: itzulpen-memoriak eta bankua
Itzulpen-memoriak hizkuntza desberdinetako testu (itzulpen-unitate) baliokideen corpus paraleloak dira, hau da, hizkuntza bateko jatorrizko testuek eta beren itzulpenek osatutako biltegi digitalak. Beraz, itzulpen-memoriek testu originalak eta testu itzuliak dituzte parekatuta; itzulpen-unitate bakoitza esaldi bat edo paragrafo bat izaten da. Itzulpen-memoriak oinarrizko tresna dira Ordenagailuz Lagundutako Itzulpen-lanerako (OLI - Computer Assisted Translation), zenbait aplikazio erabiliz (Trados, Wordfast, OmegaT, Déjà Vu, Transit, eta abar). Halaber, lanabes garrantzitsua dira hizkuntzen teknologietarako (itzulpen-automatikoa –Machine Translation–, analizatzaile morfologikoak eta sintaktikoak, eta abar). Itzulpen-memorien bankua. itzulpen-memoriak bildu, sailkatu eta erabilgarri jartzeko aplikazio informatikoa da.
2. Zergatik eta zertarako Itzulpen Memorien Banku Publikoa?
Zenbait itzulpen-zerbitzu publikok, eta herri-erakundeentzako itzulpen-lanak egiten diharduten beste zenbait itzulpen-taldek, -enpresak eta -hornitzailek, urteak daramatzate (hamar baino gehiago, kasu askotan) ordenagailuz lagundutako itzulpen-aplikazioak erabiltzen eta, ondorioz, itzulpen-memoriak sortzen eta baliatzen. Itzulpen-memoria horiek guztiak banku publiko baten bidez guztion eskura jartzeak onura ekar diezaieke, batetik, euskarazko itzulpengintzaren koherentziari eta terminologiaren zein fraseologiaren bateratzeari eta normalizatzeari, eta, bestetik, itzulpen-zerbitzuen produktibitateari eta ahalmenari.
Eusko Jaurlaritzaren kasuan, IVAPeko Itzultzaile Zerbitzu Ofiziala (IZO) 1999an hasi zen itzulpen-memorien sistema erabiltzen, Trados teknologia baliatuta lehenik, gero Wordfast eta, orain, berriro Trados. 2003tik aurrera, IZOk Itzulpenen Datu Basea (IDABA) sortu eta Jaurlaritzako itzultzaile eta langile euskaldun guztien eskura jarri zuen 2006an. IZOk emandako datuen arabera, hauek dira IDABAk eskaintzen dituenak eta IMBPra pasatuko direnak:
- IZOren IM (Itzulpen Memoria) nagusia (430 MB)
- IZOren IM sailkatuak, 19 guztira (3050 MB)
- EHAAko (Euskal Herriko Agintaritzaren Aldizkaria) 18 IM (500 MB)
- EHAAko IM nagusia (200 MB)
Guztira, oraingoz (etengabe handitzen ari baita), 4,18 GB ditu, 29 memoriatan. Horri gehitu behar zaizkio Europako arauen IMak, Nazioarteko testuen IMak eta Estatuko lege- arauen IMak.
IZO IMBP proiektuan parte hartzen ari da hasiera-hasieratik eta, esan bezala, dituen memoria guztiak bertan kargatuko dira. IMBPak IDABAk baino funtzionalitate gehiago eskainiko ditu eta, gainera, irekita egongo da edozein pertsonak erabili ahal izateko.
3. Bankuaren ezaugarri teknikoak eta funtzionalak
Aipatu bezala, HPSk EJIEren bidez bideratu zuen proiektua. Lehiaketa publikoaren prozesuaren ostean UZEI entitateari esleitu zitzaion proiektua. UZEIrekin batera, aplikazioa garatzen oso modu aktiboan parte hartu dute HPSk, IZOk eta EJIEk.
Itzulpen Memorien Banku Publikoak bi ingurune ditu:
- Internet: kontsultak egiteko, memoriak eta dokumentuak esportatu eta inportatzeko, eta
- Intranet: Bankua kudeatzeko eta administratzeko.
3.1. Internet ingurunea
Bankuak itzulpen-memoriak eta dokumentu itzuliak gordeko ditu. Hauek dira eskainiko dituen funtzionalitateak:
a) Kontsultak egitea: kontsulta arrunta, bi hizkuntzatan, lema bidezkoa eta kontsulta aurreratua; gainera, Bankuan dauden memorien katalogoa ere kontsultatuko da. Kontsulten muga 20.000 itzulpen-unitate da. Hori baino gehiago nahi izanez gero, esportaziora jo behar da. Kontsultako galderan, gutxienez hiru karaktere sartu beharko da eta % ikurra erabiliko da trunkazioa aplikatu nahi izanez gero.
Ikus dezagun kontsulta arrunt bat:
Kontsultaren emaitza:
Kontsulta aurreratua aukeratuz gero, metadatuak erabili daitezke kontsulta mugatzeko:
Kontsultaren emaitza TAB eta TMX formatuetan esporta daiteke memoria moduan, erabiltzaileak jarritako metadatuekin:
Bankuan erabiliko diren metadatuak hauek dira:
- Memoriaren / Dokumentuaren izena
- Memoriaren / Dokumentuaren data
- Jatorri-erakundea
- Gaia [1]
- Dokumentu-mota eta azpimota (dokumentuen kasuan) [2]
- Sorburu-hizkuntza [3]
- Xede-hizkuntza [3]
- Formatua. Hauek dira IMBPak onartzen dituen formatuak:
Memoriak: Po, TMX, Trados (txt)
Dokumentuak: Sdlxliff, Tab, Ttx, Trados TW/WF (bak, txt),Txml, Xliff.
b) Bankutik memoriak esportatzea edo deskargatzea eta Bankura memoriak inportatzea edo kargatzea: bi prozesu hauek erabili ahal izateko, beharrezkoa da Bankuan erregistratuta egotea:
Erregistratuta egonez gero, saioaren hasieran, erabiltzailea eta pasahitza jarrita sartuko da aplikazioan.
Erregistratuta ez dagoenak, gutxieneko datuak sartu beharko ditu sisteman alta emateko; datuak bidali ostean, sistemak, egiaztatze-prozesu baten ondoren, 'Erabiltzailea' eta 'Pasahitza' emango dizkio eskatzaileari Bankuan eragiketa horiek egin ahal izateko.
IMBPtik memoriak esportatu
Bankutik memoriak eta dokumentuak deskargatu ahal izango dira. Bankuko memoriak honela sailkatu dira:
- Memoria estatikoak: erabiltzaileek IMBPren esku jarritako itzulpen-memoriak dira. IMBPra inportatu diren itzulitako dokumentuen kasuan, dokumentu horiek ere estatiko gisa deskarga daitezke atal honetatik, memoriez gainera. IMBParen sistemaren kudeatzaileak, Bankuan integratu aurretik, balioztatu ditu memoria eta dokumentu hauek, hau da egiaztatu du, formatu aldetik, ez dutela akatsik.
Memoria eta dokumentu estatikoak jatorrizko formatuan nahiz TMX edo TAB formatuetan esporta daitezke.
- Memoria masterrak: gai edo jakintza-arlo bakoitzerako berariaz prestatutako memoriak. Eredugarritzat jotzen diren dokumentuekin, aurrez, Bankuaren kudeatzaileak sortutako memoriak dira, gai jakin bateko itzulpenak egiteko egokiak. Gai hauetako memoriak eskainiko dira: Administrazioa; Biologia; Ekonomia eta Enpresa; Elektrizitatea eta Elektronika; Eraikuntza, Hirigintza, Lurralde-antolaketa; Erlijioa; Filosofia; Garraioa, Posta, Telekomunikazioak; Geografia; Geologia; Gizarte-ongizatea; Herri-ogasuna, Zergak; Herrizaingoa, Babes Zibila; Historia; Hizkuntzalaritza, Literatura; Industria; Informatika, Informazioaren eta Komunikazioaren Teknologiak; Informazio-zientziak, Dokumentazioa, Liburuzaintza; Ingurumena; Kimika eta Fisika; Kirola, Jokoak, Aisia; Kultura, Arteak; Matematika eta Estatistika; Medikuntza; Merkataritza, Lan-harremanak; Nekazaritza eta Arrantza; Osasuna; Politika, Soziologia, Antropologia; Psikologia, Pedagogia, Hezkuntza; Zuzenbidea.
Memoria horiek TMX edo TAB formatuetan esportatu ahal izango dira.
- Memoria dinamikoak: erabiltzaileak hautatzen dituen parametroen arabera sortutako memoriak. Jatorrizko hizkuntza eta xede-hizkuntza hautatuz eta jatorri-erakundea, gaia, dokumentu mota edo azpimotaren gisako parametroak zehaztuz, ad hoc presta ditzake memoriak. Erabiltzaileak definitutako ezaugarriak dituzten itzulpen-unitateak bildu eta memoria bat sortzen da, gero erabiltzailearen ordenagailura deskargatzeko TAB nahiz TMX formatuetan.
- Memoria adimendunak: erabiltzaileak itzultzeko dauzkan dokumentuaren arabera, IMBPk prestatzen dizkion memoriak. Erabiltzailearen dokumentua aplikazioan kargatzen da, analizatzen da eta testuko esaldien antzekoak diren itzulpen-unitateak bilatzen dira Bankuan. Aurkitutako antzeko itzulpen-unitateekin memoria bat egiten da eta erabiltzaileari deskargatzeko aukera eskaintzen zaio, TAB edo TMX formatuetan. Memoria horrek antzeko itzulpen-unitateak dituela esaten denean esan nahi da berdinak edo oso antzekoak direla; hau da, zatitxoren bat desberdina duten esaldiak ere aintzat hartzen ditu.
Ikus dezagun memoria estatiko baten bilaketaren emaitza:
Esportazioa prest dagoenean, honela eskainiko da:
Memoria adimenduna sortzeko pantaila:
Esportazio-kopuruari dagokionez, eguneko, bi egin ahal izango dira eta, gehienez, 20 MB deskargatu ahal izango dira. Hainbat kasutan, BATCH prozesuak erabiliko dira esportazio- eskaerari erantzuteko: memoria dinamikoen eta adimendunen kasuan, beti; memoria estatikoen kasuan, berriz, jatorrizko formatua eskatzerik izango da baina, BATCH prozesua erabiliko da TAB edo TMX formatuak eskatuz gero. BATCH prozesua erabiltzen denean, hurrengo egunean edo egunetan (eskatutakoaren tamainaren arabera) jasoko du erabiltzaileak bere eskaeraren emaitza. Dena den, esportazioa eskatu duenak haren jarraipenaren berri izango du Bankuan bertan. Sortutako esportazioaren emaitza egun batzuetan gordeko da baina, epe hori pasatuta, automatikoki ezabatuko da.
IMBPra memoriak inportatu
Erabiltzaileek IMBPra memoriak eta dokumentuak kargatu ahal izango dituzte. Horretarako, inportatu nahi den memoriari edo dokumentuari metadatuak jarri beharko dizkiete; gainera, zein formatutan inportatuko dituzten zehaztu beharko dute. Behin inportazioa eginda, sistemak txostentxoa sortuko du automatikoki inportatutako unitate-kopurua agertuz eta antzemandako datu pertsonal, akats edota unitate errepikatuen berri emanez. Horrelakoak aurkituz gero, erabiltzaileari zuzentzeko eskatuko zaio eta berriro inportatzeko. Horren ostean, memoria edo dokumentu horiek balioztatzeke geldituko dira, hau da administratzaileak edo kudeatzaileak ontzat eman arte, ez dira Bankuan argitaratuko. Prozesu hori amaitu arte, tarteko biltegi batean gordeko dira eta, behin balioztatu ondoren, Bankuan argitaratuko dira.
Datu pertsonalak direla eta, badakigu zail samarra dela modu automatikoan garbitzea; izan ere, parametroak definituta badaude ere (izen-abizenak, nortasun-agiriak, telefono-zenbakiak, helbideak…), hainbat kasutan ez dira kendu behar (entitate publikoetako telefonoak badira, kargudun publikoen izenak badira, legeen zenbakiak badira...). Horregatik, inportazioa egingo duena arduratuko da bere memoriako edo dokumentuko datu pertsonalak garbitzeaz, Bankura inportatu aurretik.
Inportatutako itzulpen-unitateen kopurua agertuko da:
Erabiltzaileak inportazioaren egoeraren jarraipena egingo du aplikazioaren bidez:
c) Kudeatzaileen eta erabiltzaileen arteko komunikazioa bideratzea: Komunikazio- moduluaren bidez, erabiltzaileak Bankuaren kudeatzaileekin harremanetan egongo dira kontsultak, zuzenketak nahiz iruzkinak egiteko.
d) Laguntza orokorra: Bankuaren ezaugarrien eta erabileraren gaineko informazio zehatza ematen duen eskuliburua egongo da atal honetan.
Horretaz gain, pantaila bakoitzean, goian, eskuinaldean, dagoen 'Info' botoian klik eginda, momentu horretan erabiltzaileak balia dezakeen funtzionalitatearen gaineko azalpen laburra ematen da.
3.2. Intranet ingurunea
Itzulpen Memorien Banku Publikoa administratzeko eta kudeatzeko moduluak dira. Bankuaren administratzaileek eta kudeatzaileek Intraneteko funtzionalitateez gain, beste batzuk ere erabiliko dituzte: itzulpen-unitateak zuzentzeko eta eguneratzeko, erabiltzaileak kudeatzeko, eta Bankua bera administratzeko eta kudeatzeko, kasurako memorien metadatuak zuzendu edota eguneratu, esportazioak eta inportazioak bideratu, erabiltzaileen bestelako eskaerei erantzun, estatistikak kudeatu eta abar.
4. MBPko memorien eta dokumentuen iraupena
Bankuko memoria eta dokumentu batzuk, denbora aurrera joan ahala, zaharkituta geldituko dira. Hori dela eta, kudeatzaileak katalogotik kenduko ditu. Deskatalogatutako memoriak biltegi batean gordeko dira Bankuaren barruan. Prozesu horretarako, oraingoz, ez da aurreikusi epe jakin bat (hainbat tokitan 5 urte izaten dira).
Itzulpen Memorien Banku Publikoaren ardura eta kudeaketa
IMBPa erabat amaituta eta martxan dagoenean, IVAPeko Itzultzaile Zerbitzu Ofizialak hartuko du bere ardurapean eta, hortik aurrera, zerbitzu horrek kudeatuko du. Izan ere, Itzultzaile Zerbitzu Ofiziala da horrelako tresna baten toki naturala.
Itzulpen Memorien Banku Publikoaren hornitzaileak eta erabiltzaileak
Banku publikoa izanik, Hizkuntza Politikarako Sailburuordetzak EAEko gainerako herri- administrazioak (foru-aldundiak, udalak), Eusko Legebiltzarra, erakunde autonomiadunak, sozietate publikoak, EHU, Nafarroako Gobernua eta Parlamentua, eta horientzat guztientzat lan egiten duten itzulpen-enpresak gonbidatuko ditu beraien memoriak IMBPn txerta ditzaten eta, horrela, guztion eskura jar ditzaten. Horrela, guztion ekarpenei esker, gorago aipatutako corpus parekatu elebidun/eleaniztun handia sortuko litzateke. Horretarako, jakina, lankidetza- bideak jorratzeko prest dago HPS.
I. eranskina
Itzulpen-memorien eta dokumentuen gaikako sailkapena:
II. eranskina
Dokumentu motak eta azpimotak:
III. eranskina
IMBPak onartzen dituen hizkuntzak:
Sorburu-hizkuntza
SH1*Euskara
SH2*Gaztelania
SH3*Frantsesa
SH4*Ingelesa
Xede-hizkuntza1
XH1*Euskara
XH2*Gaztelania
XH3*Frantsesa
XH4*Ingelesa
Xede-hizkuntza2
XH1*Euskara
XH2*Gaztelania
XH3*Frantsesa
XH4*Ingelesa
Xede-hizkuntza3
XH1*Euskara
XH2*Gaztelania
XH3*Frantsesa
XH4*Ingelesa