Wikipedian posteditatzeko gidalerroak
Amaia Solaun Martínez

Artikulu honen helburua Wikipedian gaztelaniatik euskarara posteditatzeko gidalerro batzuk sortzea izan da. Horretarako, gidalerro minimo batzuk sortu, eta postedizio proba batean frogatu ditugu, 7 wikilariren laguntzarekin. Ondoren, probaren emaitzak aztertu, eta hasierako gidalerro minimoei hobekuntzak egin zaizkie.

Sarrera

Postedizioa (PE) gero eta ohikoagoa da itzulpen merkatuan, baina ez dugu ahaztu behar praktika hori ez dela eremu profesionalera mugatzen. Izan ere, itzultzaile profesionalak ez direnek ere erabiltzen dituzte sarean eskuragarri dauden doako itzultzaile automatikoak. Hori dela eta, erabaki genuen eraldaketa prozesu horren erakusgarri den eremu bat aztertzea: crowdsourcing plataformetako postedizioa. Azterketa horren emaitza UPV/EHUko Itzulpengintza eta Interpretazio ikasketetako Gradu Amaierako Lan (GRAL) gisa aurkeztu genuen, 2021ean, Elizabete Manterolaren tutoretzapean; eta, artikulu honetan, GRAL horren laburpena jaso dugu.

Crowdsourcing plataformetako edukia jende askoren elkarlanari esker sortzen da, eta gerta daiteke kolaboratzaile horiek adituak nahiz ez-adituak izatea. Horrek esan nahi du, itzulpenaren kasuan, itzultzaile profesional eta ez-profesionalek parte har dezaketela. Eredu horren adibideak dira, besteak beste, TED fundazioa eta Wikipedia.

Guk, zehazki, Euskal Wikipedia aztertzea erabaki genuen, neurri handi batean itzulpenaz elikatzen delako, eta erabiltzaileen artean PEa ohiko praktika delako. Ikerlana gidalerroen sorkuntzan zentratu genuen, gaztelaniatik euskararako norabidean, bi arrazoirengatik: alde batetik, gidalerroak PErako ezinbesteko baliabide bat izanda ere, oraindik gidalerro publiko gutxi daudelako; eta, bestetik, Wikipediaren kasu konkretuan ez zegoelako gidalerrorik ez euskararako ez beste hizkuntza batzuetarako ere.

Gidalerroak sortzeko, PE proba bat diseinatu genuen: lehenik, gidalerro minimo batzuk sortu genituen; bigarrenik, gidalerro horiek, 7 wikilariren laguntzaz, PE proba batean frogatu genituen; eta, azkenik, probaren emaitzak aztertu, eta haien arabera gidalerro minimoei hobekuntzak egin genizkien. Bestalde, proban parte hartu zuten wikilariei galdetegi bat bidali zitzaien, pertsonen laginaren ezaugarriei behatzeko.

Postedizio proba

Oinarri teorikoa

PE probaren diseinurako, Linda Mitchellen doktorego tesian oinarritu ginen, gure lanarekin antzekotasun gehien zituen ikerlana zen heinean. Michellek, postedizio komunitaterako bere tesian, gidalerro batzuk sortu zituen lehenengo aldiz; zehazki, Norton enpresako erabiltzaile-foroko mezuak ingelesetik alemanera posteditatzeko.

Gidalerroak sortzeko, PE proba bat egin zuen, 18 partaideren laguntzarekin. Lehenik, parte hartzaileek galdetegi bat bete zuten, eta, galdetegi horretatik, bi informazio mota eskuratu zituen: informazio demografikoa, eta itzulpenaren eta postedizioaren inguruko iritziak. Horren ostean, partaide bakoitzak 12 testu posteditatu zituen, Mitchellek sortutako gidalerroen minimoei jarraituta. Ondoren, PEaren emaitzak aztertu ziren, hiru ebaluazio sistema erabilita: 1) akats anotazioa; 2) eremuko espezialistaren ebaluazioa; eta 3) komunitateko kideek egindako ebaluazioa.

Guk, PE probarako, berak jarraitutako eskemari eutsi genion, baina, GRAL baten dimentsioetara egokitzeko, testu eta pertsonen lagina murriztu, eta prozesua sinplifikatu genuen; guk, postedizioaren emaitzak ebaluatzeko hiru sistema erabili beharrean, bakarra erabili genuen: akats anotazioa. Halaber, azpimarratzekoa da, itzultzaile automatikoaren hautuari erreparatuz, gure proba eguneratuagoa dagoela, itzultzaile estatistiko baten ordez itzultzaile neuronal bat erabili baikenuen.

Itzultzaile automatikoaren aukeraketa

Lana hasi aurretik, Euskal Wikipediako Aiora Mujikarekin eta Galder Gonzalezekin, eta baita Elhuyarreko Itziar Cortésekin hitz egin genuen. Haiek jakinarazi ziguten Elia Wikipediako testu editorean integratzeko asmoa zutela, eta dagoeneko proiektua martxan zegoela. Horregatik, probarako Elia itzultzailea erabiltzea erabaki genuen.

Gure aukeraketa prozesua, beraz, ezohikoa izan zen. Normalean, PE probak egiterakoan, hainbat itzultzaile automatikorekin egiten dira itzulpen probak, eta kalitate handieneko emaitzak sortzen dituena aukeratzen da, PEaren eraginkortasuna lehen itzulpen gordin horren menpekoa baita. Gure kasuan, aldiz, ez genuen halako alderaketarik egin, eta zuzenean Elia erabili genuen, esan bezala itzultzaile hori izango baitzen Wikipedian integratuko zena.

Proba Wikipediako testu-editoretik kanpo egin genuen, proba egin genuenean Elia oraindik ez baitzegoen Wikipedian integratuta. Printzipioz, askoz egokiagoa da proba erabiltzaileen ohiko lan-tresnan egitea, egoera errealagoa baita, eta sor daitezkeen erabilera arazoak hauteman baitaitezke, baina, gure kasuan, ez zen posible izan. Hala ere, aipatu beharra dago dagoeneko Elia Wikipedian integratuta dagoela, eta, etorkizunera begira proba errepikatuz gero, testuinguru egokienean probatzeko aukera egongo litzatekeela.

Testuen laginak

Testuen laginetarako, Wikipediako bi artikuluren azpiatal bana erabiltzea erabaki genuen: bata OME erakundearen ingurukoa eta bestea feminismoaren eta generoaren ingurukoa.

Biak gaztelaniazko Wikipediatik atera genituen, testuek Wikipediako artikuluen erakusgarri izan behar baitzuten. Hortaz, aukerarik onena testu errealak aukeratzea zen. Egoera are errealagoa izateko, euskaratu gabeko azpiatalak aukeratu genituen, eta aintzat hartu genuen jadanik euskaraz zegoen artikuluaren kalitatea. Azken horretarako, ORES kalitate neurgailuari erreparatu genion, eta puntuazio baxuena zuten artikuluak hobetsi genituen, horiek baitira euskarazko edukia falta duten artikuluak.

Testuak aukeratzerakoan, saiatu ginen orokortasunaren eta espezializazioaren artean oreka bat bilatzen. Argi geneukan testuak ezin zirela oso espezializatuak izan, bi arrazoirengatik: lehenik, parte hartzaileak jakintza alor batekoak baino gehiagotakoak izan zitezkeelako, eta, bigarrenik, gaiaren inguruan zuten jakintza maila desberdinak PEaren kalitatea baldintzatu zezakeelako, eta kasu horretan emaitzak ez zirelako guretzat erabilgarriak izango. Aldi berean, testuak ezin ziren orokorregiak izan, Wikipediako artikuluetan terminologia espezifikoa ager baitaiteke. Azkenean, hori guztia kontuan izanik, erabaki genuen egunerokotasun handiko gai sozialak jorratzen zituzten testuak aukeratzea, nolabait eskuragarriak eta interesgarriak izan daitezkeelako edonorentzat, baina aldi berean izen berezien eta terminologiaren agerpena ere bermatzen dutelako.

Proba gehiegi ez luzatzearren, artikuluen azpiatalekin lantzea erabaki genuen; izan ere, laburrak izanda, ideia edo azpiadar bat jorratzen dute, eta, neurri batean, testu independente gisa funtziona dezakete. Azpiatalen luzera 200-300 hitzera mugatu genuen, bi laginek antzeko luzera izan zezaten.

Gidalerro minimoen sorkuntza

Kontuan hartuta itzultzaileek ez zutela zertan profesionalak izan, erabaki genuen gidalerroen helburua PE arina izan behar zela.

PE arinak amaierako testu ulergarri eta erabilgarri bat sortzea du helburu, nahiz eta hizkuntza eta estilo aldetik perfektua ez izan. Normalean, irakurleak atzeman dezake itzulpen automatiko (IA) posteditatu bat dela (DePalma 2013, Hu eta Cadwell 2016, 347. or.-an aipatua).

Probarako gidalerroak sortzeko, beste bi gidalerro multzotan oinarritu ginen: alde batetik, TAUSen (2016) PE arinerako gidalerroak, eta, bestetik, Mitchellek (2015) bere tesian proposatutakoak.

solaun_1_taula.png
1. taula. TAUSen eta Mitchellen gidalerroak.

Gure gidalerroetan, beste gomendio bat ere barneratzea erabaki genuen (7. irizpidea): itzultzaile automatikoaren proposamena baztergarria baldin bada, hobe da errotik itzultzea. Pentsatu genuen PEaren inguruan ezagutza maila desberdinak egon zitezkeela eta horrenbestez komenigarria zela oinarrizko printzipio hori ezartzea. Itzultzaileei aurkeztutako gidalerroak hauek izan ziren:

  1. Bermatu ez dela informaziorik gehitu edo ezabatu.
  2. Bermatu itzulpenak jatorrizkoaren esanahia biltzen duela eta ez dagoela kontraesanik.
  3. Berrordenatu esaldia beharrezkoa bada, eta zuzendu gramatika akatsak. Testuak ulergarria izan behar du.
  4. Zuzendu ortografia akatsak.
  5. Ahal den neurrian, mantendu itzultzaile automatikoak proposatutako hitzak, esaldiaren ordena eta puntuazioa.
  6. Itzulpen automatikoak sortutako esaldia ez bada batere erabilgarria, itzuli errotik.

Ebaluazio sistema

Itzultzaile automatiko baten kalitatea neurtzeko, batez ere hiru metodo erabiltzen dira: ebaluazio automatikoa, giza ebaluazioa eta erabilgarritasun ebaluazioa (Mitchell, 2015: 42). Proba honetarako, giza ebaluazioa erabili genuen, eta, zehazki, akats anotazioa egin genuen.

Akats anotazioa testu batean dauden akatsak hautematean eta sailkatzean datza. Itzultzaile automatiko batek sortutako emaitzaren kalitatea neurtzea ahalbidetzen du, eta baita emaitzak hobetzeko estrategiak diseinatzea ere (Comparin eta Mendes, 2017: 1).

Akats anotazioak, gainera, IA eta PEaren emaitza alderatzeko aukera ematen du (Comparin eta Mendes, 2017; Mitchell, 2015), baldin eta bi testuak anotatzen badira. Metodo horrekin, jakin daiteke zer akats zuzendu diren eta zein ez (Comparin eta Mendes, 2017: 2). Hortaz, oso informazio egokia da gidalerro erabilgarri batzuk sortzeko orduan.

Akatsak sailkatzeko, ezinbestean errubrika bat osatu behar da. Gomendatzen da egindako aldaketa indibidual bakoitzari kategoria bat esleitzea. Kategoria eta azpikategoria kopurua aldakorra izan daiteke, gomendatzen baita errubrikaren kasuan kasuko beharretara egokitzea (Solokiev, 2017).

Ohikoa da, bestalde, nahiz eta ezinbestekoa ez izan, aldaketa bakoitzari larritasun maila bat esleitzea. TAUSek 4 erabiltzea gomendatzen du: kritikoa, handia, txikia eta neutrala (TAUS, d.g). Horiez gain, aukeran bosgarren bat erabiltzea proposatzen du, feedback positiboa emateko: «Kudos». Kudos kategoriak adierazten du posteditoreak oso lan ona egin duela eta hitzak oso ondo aukeratu dituela (Solokiev, 2017).

solaun_1_irudia.png
1. irudia: Postedizio aldaketen sailkapena (De Almeida, 2013: 95).

Gure errubrika sortzeko, Giselle de Almeidak proposatutako errubrika hartu genuen oinarri (2013: 95), baina euskararako egokitzapen gramatikalak eginez. De Almeidaren errubrikari jarraituz, akats gramatikalak zehaztasun handiz sailkatu zitezkeen. Hori oso erabilgarria zitzaigun; izan ere, euskarak eta gaztelaniak arau gramatikal desberdinak dituztenez, ziurrenik gramatikalak izango ziren akats gehienak. Gainera, errubrika egokia da erabiltzaileek sortutako edukiaren PEa ebaluatzeko orduan (Mitchell, 2015: 94).

Akatsen larritasun maila sailkatzeko, berriz, gure eskema propioa sortu genuen, TAUSen MQM eta Comparin eta Mendesen proposamenetik abiatuta (2017: 3). Gure proposamenean, «kudos» kategoria itzulpen egokia bonifikatzeko erabili beharrean, jatorrizkoaren edukia argitzen edo hobetzen laguntzen duten aldaketetarako erabiltzen da.

Proposamen hori ez litzateke zentzuzkoa izango postedizio profesionaletarako, baina zentzuduna da Wikipedia bezalako kolaborazio-plataforma baterako. Wikipediako edukia era askotako erabiltzaileen artean sortzen da, eta, hortaz, ez da harrigarria akatsak eta kalitate maila eskaseko segmentuak aurkitzea jatorrizko testuetan. Wikilariek, ziurrenik, horrelako segmentu baten aurrean, edukiaren kalitatea eta ulergarritasuna bermatzearren, PEtik haratago doazen aldaketak barneratuko lituzkete, eta edukia bera ere moldatuko lukete. Dena den, guk egindako PE proban, jatorrizko testuaren eduki-akatsak ez zuzentzeak ez zuen penalizaziorik izan, ulertzen baita aldaketa horiek PE jardunetik haratago doazela, batik bat akatsa jatorrizko testuan dagoelako eta ez hainbeste IAn.

solaun_2_taula.png
2. taula: akatsen sailkapena larritasunaren arabera.

Pertsonen lagina

Hasiera batean, proba 8 pertsonarekin egitea aurreikusi genuen: lau pertsonak testu bat posteditatuko zuten eta beste lauk beste bat. Tamaina horretako lagina egokia zen gure lanaren dimentsioetarako: gidalerroak doitzeko adina informazio eskuratu genezakeen, baina gehiegi luzatu gabe. Dena dela, azkenean, 7rekin egin genuen proba, deialdian 8 parte hartzaile lortu bagenituen ere, batek azkenean huts egin baitzigun.

Deialdia Wikipediako Txokoa ataletik egin genuen. Mezu bat utzi, eta, gero, Galder Gonzalezek, Euskal Wikilarien Kultur Elkarteko sortzaileetako batek, mezua zabaltzen lagundu zigun.

Proba egiterakoan, partaide bakoitzari galdetegia eta beste hiru dokumentu bidali zitzaizkion, postaz: gidalerroak, jatorrizko bertsioa eta itzulpen automatikoaren (IA) emaitza. Horren ostean, bueltan galdetegia eta posteditatutako dokumentua bidaltzeko eskatu zitzaien.

Parte hartzaileei bidalitako galdetegiari esker, parte hartzaileen profila eratu genuen, ikusi ahal izateko ea euren hizkuntza mailak eta esperientziak euren postedizio emaitzetan eragiten zuen ala ez. Profil hori eratzeko, batez ere lau alderdiri erreparatu genion: informazio demografikoa, euskararen ezagutza eta erabilera maila, Wikipediako esperientzia, eta itzulpen eta postedizio esperientzia.

Parte hartzaile guztiak gizonak izan ziren, 35-62 urte artekoak, eta guztiek, batek izan ezik, denbora luzea zeramaten Wikipedian kolaboratzen (8-15 urte). Denek euskararen ezagutza maila altua zuten (C1 edo C2 ziurtagiria), eta, gainera, maiz erabiltzen zuten.

Esperientziari begira, guztiek zuten era bateko edo besteko esperientzia itzulpenean nahiz PEan, baina ez maila berean: gehienek kontsumo propiorako edo lanerako itzultzen zuten, eta soilik bik jarduten zuten itzulpen profesionalean. Dena dela, denek zuten esperientzia Wikipediako itzulpenean eta postedizioan. Aipatzekoa da, bestalde, guztiek zutela ezagutza ona eskuragarri dauden hizkuntza baliabideen inguruan.

PErako erabilitako tresnak aukeratzerakoan, gehienek Euskal Herrian garatutako itzultzaile neuronaletara jotzen zuten (Elia, Batua eta Itzuli), eta bereziki Itzuli erabiltzen zuten. Orokorrean, tresna horiekin izandako esperientzia positiboa zela adierazi zuten (batez besteko nota: 8,14/10).

Postedizio probaren emaitzak

Akats anotazioa: emaitza kuantitatiboak

Testuen ebaluaziorako, IAk sortutako bertsioa eta posteditatutako bertsioko akatsak anotatu eta alderatu genituen, lehen aurkeztutako bi ebaluazio errubrikei jarraituta. Bestalde, kalitatearen ehunekoa (IQ) ateratzeko, TAUSek (2017) proposatutako formulak erabili genituen.

solaun_3_taula.png
3. taula: TAUS (2017), itzulpen kalitatearen kalkulua.

solaun_4_taula.png
4. taula: akats anotazioaren emaitzak.

4. taulan, IAk eta posteditore bakoitzak egindako akats kopurua (mantendutakoak nahiz posteditoreak gehitutakoak) eta kategoria bakoitzeko penalizazioa jasotzen dira. Azken zutabean, datuen guztizkoak biltzen dira: akats kopuruen eta penalizazioen guztizkoak, eta itzulpen kalitatea ehunekotan emanda.

Lehenik eta behin, aipatu behar dugu IAren bertsioek bi kasuetan kalitate puntuazio altua lortu zutela (IA IQ), eta akats kopuru aldetik ere parekoak zirela. Dena den, ikus daitekeen moduan, bietan akats mota desberdinak egon ziren: A testuko (OMEren ingurukoa) akats gehienak zehaztasun akatsak ziren; B testukoak, aldiz, hizkuntza motakoak. Horrez gain, A testuan ez genuen formatu akatsik (kakotxak, etzanak, etab.) aurkitu, B testuan ez bezala.

PE emaitza onak lortu ziren, kasurik txarrenean ere jatorrizkoa 3 puntu hobetzea lortu baitzen. Hala ere, gogoan izan behar da testuak PE arineko ikuspuntutik zuzendu zirela eta horrenbestez estilo kontuak alde batera utzi zirela. Horiek kontuan hartuz gero, puntuazioa baxuagoa litzateke, bai IArena, bai posteditoreena.

Akats kopuruen guztizkoa ere kasu guztietan gutxitu zen, eta, gainera, IAaren kategoria penalizatuenetan, emaitza hobetu zen. Horrek adierazten du itzultzaileak gai izan zirela akats larrienak hautemateko eta ondo ebazteko. Kategoria guztietan hobetu ziren emaitzak, edo, bestela, IAren emaitza berdindu zen, salbuespen bat kenduta: A4 posteditorearena. Taulan ikus daitekeenez, A4 posteditoreak IAk baino penalizazio altuagoa du hizkuntza kategorian, eta baita akats gehiago ere. Kasu konkretu horretan, ikusi genuen identifikatu zituela IAren akats larrienak, baina ez zituela beti behar bezala ebatzi; ondorioz, kasu batzuetan, zehaztasun akatsen ordez, hizkuntza akatsak gehitu zituen.

Orokorrean ez genuen ikusi posteditorearen profilak posteditatutako testuaren kalitatea baldintzatu zuenik, ez behintzat PE arinaren ikuspuntutik. Dena den, behatu genuen hizkuntza maila altuagoa zutenek eta itzulpen profesionalean zihardutenek desberdin jokatzen zutela: aldaketa gehiago egin zituzten, eta maizago proposatu zituzten estilo aldaketak, eta halakoak lotuago daude PE osoaren helburuekin. PE osoan, PE arinean ez bezala, giza itzulpenaren pareko kalitatea duen testu bat sortzea bilatzen da, hala hizkuntza aldetik nola estilo aldetik zuzena dena (DePalma, 2013 in Hu eta Cadwell, 2016: 347).

Anotazioa: azterketa kualitatiboa

Ikuspuntu kualitatibo batetik, bi motatako akatsak aztertu genituen: alde batetik, mantendutako akatsak, eta, bestetik, gehitutakoak. Horrez gain, itzultzaile automatikoaren ahulezia bat ere atzeman genuen: izen berezien itzulpena. Aurkitutako akats motak era argi batean azaltzeko, testuen lagin bateko baino gehiagotako adibideak jaso ditugu tauletan.

Mantendutako akatsetik hasita, behatu genuen batzuk oso arinak zirela, edukiari eta ulermenari kalterik egiten ez ziotenak. Esate baterako, artikulu mugagabearen ordez artikulu mugatua erabiltzea (1. adibidea). Horrelako akatsak ez genituen zenbatu IAren eta PEaren emaitzetan, ez baitzioten kalterik egiten testuaren ulermenari.

solaun_5_taula.png
5. taula: 1. adibidea.

Beste batzuetan, ortotipografia arazoak sortu ziren; esaterako, hainbat kasutan, kakotxak berrezarri gabe utzi ziren (2. adibidea). Ikusi genuen IAk kakotx latindarrak ezabatzen zituela eta ingelesak aldiz ez. Elia itzultzailearekin hainbat saiakera egin ondoren, ikusi genuen akatsa beti egiten zuela. Kakotxak akats arin gisa sailkatu genituen, behatutako kasuetan ez baitzion edukiari kalte handirik eragiten. Hala ere, beste kasu batzuetarako, garrantzitsuagoak izan daitezke; esaterako, aipuen kasuan.

solaun_6_taula.png
6. taula: 2. adibidea.

Beste akats batzuk mantentzeko arrazoia euskararen normalizazio eta ezagutza falta izan daitezke. Kasu konkretu batean ikusi genuen batek baino gehiagok arazoak zituela ere partikula posizio okerrean zegoela hautemateko eta zegokion lekuan jartzeko (2. adibidea). Gauza jakina da ere partikularen posizioak arazoak ematen dizkiola euskaldun askori, baita euskara maila aurreratua dutenei ere; beraz, ez da harritzekoa akats hori mantendu izana. Beste batzuek ere zailtasunak izan zituzten, besteak beste, atzerakarga arazoak (3. adibidea) eta ergatibo akatsak hautemateko (4. adibidea).

solaun_7_taula.png
7. taula: 3. adibidea.

solaun_8_taula.png
8. taula: 4. adibidea.

Gehitutako beste akats batzuek arreta galtzearen ondorioa dirudite. Batzuetan, badirudi arreta akats handiago bat zuzentzean jarri dela eta bien bitartean akats txikiak gehitu direla, batez ere gramatika mailan (5. adibidea). Beste batzuetan, omisio txikiak identifikatzeko arazoak izan dituzte, ziurrenik xehetasun horietan ez delako hainbesteko arreta jarri (6. adibidea).

solaun_9_taula.png
9. taula: 5. adibidea.

solaun_10_taula.png
10. taula: 6. adibidea.

Orokorrean, tankera horretako akatsak arinak dira, eta ia ez diote eragiten edukiari eta ulermenari. Gehitutako beste akats batzuek, berriz, agerian uzten dute posteditoreak ez duela ondo jakin nola ebatzi IAren akatsa. Batzuetan, saiatu dira mantentzen IAk proposaturiko hitzak, baina, zuzendu nahian, beste akats mota batzuk gehitu dituzte, batik bat gramatikalak (7. eta 8. adibideak). Kasu horietan, lortu da jatorrizkoa zertxobait hobetzea eta argitzea, baina gelditu diren akats batzuk larriak dira oraindik ere.

solaun_11_taula.png
11. taula: 7. adibidea.

solaun_12_taula.png
12. taula: 8. adibidea.

Halaber, konprobatu dugu izen bereziak gatazkatsuak direla itzultzaile automatikoarentzat. Kasu batzuetan, ondo identifikatu eta itzuli ditu, baina beste batzuetan ez. Esaldi luzeetan, bereziki galdu da, eta oso esaldi aldrebestua sortu du (9. adibidea). B testuan, arazoak izan ditu obra baten izenburuarekin ere (10. adibidea).

solaun_13_taula.png
13. taula: 9. adibidea.

solaun_14_taula.png
14. taula: 10. adibidea.

IAn, jatorrizkoan zetorren bezala mantendu da izena, hau da, gaztelaniaz. Posteditore gehienek ere hala jokatu dute, eta bakar batek euskaratu du. Orduan, posteditoreei sortu zaien galdera bera sortu zaigu: zelan jokatu halako kasuetan?

Printzipioz, guk proposatutako PE arinaren helburuari begira, bi konponbideak dira baliozkoak. Kontua da komeniko litzatekeela euskarazko Wikipedian nolabaiteko barne koherentzia bat izatea, eta, horretarako, estilo liburu txiki bat osatzea izango litzateke egokiena, batez ere horrelako arazoak maiz agertuko direlako. Dena den, zeregin hori lan honen helburuetatik haratago doa.

Amaierako gidalerroak

Pertsonen eta testuen laginak txikiak zirenez, gidalerroei egindako hobekuntzak minimoak dira. Gidalerro oso eta sakon batzuk sortzeko, komeniko litzateke lagin handiagoa aztertzea. Dena den, hemen egindako proposamenak oinarri bat izan daitezke etorkizunean gidalerroak hobetzeko eta osatzeko. Hona hemen amaierako gidalerroak:

  1. Bermatu ez dela informaziorik gehitu edo ezabatu.
  2. Bermatu itzulpenak jatorrizkoaren esanahia biltzen duela eta ez dagoela kontraesanik.
  3. Berrordenatu esaldia beharrezkoa bada, eta zuzendu gramatika akatsak.
  • Kontuz ere partikularekin, itzultzaileak batzuetan ez baitu dagokion tokian jartzen. Gogoratu beti gehitu nahi dugun elementu horren atzean doala.
  • Batzuetan, itzultzaileak baditu atzerakarga arazoak: esaldi luzeetan, aditza oso atzean uzten du. Horrelakoetan, posible bada, aurreratu aditza, esaldiaren esanahia argitzeko.
  1. Zuzendu ortografia eta ortotipografia akatsak.
  • IAko tresnak kakotx ingelesak mantentzen ditu, baina latindarrak ez; beraz, kontuz.
  1. Egiaztatu izen propioak ondo itzuli dituela.
  • Batzuetan, izen bereziak itzultzerakoan, arazoak izan ditzake. Gerta daiteke izena ezabatzea edota izen berezi bat egonagatik esaldia itzultzerakoan galtzea.
  1. Ahal den neurrian, mantendu itzultzaile automatikoak proposatutako hitzak, esaldiaren ordena eta puntuazioa.
  2. Itzulpen automatikoak sortutako esaldia ez bada batere erabilgarria, itzuli errotik.

Ondorioak

Wikipedian hainbat urtetatik hona IA erabiltzen bada ere, oraindik ez zegoen PE gidalerrorik eskuragarri. Hori dela eta, gaztelaniatik euskarara posteditatzeko gidalerro batzuk proposatu genituen, postedizio proba batean oinarrituta, zeinetan parte hartzaileak erabiltzaile errealak izan baitziren. Alde horretatik, gure lana berritzailea da.

Azpimarratzekoak dira proban lortutako emaitzak. Ikusi genuen itzultzaile ez-profesionalak ere gai direla IAren testuak orrazteko eta kalitate onargarri bateko emaitzak sortzeko, betiere PE arinaren ikuspuntutik, zeinetan onartzen baita akats guztiak zuzendurik ez egotea. Kasu guztietan, IAren kalitate emaitza hobetu zen, eta, kasurik txarrenean, 3 puntuko hobekuntza lortu zen.

Horrez gain, alde txikiak ikusi genituen itzulpen esperientzia handiena eta txikiena zutenen artean. Esperientzia handienekoek orokorrean aldaketa gehiago egiteko joera agertu zuten, eta estilo aldaketak maizago proposatu zituzten. Bestalde, parte hartzaileen euskara maila nahiko antzekoa zen, eta, beraz, ez genuen alderdi horretan desberdintasun handirik ikusi. Dena den, lanaren tamaina txikiegia da benetan hori guztia egiaztatzeko: ondorio argiagoak ateratzeko, beharrezkoa litzateke proba handiago bat egitea.

Etorkizunera begira, interesgarria litzateke horrelako postedizio proba bat berriz egitea. Guk testu editoretik kanpo lan egin genuen, Elia ez baitzegoen oraindik Wikipedian erabiltzeko prest, eta ezin izan genituen gidalerroak dagozkien testuinguruan probatu. Hala ere, lehen aipatu dugun bezala, Elia dagoeneko Wikipedian integratuta dago, eta, beraz, egun posible litzateke PE proba Wikipediako testu editorean egitea.

Bibliografia

Comparin, Lucia eta Mendes, Sara. (2017). Using error annotation to evaluate machine translation and human postediting in a business environment. EAMT 2017 konferentzia. Praga.

De Almeida, Giselle. (2013). Translating the post-editor: an investigation of post-editing changes and correlations with professional experience across two Romance languages [Doktoretza tesia]. Dublin City University. 95. or.

Hu, Ke. eta Cadwell, Patrick. (2016). A Comparative Study of Post-editing Guidelines. EAMT 2016 konferentzia. Riga. 347. or. DOI: 10.13140/RG.2.1.2253.1446

Mitchell, Linda. (2015). Community Post-Editing of Machine-Translated User-Generated Content [Doktoretza Tesia]. Dublin City University.

Solokiev, Kirill. (2017). Measuring Content Quality with Error Typology: Step by Step Guide. Blog.taus.net.

Taus. (2016). Mt post-editing guidelines. Amsterdam: TAUS Signature Editions.

Taus (D.g.). DQF-MQM error typology. Taus.net. (Kontsulta: 2021-04-12)