Elhuyarren 'Aditu' hizketa-ezagutzailea, beste aurrerapauso bat euskararen garapen digitalean
Josu Aztiria Urtaran, Saroi Jauregi Aiestaran eta Igor Leturia Azkarate

Euskarazko hizkuntza- eta hizketa-teknologiak aurrerapen handia izaten ari dira azkenaldian. 2019an, itzultzaile automatikoek egindako jauzia izan zen euskara eta teknologiaren arloan albiste; aurten, berriz, Elhuyarrek aurkeztutako Aditu hizketa-ezagutzailea (https://aditu.eus/) haren pareko mugarria izan da. Euskarazko hizketa transkribatzeko gai den sistema honek aukera berri ugari irekitzen ditu sektore askotan, baita itzulpenaren, bikoizketaren eta interpretazioaren munduaren ere. Gainera, hizketa-ezagutzaren teknologia itzulpen automatikoarekin eta hizketa-sintesiarekin konbinatzen bada, eraldaketa handia ekarriko du etorkizunean.

1. irudia_Aditu.jpg

Hizketa-ezagutzako teknologia, funtsean, hizketa daukan audio-seinale bat testu bihurtzean datza. Ingelesez Automatic Speech Recognition (ASR) edo Speech-To-Text esaten zaio. Hizkuntza- eta hizketa-teknologien beste alor askotan bezala (eta horietaz kanpoko beste alor ugaritan ere bai, hala nola irudien ezagutzan), honetan ere sare neuronalak erabiltzen hasi dira azken urteotan, eta jauzi handia eman da kalitatean.

Sare neuronalen «magia»

Zer magia egiten dute, bada, sare neuronalek, sistema automatikoen emaitzak hainbeste hobetzea lortzeko? Sare neuronalak gure burmuineko neuronak eta haien arteko konexioak imitatzen dituzten egitura informatiko-matematikoak dira. Gure burmuinean, sarrerak (hizketa, irudiak…) seinale elektriko bihurtzen dira, eta seinale horiek neurona-sarean zehar transmititzen dira, haren antolakuntzaren arabera, eta irteera bat edo beste sortzen da (beste hizketa bat, mugimendu bat…). Gure neurona-sarearen antolaketa bizitzan izandako ikasketa-prozesuak definitzen du. Sare neuronal artifizialetan, sarrera (audioa, testua, irudia…) digitalizatu egiten da, eta sareak digitu horiek transformatzen ditu, operazio matematikoak aplikatuz, eta irteera bat ematen du (testu transkribatua, testu itzulia, audioa…). Sarearen antolakuntza ikasketa- edo entrenamendu-faseak definitzen du. Sare neuronal artifizialak gure burmuinen imitazioa badira ere, ez dira hain konplexuak —askoz neurona gutxiago dituzte, ehunka edo milaka batzuk; guk, aldiz, milaka milioi ditugu—, eta ataza zehatz baterako soilik entrenatzen dira: itzulpen automatikoa, hizketa-ezagutza, irudi-ezagutza edo dena delakoa, baina bat bakarrik. Eta, sare neuronal horrek ikas dezan, ikastea nahi dugunaren adibideak eman behar dizkiogu: itzulpenak, audio transkribatuak, irudi etiketatuak…

Sare neuronalek azken urteotan izan duten zabalkundea eta lortu dituzten emaitza onak ez dira beren kausaz soilik etorri. Sare neuronal artifizialen kontzeptua aspaldikoa da, eta zenbait garaitan asko ikertu da haietan eta asko saiatu dira aplikatzen, baina ez zituzten lortzen esperotako emaitzak, eta espektatibak ere ez ziren betetzen; hortaz, alboratuta egon dira edo erabilera bazterrekoa izan dute azken hamarkadaren erdialdera arte. Eta zergatik etorri da orduan berpizte edo «mirari» hau? Hiru faktore nagusi aipa daitezke sare neuronalen oraingo arrakasta azaltzeko. Lehenengoa da orain askoz datu digital gehiago dagoela sare neuronalak entrenatzeko: itzulpen gehiago, audio gehiago, irudi gehiago… Bigarrena da ordenagailuak ahaltsuagoak direla orain, eta horrela sare neuronalak handiagoak eta konplexuagoak izan daitezkeela eta datu gehiago eman dakiekeela ikasteko. Arlo horretan, bereziki aipatzekoa da GPUek edo grafikoak prozesatzeko unitateek izandako eragina. Berez, bideo-jokoetan baliatu ahal izateko sortu, garatu eta hedatu ziren txartel horiek, 3D renderizaziorako behar diren matrize-kalkuluak hardware bidez eta azkar egitea ahalbidetzen dutelako, baina, sare neuronalen entrenamenduan ere matrize-kalkuluak egiten direnez, txartel grafiko horiek asko lagundu dute haien zabalkundean. Hirugarrenik, sare neuronalak konplexuagoak, handiagoak eta ahaltsuagoak dira orain; batetik, aipatutako hardware-hobekuntzagatik, eta, bestetik, sare neuronalen tipologia, algoritmo eta funtzio matematiko berriak asmatu direlako. Lehengo sinpleagoetatik bereizteko, gaur egungoei sare neuronal sakonak (deep neural networks) esaten zaie.

2. irudia_Aditu.jpg

Euskarazko hizketa ezagutzeko teknologia

Bada, esan bezala, sare neuronal sakonei esker, azkenaldian asko aurreratu dira hizkuntza tratatzeko sistema automatikoak. Haien artean dago hizketa-ezagutza, haren aplikazio ezagun batzuek erakusten duten bezala: iPhone-etako Siri laguntzailea, Youtubek bideo batzuetan eskaintzen dituen azpititulu automatikoak, Amazon-en Echo bozgorailu adimenduna…

Horiek guztiek, baina, badute ezaugarri komun bat: teknologia-multinazional erraldoienak diren neurrian, ez daude euskaraz. Haien estrategia eta merkatu-interesetatik kanpora daude euskara eta haren gisako hizkuntzak. Elhuyarren, sinesten dugu euskarak bizitasun digital ona izango badu ezin ditugula erraldoi horiek egingo dutenaren edo egingo ez dutenaren menpe utzi gure hizkuntzarentzat giltzarriak diren garapen teknologikoak. Hortaz, euskarazko hizketa-ezagutzako sistema bat garatu eta gizartearen eskura jartzeko lanari ekin genion, eta, urte batzuetako lanaren ondoren, gizarteratzeko eta merkaturatzeko moduko emaitzak ematen dituen sistema bat lortu dugu. Elhuyarren adimen artifiziala hizkuntzan aplikatzen duen teknologia-unitateak garatu du; Euskal Zientzia eta Teknologia Sareko erakunde akreditatua gara, eta baliabide urriko hizkuntzen garapen teknologikoan erreferentziazko erakundea bihurtzen ari gara.

Sistema ez da inola ere perfektua; ez dago halakorik hizkuntza lantzeko teknologia automatikoetan. Youtubek azpititulatze automatikoa bideo-mota jakin batzuetan soilik eskaintzen duen bezala, edo itzultzaile automatikoa testu administratiboekin ongi baina poesiarekin hain ongi ez dabilen bezala, Elhuyarren euskarazko ezagutzailea hobeto dabil kasu batzuetan beste batzuetan baino. Asmatze-tasa oso ona —% 95ekoa edo handiagoa— lor daiteke hitzaldietan, dokumentaletan, albistegietan, udalbatzarretan, erreportajeetan eta antzekoetan, normalean euskara batuan, irakurrita eta mikrofono onekin egiten baitira. Aldiz, okerrago dabil filmetan, euskalkietan (batzuetan hobeto beste batzuetan baino), elkarrizketa espontaneo eta informaletan… Eta mikrofonoen edo audio-grabazioen kalitateak, zaratak, oihartzunak, musikak, bolumenak, abiadurak eta abarrek ere eragina dute emaitzan.

3. irudia_Aditu.jpg

Aditu.eus web-zerbitzua

Akatsak eta zuzentzekoak hor daude, eta joango gara horiek ere lantzen eta hobetzen, pixkanaka. Baina, kasu askotan oso baliagarria eta erabilgarria denez, teknologia lehenbailehen euskal gizartearen eskura jarri nahi izan genuen, eta, martxoan, Aditu.eus web-zerbitzua ipini genuen martxan.

Zerbitzu horretara audio- edo bideo-fitxategi bat igo dezakegu (edo audio edo bideo bat daukan onlineko esteka bat ere eman diezaiokegu; EITB Nahieraneko, Youtubeko, Facebookeko edo Instagrameko esteka bat, adibidez), eta bertan esaten dena idatziz jasoko dugu, hiru formatutan: transkripzioaren testu hutsa, azpitituluak (srt edo vtt formatu estandarretan) eta transkripzioa hitzen denbora-markekin (bideoen gaineko bilaketan hitz bat zer segundo zehatzetan esan den jakiteko, adibidez). Azpitituluak editatu egin daitezke, interfaze eroso baten bidez, deskargatu aurretik.

Horrez gain, zerbitzuak mikrofonotik (ordenagailuaren zein telefono mugikorraren mikrofonotik) esaten dioguna transkriba diezaguke, bi modalitatetan: audio-fitxategi bat sor dezakegu, eta hura bidali transkribatzera; edo mikrofonotik esaten duguna aldi berean transkribatzeko eskatu.

Euskararen egungo testuinguru diglosikoa aintzat hartuta, euskal gizartearentzat eta bertako erakunde eta eragileentzat baliagarri izan dadin, beharrezkoa ikusi dugu gaztelaniaz eta frantsesez ere eskaintzea zerbitzua. Oraingoz, elebiduna da sistema, eta euskarazko eta gaztelaniazko audioak transkribatzen ditu, baina lanean ari gara frantsesa eta beste hizkuntza batzuk ere txertatzeko. Hori bai, hizkuntza batean edo bestean lan egiten du, momentuz. Audio edo bideo elebidunekin ibiltzeko ahalmena ere laster garatu eta jartzeko asmoa dugu (udalbatzar asko izaten dira bi hizkuntzatan, nahasian).

Teknologiak euskaraz funtzionatzea ez da Adituren bereizgarri bakarra; beste bi gauzak ezberdintzen dute erraldoi teknologikoen hizketa-ezagutzako zerbitzuetatik. Batetik, datuen konfidentzialtasuna bermatzen dugu. Bestetik, enpresa eta erakundeentzat neurri-neurriko soluzioak eskaintzen ditugu, haien CMSan, laneko fluxuan, aplikazioetan eta abarretan API bidez integratuta. Aldibereko transkribapena ere API bidez erabil daiteke, laguntzaile birtual batean integratzeko, ekitaldiak zuzenean azpititulatzeko, eta abarretarako. Nahi izanez gero, bezeroarenean ere instala daiteke transkribatzailea.

Plataformak, gainera, badu ediziorako interfaze bat, Adituk automatikoki sortutako transkripzioak eta azpitituluak eskuz zuzendu ahal izateko, testu-fitxategia deskargatu aurretik. Sistema doan proba daiteke, eta, baliagarri irudituz gero, norberaren beharren araberako ordainpeko plana kontratatu.

Aditu.eus-ek argia ikustea hasiera besterik ez da guretzat. Aditu hobetzen jarraitu behar dugu, hobeto ezagut ditzan elkarrizketa informalak, kalitate txarreko audioak, euskalkiak, filmak, abestiak, bertsoak… Horiei guztiei pixkanaka helduko diegu, guk geure kasa edo haietan interesa duten erakundeekin elkarlanean. Horrez gain, ahalik eta tresna eta zerbitzu gehienetan integratu nahi genuke, jendeak erraz baliatzeko; adibidez, ordenagailuak edo beste gailu batzuk hizketaz kontrolatzeko softwareetan, diktaketa-tresnetan, bozgorailu adimendunetan, laguntzaile birtualetan…

4. irudia_Aditu.jpg

Erabilera ugari

Adituk erabilera ugari izan ditzake sektore anitzetan. Irisgarritasunari begira, ekarpen handia egin dezake: azpititulatzeko, ordenagailuari diktatzeko edo aginduak emateko… Ikus-entzunezkoen enpresek, telebistek eta irratiek balia dezakete, albistegiak, dokumentalak eta erreportajeak azpititulatzeko eta transkribatzeko. Hedabideek eta kazetariek elkarrizketen grabazioak transkriba ditzakete. Administrazio publikoak bileren aktak jasotzeko erabil dezake. Komunikazioaren munduan, hitzaldi edo ikastaroen azpitituluak sortzeko balia daiteke.

Hizketa-ezagutza, gainera, konbina daiteke itzulpen automatikoarekin, hizketa-sintesiarekin (testua ahots bihurtzeko sistema, alegia, zeina dagoeneko garatua eta inplementatua baitugu zenbait webgunetan, hala nola Elhuyarren Zientzia eta Teknologiaren aldizkariaren webgunean) eta txatbot teknologiarekin (elkarrizketak aurrera eramateko eta galderei erantzuteko teknologia). Sistema horiekin konbinatuta, pertsonen eta makinen arteko interakzioko gailuetan balia daiteke: bozgorailu adimendunak, domotika, elkarrizketa- agenteak, laguntzaile birtualak, dei-zentroak… Horretara heltzeko ez da asko falta.

Itzulpenaren, zuzenketaren eta interpretazioaren arloan ere badira aukerak

Hizketaren ezagutzak, aipatutako beste teknologiekin konbinatuta, aukera berriak dakartza itzulpenaren, zuzenketaren eta interpretazioaren mundura.

Adibidez, pentsatzekoa da ezen, azpititulatzea erraztuta, euskarazko ikus-entzunezkoak gehiago azpititulatzea ekarriko duela horrek. Automatikoki sortutako azpitituluak zuzentzeko enkarguak irits litezke, eta horrek lan-eremu eta espezializazio berri bat ekarriko luke. Azpititulu gehiago itzultzea ere ekar lezake. Eta hori, noski, egin liteke itzultzaile automatikoen bidez, baina badakigu, oraingoz behintzat, itzulpen automatiko oro berrikusi behar duela jatorriko eta helburuko hizkuntzak ondo menderatzen dituen profesional batek; beraz, etor litezke lan-aukera berriak itzultzaile-zuzentzaileentzat.

Interpreteen kabinetan ere lagundu dezake Aditu hizketa-ezagutzaileak. Interpreteak laguntzaile birtual bat izan dezake atzean geratzen bada, Adituk idatziz erakutsiko baitizkio hizlariaren esanak, bera interpretatzen ari dela. Hala, ez du jarioan ezer galtzeko arriskurik, nahiz eta Adituk proposatzen diona guztiz zuzena ez izan.

Itzultzaile automatikoen garapenak kezka sortu izan du itzultzaile profesionalen artean, eta hizketaren ezagutzako teknologia honek ere ekarriko du ezinegona. Aipatutako teknologien konbinazio horrek, beharbada, ahalbidetu lezake hizketa-hizketa itzulpenak, bideo-deien itzulpenak eta interprete- eta bikoizketa-lanak automatikoki egitea. Baina halakoak, inoiz etortzen badira, denbora asko barru etorriko dira. Momentuz, askotan ikusi izan dugun bezala, mehatxuak aukera bihur litezke, eta hizketa-teknologiek ere ekar ditzakete aukera berriak itzultzaile, zuzentzaile eta interpreteentzat. Beraz, gakoa ez da teknologiak mehatxutzat hartu eta errefusatzea, lan-jardunean txertatu eta baliatzen jakitea baizik.

Aukera berriak, orain arte bikoizten eta azpititulatzen ez ziren ikus-entzunezko asko egin ahal izango direlako, euskarazko edukiak are gehiago hedatzeko aukera izango delako eta orain arte iristen ez ginen eremuetara iritsiko garelako. Digitalizazioak eta automatizazioak hizkuntzaren profesionalen funtzioak eta eginkizunak aldatuko dituzte, baina ez dituzte desagerraraziko; eraldatu bai, eta beharrezkoa izango da profesionalak trebatzea, ibilbide profesionalak egokitzea eta teknologia baliabide bat dela ulertzea. Horrez gain, produktibitate-hobekuntzak eduki gehiago ekoizteko eta profesionalen baldintzak hobetzeko baliatu behar lirateke. Eraldaketa teknologikoa hemen dago, eta hori gure profesionalen, euskarazko edukien eta kalitatearen alde baliatzea dagokigu; guk egiten ez badugu, inork ez du egingo.