Hasteko, defini ezazu berba gutxitan zer den Latxa...
Latxa euskara darabilen Hizkuntza Eredu Handi (HEH) bat da. Hizkuntza-ereduak testuetatik automatikoki ikasten diren eredu matematikoak dira, testu segida baten hurrengo hitz probableena ematen dutenak, mugikorretako teklatuetako testu iragarleen antzera. Adibidez, “Bizkaia zubia 1887 eta 1893 urteen” segidaren hurrengo hitz probableenak “artean” edo “bitartean” izan litezke. Gero, “Bizkaia zubia 1887 eta 1893 urteen artean” ostean “eraiki” etor liteke, eta horrela, banan-banan, testu oso bat sortu arte.
HEHak kontzeptu berean oinarritzen dira, baina inoiz baino handiagoak eta konplexuagoak dira. Gainera, gizaki batek milaka urtetan ere irakurri ezingo lituzkeen testu kantitateetatik ikasten dira. Horri esker, ulermen, arrazoinamendu eta irudimen gaitasuna dutela ematen du. Hainbesteraino ezen HEHek iraultza ekarri dutela esaten baitugu, ez bakarrik hizkuntza teknologien arlora, baita adimen artifizialera orokorrean ere. Guk ingeleserako sortutako HEH ireki bat hartu (Metaren Llama 2) eta euskara irakatsi diogu euskarazko corpusak baliatuz, emaitza Latxa izanik.
Noiztik daramazu proiektu horretan eta zein da, zehazki, zure zeregina horretan?
Joan den udan hasi nintzen ikerlari gisa EHUko Hizkuntza Teknologiako Euskal Zentroan (HiTZ) lanean. Ordutik gabiltza ekimen honekin, eta oso pozik gaude hilabete gutxi batzuetan lortutako emaitzengatik.
HEHak sortzeko prozesuak hiru etapa nagusi ditu. Lehendabizi, testu corpusak edo "datuak" prestatu behar dira. Oro har, zenbat eta gehiago, desberdinago eta zuzenago, hobe. Nire ekarpena hori izan da batik bat: iturri desberdinetako dokumentuak jaso, testua erauzi, kalitatearen arabera bahetu... Datuak dira HEHak sortzeko ezinbesteko osagaietako bat. Denera, mila milioi hitzetik gora (lau milioi dokumentu) bildu ditugu Latxa elikatzeko. Beste osagaia superkonputagailuak dira, eredua bera trebatzeko "ikasketa automatikoa" deritzon prozesuaren bitartez. Horretan nire lankideak ibili dira.
Azkenik, sortutako eredua ebaluatu behar da prozesu osoa balioztatzeko. Etapa honetan ere parte hartzeko aukera izan dut. Nire ustez, guztietan politena da. Nolabait esateko, ereduari azterketak jartzean datza, eta haren emaitzak aztertu eta beste eredu batzuenekin konparatuz, ahulguneak eta indarguneak identifikatzean, hobekuntza bideak proposatu ahal izateko.
"Nire ekarpena hori izan da batik bat: iturri desberdinetako dokumentuak jaso, testua erauzi, kalitatearen arabera bahetu... Denera mila milioi hitzetik gora (lau milioi dokumentu) bildu ditugu Latxa elikatzeko"
Denon ahotan dago gaur egun ChatGPT; Latxak ere AA horrek egin dezakeena egin dezake?
ChatGPT bezalako aplikazio bat sortzeko hainbat mugarri gainditu behar dira. Lehenengoa, eta seguruenik arazotsuena, "oinarrizko" esaten zaion HEHa sortzea da. Hori da Latxa. Oinarrizko HEHak ez dira txatak. Oinarrizko ereduek munduaren eta ikasketa corpuseko hizkuntzaren ezagutza izugarri handia dute, baina ez dira trebeak galdera-erantzun motako interakzioan jarduteko, are gutxiago elkarrizketak jarraitzeko. Hori ere irakatsi behar zaie, galdera-erantzun corpusen bitartez, adibidez, sortzen edo lortzen askoz zailagoak direnak dokumentu arruntak baino. Beraz, hasierako Latxa bertsioak ezin du ChatGPTek egin dezakeena egin... baina bide horretan aurrera egin dugu.
Momentuz, Latxa ez dago erabiltzaileen eskura…
Ez, hain zuzen ere, ez dagoelako gizakion galderak erantzuteko edota aginduak betetzeko doituta. Ondorioz, bere horretan ez da baliagarria erabiltzaileontzat zuzenean. Inor Latxarekin elkarrizketa bat mantentzen saiatuko balitz, berehala ohartuko litzateke ez dela gai: hizkuntza aldetik euskara zuzena eta koherentea sortuko lukeen arren, ez luke erabiltzailea solaskide gisa aintzatetsiko eta, are okerrago, hark galdetu edo eskatutakoarekin zerikusirik ez duen zerbait erantzungo luke beharbada. Haatik, hainbat aplikazioren motortzat erabil daiteke Latxa.
Eredu irekia da, eta edonork eskuratzeko moduan jarri dugu online, gure inguruko hizkuntza teknologien garatzaileek erabilera kasu desberdinetara doitu dezaten. Izan ere, HEHak ez dira bakarrik ChatGPT motako aplikazioen oinarria; esan bezala, adimen artifizialaren alorrean gaur egun existitzen diren sistemarik ahaltsuenak dira eta askotariko aplikazioak dituzte, adibidez, eduki bilatzaileen motor gisa, e-learning plataformetan ataza sortzaile edota zuzentzaile automatiko gisa, eta beste asko eta asko.
Konpetentzia linguistikoetan, euskaraz, hura baino hobeagoa dela ondorioztatu duzue. Zelan egin daiteke hori?
Ez bakarrik konpetentzia linguistikoan. Egin ditugun proba guztietan Latxak ChatGPTren atzean dagoen eredua, GPT 3.5, aise gainditu du. Gainera, GPT 4 eredu aski ahaltsuagoa gainditu du EGA atariko probetan.
Lehen esan bezala, Latxari azterketak eginarazi dizkiogu. Besteak beste, EGA zenaren atariko probetako 5.169 galdera eman dizkiogu erantzuteko. Aukera anitzeko galderak dira, euskararen morfologia, lexikoa, ortografia, estilo arauak eta abar lantzen dituztenak. Prozedura honakoa da: gogora ezazu hizkuntza-eredu batek oinarrian egiten duena dela testu segida baten hurrengo hitz probableena iradokitzea dela; hori horrela, ereduari azterketaren galdera ematen zaio, eta ikusten da aukeren artean zeini esleitzen dion probabilitaterik handiena, ereduaren erantzun gisa aukera hori hartuz.
Gaur egun, oinarrizko HEHak ebaluatzeko metodologia hedatuenetako bat da hau. Berdin egin dugu Latxak Egunean Behin jokoan parte har dezan, adibidez. Horrela, Latxak EGAko galderen % 61 zuzen erantzun ditu, GPT 3.5en bikoitza, eta ausazko langatik (% 25) oso urrun. Antzeko emaitzak lortu ditugu euskarari buruzko beste galdera sorta batean ere. Emaitzok erakusten dute Latxak euskararen ezagutza hobea duela.
"Egin ditugun proba guztietan Latxak ChatGPTren atzean dagoen eredua, GPT 3.5, aise gainditu du. Gainera, GPT 4 eredu aski ahaltsuagoa gainditu du EGA atariko probetan"
Zeintzuk dira euskaraz jarduteko AA batek dituen gabeziak eta erronkak bestelako hizkuntza hegemonikoakaz alderatuta?
HEHetan oinarritutako adimen artifizialari buruz ari bagara, euskararen berezitasun linguistikoek ez dakarte berez inolako erronkarik, pentsa daitekeenaren kontra. Erronka tekniko nagusia datu gabezia da. Muga naturala da munduko % 99 hizkuntzentzat.
Gure kasuan, bildutako mila milioi hitzak nahikoa izan dira emaitza itxaropentsuak lortzeko. Saiakera hau egin baino lehen, ez genekien nahikoa izango ote zen. Baina zenbakiek erakusten dute Latxa hobetzeko tartea badagoela oraindik, ikasketa datu gehiago bagenitu. Eta mila milioi hitz ez dira inondik inora ere nahikoa ingeleserako sortu diren HEHen parekoak zerotik sortzeko, ez behintzat egun existitzen diren teknikekin. Horregatik, ingeleserako sortutako beste eredu bat hartu behar izan dugu oinarri, Metaren Llama 2, eta euskara ulertu eta sortzeko doitu. Pentsa, Llama 2 ingelesezko bilioi t’ erdi hitzeko corpus batetik sortu zuten: euskarazko Wikipedia halako 25.000.
Ingelesarekiko dependentzia hori ez da berria, ikasketa automatikoan oinarritutako edozein adimen artifizial sortzeko beharrezkoak baitira datuak, eta hizkuntza teknologien alorrean berrikuntzak mundu anglosaxoitik etorri izan dira betidanik, han baitituzte baliabide gehien.
Zein da Latxaren helburua?
Arlo sozialean, euskararen presentzia sustatzen lagundu nahi izan dugu iraultza teknologiko honetatik at geratu ez dadin. Egia da ChatGPT eta bestelako sistema komertzialek gero eta hobeto egiten dutela euskaraz, baina hiztun talde txikia izanik, ezin gara egon garatzaile handiek zer egingo zain. Eta ez da bakarrik hizkuntza zuzentasun kontua: gure historia, kultura, gizarte antolaketa, legedia, balore, sinesmenak eta abar aintzat hartzen dituzten sistemak nahi baditugu, guretik jarri behar dugu.
Ildo horretan, helburu teknologikoa ere izan dugu, alegia, puntako teknologia honetan oinarritutako berrikuntza, garapena eta transferentzia dinamizatzea bertako ikerketa zentro eta enpresa sarean. Horregatik, Latxa eredu irekia da. Horrek esan nahi du edonork erabil dezakeela haren aplikazioak eta produktuak garatzeko. Gainera, bertan sortua izateak bestelako bermea eskaintzen du: gertutasuna, konpromisoa, jarraitutasuna... eta elkarlanerako aukera gehiago.
Azkenik, ikerlariak garen aldetik, helburu zientifikoa ere izan dugu, noski. Dauzkagun baliabide mugatuekin emaitza lehiakorrak lortzea posible dela erakutsi dugu, eta ikasi dugu HEHen gaitasun orokorrak ez daudela soilik haien hizkuntza gaitasunak mugatuta. (Izan ere, GPT 4k Latxa gainditu du hizkuntza gaitasunean ez beste proba guztietan: ezagutza orokorra, irakurmen ulermena, eta abar.) Are gehiago, erabilitako metodologia, tresna eta baliabideak kaleratu ditugu, ikerketa erreproduzigarriaren mesedetan.
"Gure historia, kultura, gizarte antolaketa, legedia, balore, sinesmenak eta abar aintzat hartzen dituzten sistemak nahi baditugu, guretik jarri behar dugu"
Euskara, hizkuntza txikia edo erabiltzaile gutxi dituen arren, Interneten presentzia handia du, ezta?
Bai, hala da. Antzeko hiztun kopurua duten hizkuntzekin alderatuta, baita handiagoak diren batzuekin ere, euskararen presentzia digitala nabarmen handia da. Euskarazko Wikipediak, adibidez, kroazierazkoak (6 milioi hiztun), bulgarierazkoak (13 milioi) edota grezierazkoak (15 milioi) baino artikulu gehiago ditu. Asko zarete egunero euskaraz idazten duzuen komunikabideak. Common Crawlen, Interneteko datu biltegi handienetako batean, euskara 52. postuan dago. Horrek guztiak asko lagundu digu, dudarik gabe, oraingoan baita iraganeko ikerketa eta garapenetan ere. Hala ere, Common Crawlen % 0,003 besterik ez da euskara, eta aurrera egiteko datu gehiago behar ditugu. Horregatik, euskarazko testu-ondare baliagarriak dituzten erakundeei dei egiten ari gara izaera publikoa duen ekimen honetan parte har dezaten.
Zuek erabilitako teknologiak eragina izan dezake beste hizkuntza gutxituakaz. Zelan?
Guk dakigula, lehenak izan gara frogatzen posible dela emaitza lehiakorrak lortzea gureak bezalako baliabide mugatuekin. Beste hizkuntzengan eragina hortik etorriko da. Emaitza itxaropentsuak dira gutxi gora behera euskarak dituen datu kantitate bera duten hizkuntzentzat, orain noraino irits daitekeen erreferentzia hori existitzen delako.
Zer ibilbide egingo du Latxa proiektuak epe laburrera?
Aipatuko nukeen lan ardatz bat ebaluazioa da. Orain arte, Latxaren gaitasunak ebaluatu ditugu: hizkuntza gaitasuna, munduaren ezagutza, arrazoinamendua... Baina badaude garrantzitsuak diren beste aspektu batzuk HEHen erabilgarritasunari eta erabilera etikoari lotuta, adibidez, datuetatik ikasitako alborapenak. Izan ere, HEHek dena eskuratzen dute datuetatik: hizkuntza gaitasuna, munduaren ezagutza,... baina baita aurreiritziak, estereotipoak, talde desberdinen ordezkaritza desorekatua, eta abar. Jakin badakigu Latxak, beste HEH guztiek bezala, alborapenak dituela. Horiek ereduaren sorreratik nola ekidin ikerketa gai aktiboa da momentu honetan, ez da batere lan erraza. Horregatik garrantzitsua da ebaluazioen bitartez horrelakoak azaleratzea, erabiltzen ari garen eredu horren ahulguneak hobeto ezagutzeko.
Bestalde, eman nahi dugun hurrengo pausoa Latxa gizakion aginduak jarraitzeko eta galderak erantzuteko doitzea da. Horrekin, Latxaren gaitasun orokorrak hobetzea espero dugu. Gainera, gizakiokin elkarrekintza eskatzen duten aplikazio-mota berriak garatzea ahalbidetuko du, adibidez, txat motako aplikazioak.