FYI.

This story is over 5 years old.

Google

Da li je još neko primetio da Google ubacuje hrvatske reči u srpske prevode

Guglov prevodilac na srpski je počeo da se čudno ponaša.
čovek zabrinuto gleda u računar
Foto:  Ed Ivanushkin

Koristim Google translate skoro pa svakodnevno, još od 2006. kada je bio malo jači hiperlinkovani rečnik koji je radio po principu statističkog mašinskog prevođenja - prevodio je svaku reč ili frazu nezavisno, a sintaksa i smislena rečenica su za njega bile kao da staviš nacrt hadronskog kolajdera pred rušljoribu.

Postao je ozbiljna pomoć za prevode tek 2016. kada je sa statističkog mašinskog prevođenja prešao na arhitekturu neuronskih mreža, što bi pojednostavljeno bio algoritam koji uči tako što primećuje šablone iz podataka koje mu daješ. Što više podataka, što više ljudi ga koristi za prevod, to će biti bolji. U teoriji.

Reklame

U praksi još uvek ne radi baš savršeno.

1553214349758-gambino-gdje

Na prvi pogled je onako, malo smešno, vidi ga Google translate rešio da pređe na jekavicu, kao ortak koji misli da ume da glumi naglaske. Možda ga Bosanci previše koriste za prevod pa je pokupio bosanski, evo meni se to događalo kada dovoljno vremena provedem sa Bosancima, ili Crnogorcima. Ili… Hrvatima?

1553214407127-Inkedgambino-gdje_LI

Srijeda, ubojica, pobjegao

Ček, ček, ajde "srijeda", može to da prođe kao bosanosrpski. Možda prođe i "na vratima“ i "iziđe“ kao simpatična lokalna ne baš nepismenost ali definitivno neka govorna sloboda. Ali "ubojica“? Tako ne kažu u Prijedoru, a bogomi ni u Podgorici.

1553214438419-Inkedjuha_LI

Juha?

Šta se kog vraga dešava? Da li je ovo samo izolovani slučaj, buba u programu, duh u mašini? Da zovemo majorku Kusanagi?

1553214491328-Inkedpromaknut_LI

Promaknut?

U srpskom niko nije bio "promaknut“ osim možda Bata Gašić kad je kao dao ostavku na ministarsko mesto pa postao direktor BIA; nisi baš maknut, a nisi ni promovisan, tj. unapređen, nego si eto, "promaknut“. Ali u hrvatskom to znači "Unapređen“, odnosno "Promoted“ u vojno-industrijskom žargonu.

Primera imam još, jer ovo se događa bar godinu dana, koliko sam ja primetio, a ubeđen sam da se ranije nije događalo. Nisam mnogo obraćao pažnju do skora - iako smara na čisto mehaničkom nivou što može da ti promakne neka hrvatska reč, nije da me sad nešto brinulo, budući da bih potpisao Deklaraciju o zajedničkom jeziku da me je iko zvao, jer me niko ne može ubediti da srpski i hrvatski (i bošnjački, crnogorski i vranjanski) nisu jedan isti jezik, samo sa donekle drugačijim rečnikom – struktura, gramatika, pravila za oblikovanje reči i ogroman broj reči su skroz isti, samo se ponešto drugačije izgovara ili kaže.

Reklame
1553214538655-Inkedpovijest_LI

Svjetonazor, povijesnim, i pol dana?

Da li je to onda možda i razlog što se ovo dešava? Da li Guglov prevodilac prosto tretira sve kao isti jezik? Možda da pitam eksperte? Možda da guglam?

1553214571955-zasxto-gugle

Pošto me je guglanje uputilo na Gugl prevodilac, shvatio sam da moram da se obratim direktno Guglu, to jest njihovom timu za odnose sa javnošću, da mi razjasne kako je došlo do ovoga. Da li je mašinska inteligencija toliko pametna da stvarno želi da nam poruči da ne prdimo više o tome da su to različiti jezici? Ili pak neki dokoni Hrvati troluju Google translate i Srbe tak što pod “suggest an edit“ ubacuju hrvatske pojmove, as ti gospe? A čekaj, da li važi i obrnut slučaj?

Dok sam čekao da mi Gugl odgovori, ubacivao sam tekstove na engleskom za prevod na Croatian, da vidim da li ću naći traga mašinskom ili trolovskom srbovanju.

1553214595463-hrvastina

Nula bodova. Nisam nigde uspeo da nađem neku potkradenu ekavicu ili istoriju umesto povijesti. Dakle, stvar je isključivo na domaćem terenu. Sada mi ova priča već nije dala mira, pa sam, dok se Gugl ne javi, potražio još nečije mišljenje o tome kako je moglo da dođe do ove tihe epidemije uskočkih upada na našu jezičku teritoriju.

Zato sam kontaktirao Radomira Bastu, stručnjaka za optimizaciju za pretraživače (SEO) i gazdu kompanije Four Dots. Kapirao sam da to čime se Radomir bavi ima neke veze sa ovime što mene zanima, i ispostavilo se da sam donekle u pravu.

“Mi viđamo u SEO poslu da Gugl ne pravi razlike između srpskog, hrvatskog, bošnjačkog. Nema problem da plasira hrvatske rezultate pretrage u Bosni na primer”, kaže mi Radomir. Kada ga upitam šta misli da je konkretan uzrok za pojavljivanje hrvatskih reči, kaže mi da misli da je problem u malom tržištu i nedovoljno podsticaja da se algoritam nabudži da bolje radi. “Plus, uvek imaš trolove koji edituju Google Translate i upropaštavaju prevode namerno”, dodaje.

Reklame

Ali, sve su to vještice, to jest pretpostavke – ezoterijsko znanje o tome šta se zapravo tu događa je rezervisano za veliko oko Guglovo, koje nas gleda iza fajervola. Radomir mi kaže da Gugl te stvari baš i ne raspravlja u javnosti, ali me upućuje na Đurađa Caranovića, bihevijoralnog ekonomistu za glasovne tehnologije, što je možda najjača titula sa kojom sam se susreo do sada. Ono čime se Đurađ bavi ima jače veze sa mašinskim učenjem koje koristi Guglov prevodilac.

“U srpskom jeziku, česte su rečenice/reči koje imaju više od jednog značenja kao višečlane leksičke jedinice, složene lekseme, višečlani izrazi”, objašnjava mi Đurađ preko četa. “Google Translate ima koristi od velike količine paralelnih podataka prikupljenih sa interneta. Neuronski mašinski prevod pomaže Google Translate da uzme celu rečenicu u obzir i prevodi je kao jednu”, piše mi dalje, dok ja razmišljam kako ću da prevedem na srpski sve što mi je napisao.

“Da bi se preliminarno testirao neuronski mašinski prevod, potrebno je sastaviti korpus višeslojnih izraza, koji se mogu ponovo koristiti za procenu i praćenje prevoda”, objašnjava mi dalje. To znači da treba ozbiljno popisati celokupnu leksikografiju jezika, sve moguće reči i njihova značenja, posao za dva veka Vuka. Koliko ga shvatam, ovo što imamo ulete hrvatske navale u naš teren znači da Guglova neuralna mreža prosto nema dovoljno podataka koji bi omogućili da razluči, ovaj, razlikuje nijanse između srpskog i hrvatskog. “To jest da su izvori informacija zastareli ili pogrešni”, poentira Đurađ.

Reklame

Na to se nadovezuje Radomir: “Sve je to i dalje klasično mašinsko učenje, koje zahteva gomilu unosa podataka kako bi glupa mašina dobila dovoljno ‘mesa’ a onda semantički algoritmi treba da skontaju 'srž' jezika. Možda i imaju dovoljno podataka, ali algoritam još mora da uči, to je proces”.


Pogledaj i:


Pitanje je šta Gugl može da uradi. “(Gugl prevodilac) sada koristi duboke neuronske mreže, koje omogućavaju kompjuteru da razume situacije koje ranije nije video učeći iz drugih izvora informacija”, kaže mi Đurađ. Ti izvori informacija mogu biti blogovi, wikipedija članci, bilo kakav tekst na datom jeziku koji je indeksiran u guglu, i naravno, prevodi iz Google prevoditeljske zajednice (Google Translate Community), gde svakodnevni korisnici iz celog sveta prevode rečenice svog jezika.

Gugl je sav u priči o stalnom unapređenju svojih usluga, tako da se i algoritam prevoda jezika konstantno poboljšava, što mogu da potvrdim iz ličnog iskustva. Ali, da li je za to dovoljno samo da ga koristimo ili moramo da se cimamo i da prijavljujemo poboljšane prevode?

Moji sagovornici se slažu da je ovo drugo važnije. “Apsolutno se isplati da korisnici prijavljuju pogrešne prevode. Onda bismo sami opravili algoritam”, kaže mi Radomir, a Đurađ potvrđuje: “Google je omogućio opciju Feedback, koja svakog korisnika stavlja u ulogu lektora koji može da oceni ili utiče na preveden tekst. I pružanje relevantnih izvora i pridruživanje u Google prevodilačku zajednicu bi uticalo na veću preciznost prevoda.”

Reklame

Dakle, ako želimo da vratimo stoprocentno srpstvo u Gugl prevodioca, najbolje je da svi koji koristimo ovaj alat uzmemo da se brinemo o njemu, što zvuči kao prilično socijalistički pristup za jednu multinacionalnu korporaciju, ali takva je priroda neuralnih mreža. Negujmo srpski jezik, na Guglu.

Jer najverovatnije je da se Guglov prevodilac još uvek ne snalazi u finesama i narcizmima malih razlika između naših državotvornih naroda koji, jebiga, iz njegovog ugla dele isti jezik, iako nam je učinio pa nas je razdvojio u padajućem meniju. Ali, da li mu je baš teško da savlada sve te naše lokalne kolorite, ili ga neko aktivno troluje, e to zna samo Gugl.

Makar sam im skrenuo pažnju na problem – i u međuvremenu su mi odgovorili! Od njihovog zastupnika za javnost sam dobio sledeću izjavu: "We appreciate such issues being brought to our attention, and are looking into the reason for these mistranslations."

Ako niste razumeli, evo prevoda:

1553214683390-cijenimo

Dodatak: Gugl mi je poslao još jedan mejl u kome malo detaljnije objašnjava šta se dešava i potvrđuje da se ovo sigurno nije posledica nečijeg malicioznog delovanja ili trolovskih izmena u prevodu. Evo šta je zastupnik za štampu napisao, prevedeno pomoću Gugla:

Možemo potvrditi da ova pitanja nisu rezultat zlonamjernih uređivanja. Prevodilac radi po obrascima učenja iz više miliona primjeraka prijevoda koji se vide na vebu. Nažalost, neki od postojećih obrazaca mogu rezultirati pogrešnim rezultatima, posebno kada su jezici u korpusu obuke veoma slični, kao u ovom slučaju. Neprestano radimo na poboljšanju kvaliteta naših prevoda, a ako ljudi naiđu na netačne ili neprikladne prevode, oni mogu prijaviti problem i mi ćemo ih popraviti