Google | Umělá inteligence | Překladač

Český Google Překladač začal používat umělou inteligenci. Konec „drahoušků zákazníků“

  • Google ve svém překladači roky používal statistickou technologii
  • Nyní zavádí strojové učení a neuronové sítě
  • Rozdíl by měl být zvláště na větších textech patrný už nyní

Google ve svém strojovém překladači celé roky používal statistickou technologii, loni však na pomoc povolal i neuronové sítě a jeho překlady tak začala vylepšovat umělá inteligence. Nyní konečně přišla řada i na češtinu, a tak bychom měli postupně narážet na lepší a lepší překlady.

Strojové učení je běh na dlouhou trať, s něčím si tedy Google velmi solidně poradí už dnes, nicméně okamžik, kdy nerozpoznáme strojový překlad delšího textu od toho lidského, je ještě roky před námi. Google však potvrzuje, že jsme na dobré cestě a ten okamžik se opravdu blíží.

Jak se změnily některé strojové překlady za posledních devět let

V roce 2008 jsme otestovali překladač Googlu na několika vzorcích. Třeba na prvním anglickém odstavci o historii České republiky z oficiálního webu www.czech.cz.

Anglický text na stránkách czech.cz:

„The first historically documented Přemyslid was Bořivoj, with whom we are already familiar. He had himself baptized at the Great Moravian court of Prince Svatopluk. He was initially based in the fortified settlement of Levý Hradec, which is where the oldest preserved church in Bohemia is located. He subsequently relocated to Prague. Bořivoj’s wife Ludmila became one of the first Czech saints because she educated her grandson and future patron of Bohemia - Wenceslas - in the Catholic faith. Until his maturity, the position of monarch was filled by his mother, Drahomíra, who resented Ludmila's influence on her son to such an extent that she let her be throttled.“

Překlad z roku 2008:

„Prvním historicky doloženým Přemyslovcem byl Bořivoj, se kterými jsme se již seznámili. On sám měl pokřtít na velkomoravském dvoře knížete Svatopluka. Ten byl původně založen ve hradiště z Levého Hradce, což je oblast, kde nejstarší dochovaný kostel v Čechách nachází. Později přesídlil do Prahy. Bořivoj manželka Ludmila se stala jednou z prvních českých svatých, protože ona jí vnuk vzdělané a budoucí patron Čech - Václava - v katolické víře. Až do své dospělosti, postavení panovníka byla obsazena do své matce, Drahomíra, kteří nenáviděl Ludmila vliv na její syn do té míry, že si ji nechal být Throttled.“

A teď se podívejte, jak si se stejným překladem poradí současná technologie s nasazením strojového učení a neuronových sítí.

Překlad z 20.4. 2017 po nasazení strojového učení:

„Prvním historicky dokumentovaným Přemyslovcem byl Bořivoj, s nímž jsme již obeznámeni. On sám pokřtil u velkomoravského dvora knížete Svatopluka. Původně sídlil v opevněném sídle Levý Hradec, kde se nachází nejstarší zachovaný kostel v Čechách. Následně se přestěhoval do Prahy. Bořivojova manželka Ludmila se stala jedním z prvních českých světců, protože vychovala v katolické víře svého vnuka a budoucího patrona Čech - Václava. Až do své zralosti postavení monarchy zaplnil jeho matka, Drahomíra, která nesnášela Ludmilin vliv na jejího syna do takové míry, že ji nechala být škrtí.“

Jak vidno, překladač učinil za ty roky obrovský skok vpřed a přes drobné chybky si poradí i s podobnými texty, které využívají složitější slovní obraty. Jedinou vážnou chybou je pouze zmínka o křtu Bořivoje na dvoře Svatopluka. Z obou překladů spíše plyne, že Bořivoj přijel na Velkou Moravu a pokřtil Svatopluka.


Zanechme košatých vět o české historii a podívejme se nyní na překlad nepříliš originálního anglického vtipu s využitím přímé řeči a hovorových obratů:

Anglický vtip o ajťácích:

Two IT guys were talking in a bar after work. "Guess what," says the first IT guy, "yesterday, I met this gorgeous blonde in a bar."

"What did you do?" says the other IT guy.

"Well, I invited her over to my place, we had a couple of drinks, we got into the mood and then she suddenly asked me to take all her clothes off."

"You're kidding me!" says the second IT guy.

"So I took her miniskirt off, and then I lifted her up and put her on my desk next to my new laptop."

"Really? You've got a new laptop?"

Překlad z roku 2008:

IT Dva kluci byli mluvili v baru po práci. "Hádej," říká první IT chlap, "včera jsem potkal tento nádherný blondýnka v baru."

"Co jsi to udělal?" praví další IT chlap.

"No, já ji vyzývají, aby moje místo, měli jsme pár nápojů, jsme se dostali do nálady a pak si najednou mě požádal, aby podnikly všechny její šaty."

"Vy jste mě srandu!" říká druhý IT chlap.

"Tak jsem si ji vzal volno minisukně, a pak jsem pomohl jí vstát a dát ji na mém stole vedle mého nového notebooku."

"Opravdu? Máte nový notebook?"

Překlad z 20.4. 2017 po nasazení strojového učení:

Dva IT kluci mluvili po práci po baru. "Hádej, co," říká první IT člověk, "včera jsem potkal tuto nádhernou blondýnu v baru."

"Co jsi udělal?" Říká druhý IT člověk.

"No, pozvala jsem ji na své místo, měli jsme pár nápojů, dostali jsme se do nálady a pak mě najednou požádala, abych si všechny šaty odnesla."

"Děláš si ze mě srandu!" Říká druhý IT člověk.

"Tak jsem si vzala minisuknu, a pak jsem ji zvedl a položil na stůl vedle mého nového notebooku."

"Opravdu? Máte nový notebook?"

I zde je patrný rozdíl. Překlad hovorové angličtiny sice není úplně čistý, ale mnohem srozumitelnější než před lety. Už tedy dávno neplatí, že u delšího textu jsou výstupy ze strojového překladače téměř nepochopitelné. Éra „drahouška zákazníka“ pomalu končí.


A do třetice ještě technický text v angličtině s obraty, které mají více významů

Úvodní odstavec z článku na BetaNews o tom, jak někteří kanadští operátoři chtěli zpoplatnit příchozí SMS/MMS, a zákazníci proto podali hromadnou žalobu:

Unhappy wireless subscribers in Canada have socked Telus and Bell Mobility with class action lawsuits over their intentions to begin charging users for incoming SMS/MMS text messages, a practice already common in the US.

Překlad z roku 2008, jehož sdělení je prakticky nepochopitelné:

Nešťastný bezdrátové odběratelé v Kanadě Telus mít socked a Bell Mobilita s třídou akce soudních nad svými úmysly začít zpoplatnění uživatele na příchozí SMS / MMS zpráv SMS, což je praxe již běžné v USA.

Překlad z 20.4. 2017 po nasazení strojového učení:

Nešťastní předplatitelé bezdrátových sítí v Kanadě ponořili společnosti Telus a Bell Mobility do soudních sporů o svých záměrech začít nabíjet uživatelům příchozí SMS / MMS textové zprávy, což je již v USA běžná praxe.

Překlad je tentokrát srozumitelnější a k dokonalosti mu vlastně chybí jen to, aby podle kontextu lépe pochopil slovíčka socked a charging.

Proč jsou strojové překladače (zatím) k smíchu

Vývoj webových strojových překladačů v posledních dvou dekádách lze rozdělit do tří skupin. Těmi nejprimitivnějšími jsou programy, které překládají na základě jasně daných pravidel (RBMT). Používají tedy klasický slovník a případně sadu pokročilejších gramatických instrukcí. Takový překladač zpravidla zpracovává slovo po slově a nezná tedy širší kontext celé věty. V podstatě si jej můžeme představit jako neznalého člověka, který jde také slovíčko od slovíčka a neustále listuje ve slovníku. Program to dělá jen o mnoho řádů rychleji.

Problém spočívá v tom, že jedno slovo může mít různý význam právě podle kontextu použití, a tak zatímco s jednoduchými větami si takový překladač poradí, u těch barvitějších, může výsledek postrádat jakýkoliv smysl. Stejně tak nemůžeme očekávat jakoukoliv stylistiku, řádně přeskládaný slovosled apod.

Statistika nuda je, má však cenné údaje

Statistické překladače (SMT) pracují úplně jinak. Namísto striktně daných pravidel nejprve v režimu učení porovnávají dva stejné texty v různých jazycích a statisticky zkoumají jejich podobnost – korelaci. Výsledkem je statistický model, kdy textu v jazyce A s velkou pravděpodobností odpovídá text B. Samotný překladač přitom nemusí vědět, co která slova znamenají, nemusí vůbec obsahovat klasický slovník, ale ví, že slovíčku „Hello“ v angličtině patřilo v českém textu slovíčko „Ahoj,“ a tak tento pár použije i v našem překladu. Jde zde o čirou pravděpodobnostní matematiku podpořenou základními gramatickými pravidly. O nic jiného.

197752839
I statistický model míval čas od času vtipné problémy. Odpovídající páry totiž pochopitelně nikdy neodkáže najít se 100 % úspěšností.

Problém spočívá v tom, že statistický překladač bude perfektně fungovat jen v případě, pokud bychom měli slovní páry ve všech jazycích a pro všechny možné případy. Tak tomu ale není. Google a další, kteří statistickou technologii doposud používali, tedy při učení sahali třeba po úředních dokumentech EU, které jsou zpracované v jazycích všech členských zemí a měly by být pokud možno identické. Dalším zajímavým zdrojem dat je Bible – zdaleka nejpřekládanější text historie.

Ani dokumenty EU a religiózní texty však nemohou obsáhnout reálnou košatost jazyků, které používáme. Úřední texty zpravidla obsahují zpravidla jen striktně formální podobu jazyka a Bible je pro změnu příliš archaická. Člověk z masa a kostí ve skutečnosti takovou angličtinu, češtinu aj. vůbec nepoužívá. Aby tedy překladač překládal opravdu jako každý z nás, měl by s textem pracovat podobně jako my.

Stroji, uč se jako člověk

No a to se už konečně dostáváme k nejnovější generaci překladačů, které používají strojové učení a neuronové sítě. I v tomto případě se vlastně jedná o statistický překladač, protože výsledkem strojového učení a současné umělé inteligence je vědění, znalost – tedy statistický model, který říká, že vstupu A s velkou pravděpodobností odpovídá výstup B. Rozdíl ale spočívá v tom, že je strojové učení v tomto případě mnohem univerzálnější a autonomnější a vnitřní pravidla si v mnoha ohledech vytváří samo.

Strojové učení se pomocí neuronových sítí zároveň může učit více jazyků naráz – zvláště pokud si jsou navzájem podobné. Je to stejné jako u člověka. Pokud ovládnete češtinu a angličtinu, mnohem snáze se naučíte překládat z angličtiny třeba i do slovenštiny, protože čeština i slovenština si jsou velmi podobné.

596872336
Neuronová síť překladače Googlu organizuje věty se stejným významem v různých jazycích do podobných geometrických struktur. Díky tomu dokáže experimentálně překládat i mezi jazykovými páry, které doposud neznala. Suma sumárum, v podstatě si vytvořila jakýsi, touto geometrií vyjádřený, sémantický jazyk.

Strojové učení si tímto způsobem může pomáhat třeba tam, kde pro cílový jazyk chybějí studijní data, jsou však k dispozici v jiném příbuzném jazyce. S tímto zjištěním se vědci z Googlu pochlubili loni na podzim, když publikovali studii o tzv. překladech zero-shot. Strojové učení se tehdy naučilo překládat v různých jazykových párech:

  • japonština – angličtina
  • angličtina – japonština
  • korejština – angličtina
  • angličtina – korejština

A na jejich základě si pak poradilo i s doposud neznámým překladovým párem japonština – korejština. Čistě díky znalosti, jak se korejština a japonština překládají do angličtiny a naopak, z čehož neuronová síť pochopila vzájemnou podobnost mezi korejštinou a japonštinou.

Jak píše Google: „Neuronový překlad se neučí jazyky jako takové, ale sám se učí, jak překládat zadané texty tak, aby co nejvíce odpovídaly textům, které jsme mu poskytly k učení.“

Například takové slovo „tuřín“ se v běžné mluvě příliš nevyskytuje, ale neuronový systém na základě dat odhadne, že s ním ve větě může pracovat podobně jako se slovy „mrkev“ a „brambora“. K podobným závěrům je schopen dojít i na základě vstupů z různých jazyků, které se učí současně. Když budeme mít více ukázkových vět o bramborách v nizozemštině než v islandštině, systém na základě znalostí z holandštiny odhadne, jak mluvit o bramborách islandsky.

Jsme teprve na počátku. Strojové překladače doženou člověka až za dlouhé roky

Oblast strojového učení je však i přes desetiletí teoretického výzkumu stále v plenkách a do popředí se dostává až v poslední dekádě – hlavně díky akceleraci učení pomocí grafických karet a novým procesorům pro umělou inteligenci, se kterými experimentuje především Google.

Jak už jsem ale zmínil v úvodu, i přes nasazení strojového učení mají překladače k dokonalosti ještě obrovský kus cesty před sebou. Umělá inteligence jako nový obor je totiž opravdu teprve na svém začátku a i ten sebedokonalejší softwarový pravděpodobnostní model dneška se nemůže srovnávat s opravdovou neuronovou sítí, kterou se inspiruje – nejsložitější strukturou ve vesmíru, tedy lidským mozkem.

Diskuze (31) Další článek: Konec PIN? MasterCard testuje kartu s vestavěnou čtečkou otisků prstů

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,