Proč mají strojové překladače stále daleko k dokonalosti

Vše začalo už před šedesáti lety na Georgetownské univerzitě. Za tu doby udělaly strojové překladače ohromný kus cesty vpřed, dodnes si ale vylámou zuby na kdejakém idiomu.

Jednoho chladného lednového rána roku 1954 se na půdě Georgetownské univerzity sešla skupina lingvistů a s pomocí elektronkové mašiny IBM 701 se zapsali do dějin, jako jedni z prvních totiž demonstrovali možnosti strojového překladače.

Takzvaný Georgetown-IBM experiment byl docela jednoduchý. Paměť počítače pojala pouhých 250 slov v angličtině a ruštině, stroji se ale přesto podařilo přeložit přes šedesát ruských vět z všemožných oborů.

604694569
Procesor počítače IBM 701 (Zdroj: Wikimedia, CC-BY-SA)

Následujících šedesát let pak lingvisté a matematici strávili hledáním té nejlepší metody, která by přeložila větu z jednoho jazyka do druhého, aniž by se změnil její význam.

Statistická metoda

Tou nejprostší metodou je prostá substituce – náhrada. Jednoduše půjdeme slovo od slova a přeložíme jej, jako bychom měli v rukou papírový slovníček. Tato metoda ale zdaleka nefunguje vždy, protože jedno slovo může mít více významů a záleží tedy na kontextu celé věty.

Krásným příkladem může být jednoduché sdělení Dejte mi pokoj!

Kdyby stroj postupoval slovo od slova, musel by se zákonitě zastavit u pokoje, který má více významů. Může to být místnost ale stejně tak klid a odpočinek. Substituční metoda tento rébus jednoduše nerozlouskne.

405825203
S tímto překladem by si primitivní substituční překladač neporadil, slovo pokoj má totiž v každé větě zcela odlišný význam

S příchodem moderních počítačů se začala prosazovat statistická metoda, jejímž základem jsou rozsáhlé databáze textů ve více jazykových verzích. Software může každý z textů projít slovo od slova a zkoumat vzájemnou korelaci pořadí slov v jednotlivých jazykových mutacích.

Když by pak strojový překladač dostal za úkol přeložit určitou posloupnost slov z jazyka A do jazyka B, prostě se pokusí pomocí předchozí analýzy zvolit posloupnost s nejlepší korelací – a tedy pravděpodobností, že se bude jednat o správný překlad.  Příkladem statistického strojového překladače je dnes především Google, i když samozřejmě kombinuje více technik.

Strojové překladače se zlepšují díky byrokracii

Aby mohla statistická metoda fungovat co nejlépe, potřebuje především jeden text přeložený do hromady jazyků, na kterém se může učit. Právě proto lidstvo s trochou nadsázky vytvořilo OSN, jejíž úřední materiál v minulosti posloužil mnoha statistickým strojovým překladačům.

Dalším zajímavým zdrojem dat může být pravděpodobně nejznámější literární dílo všech dob – Bible, protože především její evangelia byla přeložená do desítek jazyků.

Statistickým překladačům nakonec velkou měrou pomohlo i to, na co nadává každý druhý Čech – evropská byrokracie. Takový Evropský parlament a Evropská komise totiž produkují každý den hromadu materiálů a to často ve všech úředních jazycích unie.

430758915
Česko-anglický korpus Europarl. Vlevo jsou surové zápisy z jednání EP v češtině, vpravo v angličtině. Google a další se na podobných zdrojových datech mohou učit, že textu X odpovídá text Y. S využitím korelace, derivace a dalších technik pak může odhadovat nejpravděpodobnější textové páry, které mu předložíte.

Výsledkem je pak třeba dvojjazyčný jazykový korpus Europarl, který vždy porovnává anglickou verzi textu s dalšími jazyky. Jen pro představu, česko-anglický korpus z let 2007-2011 zabírá 190 MB surových dat a obsahuje 668 tisíc vět a 13 milionů slov. Data může použít každý zájemce, protože se jedná o úřední materiál a tedy volné dílo, na které se nevztahují autorská práva.

Potíže s idiomy

Úřední akta jsou sice pro strojové učení nepostradatelným zdrojem informací, ale nesou sebou i svá úskalí. Jedná se zpravidla o příliš formální text, stroj se tedy nedokáže dost dobře vypořádat se specifickými frázemi a idiomy jednotlivých jazyků, kde je třeba mnohem lépe pracovat s kontextem celé věty a třeba i celým odstavcem. Na idiomech si tedy i dnes vyláme zuby nejeden strojový překladač včetně Googlu a větu „František si vystřelil z Miloše“ v podstatě přeloží stejně špatně jako primitivní substituční strojový překladač, protože se v jeho vícejazyčných zdrojových korpusech tato fráze vůbec nevyskytuje.

100384077
Nad podobným překladem by asi Angličan jen nechápavě kroutil hlavou

Google se proto nespoléhá pouze na matematiku, ale již dříve do boje povolal to nejlepší, co mu mohla komunita nabídnout – lidský mozek. Pokud máte pocit, že jsou překlady od Googlu spíše bezedným zdrojem humoru než solidní lingvistické práce, věnujte svůj volný čas dobré věci a navštivte stránky Google Translate Community (Beta), kde se můžete zapojit přinejmenším do hodnocení kvality překladů. Google vám vždy nabídne dvojici textu třeba v češtině a angličtině a vy ohodnotíte, jestli se jedná o správný, nebo naopak špatný překlad. Právě tímto způsobem pak mohou Google a další zlepšovat především práci se zmíněnými idiomy a dalším specialitami jednotlivých jazyků.

675992526 699764697
Translate Community, aneb vylepšujeme jazykový korpus Googlu

„Vymodelujte si ptáka“

Abychom ale Googlu nekřivdili, občas idiomy zná, ale naopak je neumí použít – respektive je preferuje i tam, kde nejsou nutné. Překladač si tak třeba před dvěma lety sice chytře, ale zcela špatně vyložil titulek našeho článku o modelovacím nástroji od Autodesku s názvem „Vymodelujte si vlastního ptáka přímo v prohlížeči.“

Češtinářská jazyková lahůdka dala zabrat i nejednomu čtenáři, Googlu se tedy nemůžeme moc divit, jaké však muselo být překvapení v San Francisku, když jsme dostali zprávu, že si lidé z Autodesku prohnali článek překladačem a na obrazovce se jim zobrazilo „(S)Hape your own dick in your browser.“

5979817
Ne, tentokrát nám opravdu nešlo o český slang, ale Google mu dal přesto přednost. Zdá se tedy, že se v jeho korpusu vyskytuje slovo pták především ve slangovém kontextu a statistický engine mu proto dává vyšší pravděpodobnost.

Ten překlad je zajímavý hned ze dvou důvodů. Namísto doslovného a v tomto případě opravdu správného „bird“ se v textu objevil slangový překlad „dick“ a namísto „Shape“ (vytvarovat) chybné slovíčko „Hape“, které naprosto nic neznamená ani podle Oxfordského slovníku a tedy se nejspíše jedná o překlep slova „shape“, který se objevil v některém ze zdrojových korpusů, podle kterých se překladač učí.

Specialitou každého statistického překladače je i určitá míra nahodilosti. Stačí pozměnit slovosled, smazat jedno nepodstatné slůvko a text má rázem zcela jinou matematickou reprezentaci a tedy i pravděpodobnost různé odpovědi.

Pokud bychom tedy z původní věty smazali nepodstatné „si“, věta „Vymodelujte vlastního ptáka přímo v prohlížeči“ se přeloží jako Model your own dick in your browser.“ Namísto patvaru Hape tedy nyní Google používá jiné slovo.

Pojďme ale ještě o kousek dál a ponechme ve zdrojovém textu pouze slůvko „Vymodelujte.“ Google jej pokaždé přeloží jako „Model your“ a této verze se drží jako klíště. Větu „Vymodelujte jeho dům“ tedy tvrdohlavě překládá jako „Model your house.“

Google bude více hovorový

Podobných šotků najdete v překladači tisíce a Google hledá cestu, jak nad nimi konečně vyzrát. Na svém blogu tak nyní oznámil, že se začal soustředit na hovorovou mluvu z diskuzí a chatů a bude konstruovat lepší překlady než dříve.

432403691
Překlady by měly být lepší, ale především u těch nejpoužívanějších jazyků, kde má Google dostatek zdrojových dat k analýze

Pomůže mu v tom komunita už samotným používáním překladače, z telemetrických dat lze totiž zjistit, jak jsou vlastně uživatelé s překladem spokojeni – jestli jim stačí první verze, nebo upravují text, dokud nejsou spokojeni. A překladatelé službu Translate opravdu náležitě vytěžují, Google totiž dnes každý den přeloží neskutečných 100 miliard slov.

O něčem podobném se lingvistům z projektu Georgetown-IBM před těmi šedesáti lety ani nesnilo.

Diskuze (44) Další článek: AMD podporuje výrobu vlastního krytu pro grafiky Radeon R9 Fury X

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,