Článek
Odpověď na tuto otázku by měl dát celosvětový testovací maraton, který 1. března startuje na Univerzitě Karlově v Praze. Své kvality poměří například nejznámější překladač Google s novým překladačem EU – Euromatrixem. Právě Euromatrix by mohl v budoucnu ušetřit Evropské unii stamilióny EUR.
„Porovnání lidského překladu se strojovým určí, jak moc se lze na strojové překladače spolehnout a který z nich je nejvhodnější pro jednotlivé jazykové kombinace,“ vysvětluje David Matuška ze společnosti CEET.
Evropský projekt mají vyhodnotit Češi
Právě českou překladatelskou agenturu CEET pověřila Evropská unie vyhodnocením tohoto projektu. „Strojový překlad ve spojení s překlady podporovanými počítačem a následnou lidskou korekturou je budoucností překladatelského oboru. Je nezbytné být u vývoje a výzkumu těchto technologií,“ vysvětluje Matuška, proč se CEET rozhodl do projektu Evropské unie a do vývoje nového překladače investovat.
Angličtina a čínština jsou pro stroje hračkou
Evropské jazyky dělají překvapivě strojům mnohem větší problémy než například překlady mezi angličtinou a čínštinou. „Znaky jsou sice zcela jiné, ale tvaroslovně a slovosledně jsou si tyhle jazyky podobnější. Překlady z a do češtiny výrazně komplikuje zejména skloňování a časování,“ upozorňuje Ondřej Bojar z Matematicko-fyzikální fakulty UK. Právě proto je čeština jedním z jazyků, na nichž se překladače prověřují.
Od 1. do 5. března budou počítače překládat testovací články z evropských novin a pak se bude hodnotit. „Jsme zvědaví, jak obstojí právě Euromatrix,“ uzavírá Matuška. „Na rozdíl od Googlu a dalších překladačů, které pracují pouze s četností výskytu slov, přidává totiž Euromatrix navíc ještě gramatiku.“
Z fondů i ze svého
Finančně podporuje vývoj Euromatrixu Evropská unie. Počítá totiž s tím, že jeho používání může jen v oblasti překladů nejrůznějších směrnic, smluv a úředních dokladů přinést výrazné úspory.
Celkově bude projekt Euromatrix Plus stát zhruba pět miliónů eur, z toho 3,8 miliónu přispěje Evropská unie. Zhruba 1,1 miliónu jde z rozpočtu výzkumných institucí, resp. z národních dotačních programů, a zhruba 60 000 eur investuje z vlastních zdrojů společnost CEET.
Investice do projektu Euromatrix Plus by se tak měla vrátit již po prvním roce aktivního používání.
Harmonogram testování kvality překladů |
---|
1. - 5. 3. 2010 - přihlášení účastníci, instituce, ale i nadšenci, nechají přeložit vybraný text svými softwary. V Praze je to Ústav formální a aplikované lingvistiky MFF UK Praha, která se podílí i na vývoji Euromatrixu. K dalším přihlášeným patří kromě Googlu např. Systran či Moses. |
březen 2010 - hotové strojové překlady zpracuje Univerzita v Edinburghu. Zde projdou speciálním počítačovým programem, který zhodnotí a porovná přesnost jednotlivých překladů na základě podobnosti s lidským překladem. |
březen – červenec 2010 - lidské vyhodnocení (Univerzita John Hopkins, USA). Odborníci budou porovnávat vždy na stejném textu lidský překlad a s ním několik strojových. Subjektivně vyhodnotí, který z nich je přesnější a lepší. Objektivní náhled zajistí počet těchto výstupů. Na kontrole pracuje souběžně několik desítek lidí. |
červenec 2010 - kompletní výsledky testování zpracuje a vyhodnotí CEET a vyhlásí na Konferenci Asociace pro počítačovou lingvistiku (Uppsala, Švédsko). |
Anketa
Co je to Euromatrix a jak funguje
Většina strojových překladačů, včetně Googlu, pracuje výhradně na základě statistického modelu, kdy se do něj denně vkládají tisíce slov. On pak vyhodnocuje četnost a podle toho „překládá“. Bohužel jen 2–3 % takovýchto překladů jsou stoprocentně kvalitní. Euromatrix je ale hybridním modelem překladače, ke statistice přidává lingvistiku, a tím se kvalitativně dostává o několik kategorií výše.