Hlavní obsah

Jak převést ručně psané poznámky do digitální podoby? Pomůže AI

Možnosti umělé inteligence (AI) se neustále rozšiřují, některé novinky jsou přitom velmi užitečné. Google Research například láká na InkSight. Je to nový AI model, který dokáže přesně převést fotografie ručně psaných poznámek do upravitelného digitálního textu, a to bez dalšího zařízení jako prostředníka. Vynález tak může potenciálně změnit způsob, jakým lidé zachycují a uchovávají své myšlenky.

Foto: Profimedia.cz

Psaní a umělá inteligence

Článek

Nový systém InkSight by měl podle tvůrců představovat významný průlom v dlouhodobé snaze překonat propast mezi tradičním rukopisem a digitálním textem.

Ačkoliv digitální zápisky nabízejí jasné výhody – cloudové úložiště, možnost vyhledávání, snadné úpravy nebo integraci s jinými digitálními nástroji –, tradiční zápisky rukou jsou dle výzkumníků pořád ve velké míře preferovány.

Smyslem nového nástroje je nahradit někdy chybné optické rozpoznávání znaků (OCR) umělou inteligencí. Nový systém tak dokáže skenovat fotografie ručně psaného textu a extrahovat písmena pomocí umělé inteligence lépe než u optického rozpoznávání.

AI obojek umožňuje psům a kočkám mluvit

AI

Předchozí pokusy o převod ručně psaného textu do digitální podoby se do značné míry opíraly o analýzu geometrických vlastností psaných tahů – snažily se vysledovat čáry na stránce. Nový nástroj místo toho dokáže kombinovat schopnost číst a porozumět textu, ale také jej přirozeně reprodukovat. Což u umělé inteligence není vždy normou.

Technologie je postavena na hotovém modelu OCR k identifikaci ručně psaných slov, která následně převádí do podoby jednotlivých tahů. Navíc InkSight kombinuje další dostupné komponenty – kodér Vision Transformer (ViT) a jazykový model mT5.

Foto: Archiv tvůrců

Vlevo: původní ručně psaný text z knihy Alenka v říši divů, vpravo: převedená digitální verze rukopisu pomocí systému InkSight. Obrázek ukazuje jeho schopnost zachovat přirozený charakter ručně psaného textu i v digitální podobě.

Lepší porozumění

InkSight je tedy dle vědců přesnější a revoluční díky svému přístupu k porozumění textu. Navíc umožňuje dosáhnout lepších výsledků za ne zrovna ideálních podmínek.

Například pokud je fotografie pořízena za slabého osvětlení, text může být částečně zastřený nebo rušivě splývat s pozadím, což ztěžuje jeho analýzu pomocí OCR. Nová technologie by si měla být schopná mnohem lépe poradit při těchto podmínkách, a to i v případě částečně zakrytého textu.

Výzkumníci zjistili, že lidé dokázali přečíst 87 % stop textu vytvořených pomocí InkSightu. Více než 67 % navíc bylo k nerozeznání od digitálního rukopisu, který byl vytvořen člověkem.

„Náš systém kombinuje vlastně čtení a psaní. To umožňuje trénovat model při absenci velkého množství párových vzorků, které je obtížné získat,“ vysvětlili vědci. „Dle našich informací by se mělo jednat o první práci, která efektivně odstraňuje ručně psaný text na libovolných fotografiích s různými vizuálními charakteristikami a pozadím,“ dodali. Systém by si měl dokonce v jisté míře poradit i s jednoduchými náčrtky a kresbami.

The Washington Post má dalšího AI chatbota. Odpoví téměř na cokoliv

AI

Psaní rukou je základ

Podle webu VentureBeat tato technologie přichází v klíčovém okamžiku vývoje interakce mezi člověkem a počítačem. Psaní rukou je i navzdory desetiletému digitálnímu pokroku hluboce zakořeněno v lidském poznávání a učení.

Studie ukazují, že psaní rukou ve srovnání s psaním na klávesnici zlepšuje uchování paměti, učení nové látky a porozumění. To právě vytváří výzvu pro projekty, jako je InkSight.

Nový systém má tedy potenciální výhodu, jak zaujmout uživatele se zálibou v ručně psaném textu. Například studenti si mohou zachovat svůj styl ručního psaní poznámek a zároveň získat možnost vyhledávat, sdílet a organizovat své poznámky digitálně. Výzkumníci nebo profesionálové mohou snadněji digitalizovat a analyzovat ručně psané dokumenty.

Zároveň by se dle webu TechRadar mohlo jednat „o zásadní nástroj pro dešifrování a převod ručně psaného textu napříč staletími do digitální podoby“.

Foto: Archiv tvůrců

Na obrázcích můžeme vidět stejné vícejazyčné narozeninové přání. Vlevo: originální přání, uprostřed: přání je na úrovni slov analyzováno prostřednictvím barev umělou inteligencí InkSight, vpravo: konečná digitální verze se zachovanými tahy znaků.

Neautomatizuje lidské úkony

Obavy ze zneužití také nejsou namístě. Systém nemůže generovat rukopis od nuly, což brání potenciálnímu padělání nebo vydávání se za někoho jiného. Navíc InkSight neautomatizuje lidské úkony, jako většina nástrojů umělé inteligence.

Naopak se nástroj snaží zachovat si osobní charakter rukopisu a k tomu poskytnout digitální výhody. To může být pro velké množství uživatelů klíčové.

Technologie je už nyní k dispozici pro veřejné testování prostřednictvím demo verze Hugging Face. Ta uživatelům umožňuje vyzkoušet si na vlastní kůži, jak se jejich ručně psané poznámky mohou převést do digitální podoby. Ohlasy jsou zatím většinou pozitivní.

Společnost Google samozřejmě není jedinou firmou, která pracuje na nástrojích umělé inteligence pro dešifrování rukopisu. Například digitální poznámkový blok Goodnotes dokáže číst rukopisy, obsahuje také nástroj pro úpravu rukopisů využívající technologii Goodnotes Smart Ink, která převádí rukopis na psaný text.

Také nová čtečka Kindl Scribe od Amazonu láká na možnost převádět ručně psané poznámky na čitelný text.

Středobod Vatikánu ožil díky AI ve virtuálním světě. Je online a zdarma

AI

Výběr článků

Načítám