Rozpoznání starých textů

12. 08.
2024

Rozpoznání starých textů

Rozpoznání starého rukopisu je dnes díky umělé inteligenci snazší než kdy jindy. Nedávno jsem narazil na zdarma dostupný online nástroj, který dokáže za pomoci AI převést staré rukopisy na text, a to i v českém jazyce. Ukážeme si, jak na to.


Jak převést staré rukopisy do elektronické podoby

Převod psaného textu do elektronické podoby už dnes zvládá leckterý nástroj. Technologii OCR (Optical Character Recognition), tj. rozpoznávání optických znaků, využíváme již řadu let. Zdarma dostupné programy i online nástroje umí celkem slušně převést naskenovaný či ofocený text do elektronické podoby. Dokonce i Microsoft má v přídavném balíčku PowerToys utilitu, která dokáže z obrázku vytáhnout text.

Horší je to s ručně psaným textem, ale díky AI i toto přestává být problém. Nyní bych však rád doporučil nástroj, který dokáže převést i starý ručně psaný text, třeba a pochopí kontext, v jakém jej má zobrazit.

InkCapture pro převod starých textů

Nový český AI nástroj InkCapture výše zmíněné dokáže, a to s velmi dobrými výsledky. InkCapture vyvinula společnost EXON ve spolupráci se Západočeskou univerzitou a společností Amitia. Prozatím jsem zkoušel převést záznamy ze staré matriky psané kurentem a překladač dokázal poměrně věrně přeložit text. Takže mě hned napadlo, že třeba pro genealogické zkoumání je skvělým pomocníkem i pro ty z nás, kteří nemají za sebou paleografické kurzy (jestli zvládne další starší typy písem, jsem prozatím nezkoušel).

Po zadání e-mailu nabízejí tvůrci také zaslání návodu E-book: Začínáme s inkCapture v 7 krocích, jak s aplikací inkCapture pracovat.

„Aplikace inkCapture je v tuto chvíli naučena na obecnou češtinu a písmo z 20. století. Nejlepších výsledků dosahuje např. na obechních a městských kronikách z 20. století.“ inkCapture

Program není zcela zdarma, ale každý nový uživatel má v tuto chvíli k dispozici 50 kreditů, jež se rovnají asi 50 stranám, z nichž lze převádět text. Následný ceník ale také není (alespoň zatím) nijak přemrštěný, z čehož vysvítá, že jde alespoň prozatím o bohulibý filantropický projekt.

Ceník Inkcapture (8/2024)

InkCapture lze vyzkoušet přímo na stránkách projektu.

Převedení cizojazyčných rukopisů

Pokud jde o jinojazyčné staré tisky, i zde samozřejmě existuje řešení. Vyzkoušel jsem například výborný nástroj Transikribus, který umožňuje v podstatě totéž, co český inkCapture. Zkoušel jsem převod z německého kurentu a text byl zcela bezchybně přepsán, byť jsem vycházel z opravdu dobře čitelné kroniky.

Transkribus je finančně řešen obdobně, jako inkCapture, tedy je zdarma pro individuální použití (studentů, genealogických badatelů) zdarma pro 100 stran/měsíc. Webová služba je dostupná zde.

Co možná trochu udiví, je vklad Microsoftu. Ten vytrénoval vlastní modely TrOCR a zveřejnil je zdarma na internetu. Ty jsem prozatím nezkoušel, tak jen pro zájemce přikládám odkaz na Github.

Pomohl jsem Vám? Sdílejte článek na facebooku Facebook nebo mi můžete koupit kávu Káva
Můžete také začít odebírat newsletterNewsletter nebo RSS feedRSS Feed, aby Vám nic nového neuniklo.
zveřejněno: 12. srpna 2024
kategorie: Návody
| štítky: ,

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Dnes nejčtenější
  • Návod obsahuje několik způsobů, jak se rychle dostat do prostředí Ovládacích panelů, jež v nových verzích Window...
  • Návod, jak napsat písmena z ruské abecedy na české klávesnici. Hned úvodem je třeba říci, že na české klávesnici ruskou azbuku je...
  • Již vícekrát jsem se setkal s požadavkem na převod textů z prezentace v PowerPointu do Wordu či jinam. Předně je otázkou, z jakéh...