Program pro překlad naskenovaných dokumentů. Kontrola chyb a ukládání výsledků práce. Freemore OCR je

Dobré odpoledne.

Pravděpodobně každý z nás čelil úkolu převést papírový dokument na elektronický pohled. To je zvláště často nutné pro ty, kteří studují, pracují s dokumentací, překládají texty pomocí elektronické slovníky atd.

Ne každý hned pochopí jednu věc. Po naskenování (vložení všech listů na skener) budete mít obrázky formát BMP, JPG, PNG, GIF (mohou existovat i jiné formáty). Z tohoto obrázku tedy musíte získat text – tento postup se nazývá rozpoznávání. Následující budou uvedeny v tomto pořadí.

1. Co je potřeba pro skenování a rozpoznávání?

1) Skener

Chcete-li převést tištěné dokumenty do textové podoby, potřebujete nejprve skener a podle toho „nativní“ programy a ovladače, které jsou s ním dodané. Pomocí nich můžete naskenovat dokument a uložit jej pro další zpracování.

Můžete použít jiné analogy, ale software dodaný se skenerem obvykle pracuje rychleji a má více možností.

V závislosti na tom, jaký typ skeneru máte, se rychlost provozu může výrazně lišit. Existují skenery, které dokážou přijmout obrázek z listu za 10 sekund, a jiné, které jej přijmou za 30 sekund. Pokud naskenujete knihu o 200–300 listech, myslím, že není těžké spočítat, kolikrát bude časový rozdíl?

2) Program rozpoznávání

V našem článku vám ukážu práci v jednom z nejlepších programů pro skenování a rozpoznávání naprosto jakýchkoli dokumentů - ABBYY FineReader. Protože program je placený, pak vám okamžitě dám odkaz na jiný - jeho bezplatný analog. Pravda, nesrovnával bych je, jelikož FineReader vítězí ve všech ohledech, přesto doporučuji vyzkoušet.

ABBYY FineReader 11

Jeden z nejlepších programů svého druhu. Je navržen tak, aby rozpoznával text na obrázku. Mnoho možností a funkcí je vestavěno. Dokáže analyzovat spoustu písem, dokonce podporuje ručně psané verze (ačkoli jsem to osobně nezkoušel, myslím, že je nepravděpodobné, že ručně psanou verzi dobře rozpoznáte, pokud nemáte dokonalý kaligrafický rukopis). Práce s ním bude podrobněji popsána níže. Zde poznamenáváme, že článek bude hovořit o práci ve verzi 11 programu.

Zpravidla jinak verze ABBYY FineReader se od sebe příliš neliší. Totéž můžete snadno udělat v jiném. Hlavní rozdíly mohou být v pohodlí, rychlosti programu a jeho možnostech. Například více rané verze PDF a DJVU odmítají otevřít...

3) Dokumenty ke skenování

Ano, právě tak jsem se rozhodl dát dokumenty do samostatného sloupce. Ve většině případů skenují nějaké učebnice, noviny, články, časopisy atd. Tzn. knihy a literaturu, které jsou žádané. Kam s tím vedu? Z osobní zkušenost Mohu říci, že mnoho z toho, co chcete skenovat, je pravděpodobně již na internetu! Kolikrát jsem já osobně ušetřil čas, když jsem našel konkrétní knihu již naskenovanou online. Stačilo jen zkopírovat text do dokumentu a dále s ním pracovat.

Toto je jednoduchá rada – než něco naskenujete, zkontrolujte, zda to již někdo nenaskenoval, a nemusíte ztrácet čas.

2. Možnosti skenování textu

Zde nebudu mluvit o vašich ovladačích pro skener, programech, které s ním byly dodány, protože všechny modely skenerů jsou jiné, software je také všude jiný a je nerealistické hádat, natož jasně ukázat, jak operaci provést.

Všechny skenery ale mají stejné nastavení, což může značně ovlivnit rychlost a kvalitu vaší práce. To je přesně to, o čem se zde budeme bavit. Uvedu je v pořadí.

1) Kvalita skenování - DPI

Nejprve nastavte ve volbách kvalitu skenování alespoň na 300 DPI. Je vhodné dokonce nastavit více, pokud je to možné. Čím vyšší DPI, tím jasnější bude váš obraz, a tedy rychlejší další zpracování. Navíc, čím vyšší je kvalita skenování, tím méně chyb budete muset později opravovat.

Optimální možnost obvykle poskytuje 300-400 DPI.

2) Barva

Tento parametr velmi ovlivňuje dobu skenování (mimochodem, ovlivňuje ji i DPI, ale jen tolik a pouze tehdy, když uživatel nastaví vysoké hodnoty).

Obvykle existují tři režimy:

Černá a bílá (skvělé pro jednoduchý text);

Šedá (vhodná pro text s tabulkami a obrázky);

Barva (pro barevné časopisy, knihy, obecně dokumenty, kde je důležitá barva).

Obvykle doba skenování závisí na výběru barvy. Koneckonců, pokud je váš dokument velký, pak i 5-10 sekund na stránce jako celku navíc povede k slušnému času...

3) Fotky

Dokument můžete obdržet nejen naskenováním, ale také vyfotografováním. V tomto případě budete mít zpravidla jiné problémy: zkreslení obrazu, rozostření. Z tohoto důvodu může být zapotřebí delší další úprava a zpracování výsledného textu. Osobně v této věci nedoporučuji používat fotoaparáty.

Je důležité si uvědomit, že ne každý takový dokument lze rozpoznat, protože jeho kvalita skenování může být extrémně nízká...

3. Rozpoznávání textu dokumentu

Po otevření obrázku v ABBYY FineReader program zpravidla automaticky začne zvýrazňovat oblasti a rozpoznávat je. Někdy to ale neudělá správně. Za tímto účelem zvážíme ruční výběr potřebných oblastí.

Důležité! Ne každý hned pochopí, že po otevření dokumentu v programu se vlevo v okně, ve kterém vybíráte různé oblasti, zobrazí původní dokument. Po kliknutí na tlačítko „rozpoznání“ se vám zobrazí program v okně vpravo připravený text. Po rozpoznání je mimochodem vhodné zkontrolovat text na chyby ve stejném FineReaderu.

3.1 Text

Tato oblast se používá ke zvýraznění textu. Obrázky a tabulky by z něj měly být vyloučeny. Vzácné a neobvyklá písma musíš to zadat ručně...

Chcete-li zvýraznit textovou oblast, podívejte se na lištu v horní části FineReaderu. Je zde tlačítko „T“ (viz snímek obrazovky níže, ukazatel myši je přímo na tomto tlačítku). Klikněte na něj a poté na obrázku níže vyberte úhlednou obdélníkovou oblast, ve které se text nachází. Mimochodem, v některých případech musíte vytvořit textové bloky 2-3 a někdy 10-12 na stránku, protože... Formátování textu může být odlišné a jeden obdélník nemůže zvýraznit celou oblast.

Je důležité si uvědomit, že obrázky by neměly být zahrnuty do textové oblasti! To vám v budoucnu ušetří spoustu času...

3.2 Obrázky

Používá se ke zvýraznění obrázků a těch oblastí, které jsou kvůli tomu obtížně rozpoznatelné špatná kvalita nebo neobvyklé písmo.

Na níže uvedeném snímku obrazovky je ukazatel myši na tlačítku používaném ke zvýraznění oblasti „obrázku“. Mimochodem, v této oblasti můžete vybrat naprosto jakoukoli část stránky a FineReader ji pak vloží do dokumentu jako obyčejný obrázek. Tito. jen "hloupé" kopie...

Obvykle se tato oblast používá ke zvýraznění špatně naskenovaných tabulek, ke zvýraznění nestandardního textu a písma a dokonce i obrázků.

3.3 Tabulky

Snímek obrazovky níže ukazuje tlačítko pro zvýraznění tabulek. Obecně to osobně používám velmi zřídka. Jde o to, že budete muset celkem běžně kreslit (prakticky) každý řádek na stole a ukazovat co a jak do programu. Pokud je stůl malý a ne příliš dobrá kvalita, doporučuji pro tyto účely využít oblast „obrázek“. Ušetříte tím spoustu času a podle obrázku si pak můžete rychle vytvořit tabulku ve Wordu.

3.4 Nepotřebné prvky

Důležité upozornění. Někdy stránka má nepotřebné prvky, které narušují rozpoznávání textu nebo vám dokonce brání ve výběru požadované oblasti. Mohou být zcela odstraněny pomocí gumy.

Chcete-li to provést, přejděte do režimu úprav obrázků.

Vyberte nástroj guma a vyberte nepotřebnou oblast. Bude vymazána a bude na jejím místě bílý list papír.

Mimochodem, doporučuji tuto možnost využívat co nejčastěji. Zkuste to nejlepší textové oblasti které jste zvýraznili, kde nepotřebujete kus textu nebo jakýkoli zbytečné body, neostrost, zkreslení - odstranit pomocí gumy. Díky tomu bude rozpoznávání rychlejší!

4. Rozpoznávání souborů PDF/DJVU

Obecně se tento formát rozpoznávání nebude nijak lišit od ostatních – tzn. Dá se s ním pracovat stejně jako s obrázky. Jediná věc je, že program by neměl být příliš stará verze, pokud se vám soubory PDF/DJVU neotevírají, aktualizujte verzi na 11.

Malá rada. Po otevření dokumentu ve FineReaderu začne automaticky rozpoznávat dokument. Často v souborech PDF/DJVU konkrétní oblast stránky nejsou potřeba v celém dokumentu! Chcete-li odstranit takovou oblast na všech stránkách, postupujte takto:

1. Přejděte do sekce pro úpravy obrázků.

2. Zapněte možnost „oříznout“.

3. Vyberte oblast, kterou potřebujete na všech stránkách.

4. Klepněte na tlačítko použít na všechny stránky a ořízněte.

5. Kontrola chyb a ukládání výsledků práce

Zdálo by se, jaké další problémy by mohly nastat, když byly všechny oblasti zvýrazněny a následně rozpoznány - vezměte a uložte... Ale nebylo tomu tak!

Nejprve musíte ověřit dokument!

Chcete-li to povolit, po rozpoznání bude v okně vpravo tlačítko „kontrola“, viz snímek obrazovky níže. Po jeho stisknutí Program FineReader automaticky zobrazí ty oblasti, kde program měl chyby a nemohl spolehlivě identifikovat konkrétní symbol. Stačí si vybrat, buď souhlasíte s názorem programu, nebo zadáte vlastní postavu.

Mimochodem, přibližně v polovině případů vám program nabídne hotové správné slovo- Vše, co musíte udělat, je vybrat požadovanou možnost pomocí myši.

Za druhé, po kontrole je třeba zvolit formát, ve kterém uložíte výsledek své práce.

Zde vám FineReader umožní jít na maximum: můžete jednoduše přenést informace do Wordu jeden na jednoho nebo je uložit v jednom z desítek formátů. Rád bych ale zdůraznil další důležitý aspekt. Ať už zvolíte jakýkoli formát, důležitější je vybrat typ kopie! Pojďme se podívat na ty nejzajímavější možnosti...

Přesná kopie

Všechny oblasti, které jste vybrali na stránce v rozpoznaném dokumentu, budou přesně odpovídat původnímu dokumentu. Velmi pohodlná možnost, kdy je pro vás důležité neztratit formátování textu. Mimochodem, fonty budou také velmi podobné originálu. Při této možnosti doporučuji přenést dokument do Wordu, abyste tam mohli pokračovat v další práci.

Upravitelná kopie

Tato možnost je dobrá, protože obdržíte již naformátovanou verzi textu. Tito. Nenajdete odsazení s „kilometrem“, které mohlo být v původním dokumentu. Užitečná možnost, kdy budete informace výrazně upravovat.

Je pravda, že byste si neměli vybírat, zda je pro vás důležité zachovat styl návrhu, písma a odsazení. Někdy, pokud rozpoznávání není příliš úspěšné, může být váš dokument „zkosený“ kvůli změněnému formátování. V tomto případě je vhodné zvolit přesnou kopii.

Jednoduchý text

Možnost pro ty, kteří potřebují pouze text ze stránky bez všeho ostatního. Vhodné pro dokumenty bez obrázků a tabulek.

Tímto končí článek o skenování a rozpoznávání dokumentů. Doufám, že s pomocí těchto jednoduché tipy můžeš řešit své problémy...

Potřeba práce s textem prezentovaným ve formuláři grafické soubory, se objevuje poměrně často. Ať už se jedná o obrázek, naskenovaný dokument nebo fotokopii, ruční vytáčení informace v nich uvedené mohou trvat poměrně dlouho.

Přehled programu

Pro tento účel existuje velké množství programů. Abyste s nimi mohli začít pracovat, stačí mít obrázek nebo naskenovaný dokument, který je potřeba převést na text. Většina z nich je si svými funkcemi podobná, ale zároveň také mají unikátní nástroje, vhodné pro konkrétní účely.

Jak se neztratit v jejich rozmanitosti a které z nich stojí za pozornost? Na to se podíváme příště.

První program, na který se zaměříme, je CuneiForm. Toto je bezplatný software od společnosti Cognitive Technologies. Jeho hlavním účelem je optické rozpoznání textů prezentovaných ve formuláři elektronické kopie nebo obrázky. Rychle převede grafický soubor na text, se kterým můžete pracovat v jakékoli kancelářské aplikaci.

Hlavní vlastnosti programu:


Více OCR

Freemore OCR je ve svých funkcích podobný. Je jednoduchý a umístěný v volný přístup program, který lze použít k extrahování textu z obrázků v různé formáty a PDF dokumenty. Po dokončení skenování lze výsledek uložit do souboru, který lze otevřít pomocí programu Poznámkový blok nebo Word.

Freemore OCR je:


Věnovat pozornost! Kvůli velkému objemu může takovým aplikacím práce s dokumenty ve formátu PDF trvat déle než s běžným grafickým souborem zdrojový materiál.

FreeOCR

FreeOCR je další pohodlná aplikace pro optické rozpoznávání textu. Má intuitivní přehledné rozhraní a obsahuje sadu všech nástrojů k tomu nezbytných. Za zmínku stojí, že menu programu je v angličtině, ale díky neobvyklému přístupu k jeho designu je srozumitelné každému uživateli. Nástroj podporuje práci s mnoha obrázky v různých formátech a soubory PDF.

Funkce FreeOCR:

  1. schopnost převádět obrázky ve všech populárních formátech;
  2. absence standardní menu, místo toho jsou uživateli nabídnuty velké ikony znázorňující požadovanou akci;
  3. minimalistické rozhraní, které obsahuje jen to nejnutnější;
  4. podpora rozpoznávání mnoha jazyků, včetně ruštiny;
  5. nízké systémové požadavky.

Důležité! Chcete-li nainstalovat FreeOCR, musíte být připojeni k internetu. Po spuštění programu v automatický režim aktualizuje svou databázi a stáhne chybějící slovníky z online úložiště. Pokud za běhu zjistí neznámé znaky nebo jazyk, může FreeOCR také navrhnout aktualizaci.

Video: rozpoznání textu od obrázku

Jednoduché OCR

SimpleOCR – podobný program pro rozpoznání textu po skenování. Je skvělá pro práci s cizími jazyky, protože má velkou a neustále se zlepšující slovní zásobu. Kromě standardní sada funkcí, má možnost vyhledávat slovo nebo kombinaci ve výsledném textu a pokročilé možnosti formátování. Dobře se hodí pro zpracování velkých textů.

Charakteristické rysy SimpleOCR:


RiDoc

RiDoc je aplikace, jejíž hlavní funkcí je pracovat s naskenovanými kopiemi dokumentů a převádět je na prostý text.

Vše je připraveno ke skenování – stačí připojit tiskárnu a začít pracovat, poté program začne zpracovávat vybrané soubory.

  1. Navíc umožňuje zmenšit velikost dokumentu bez ztráty kvality zdrojového materiálu. Funkce RiDoc:
  2. velká sada nástrojů pro práci s tiskárnami, podpora pro nejoblíbenější modely;
  3. schopnost sloučit několik dokumentů do jednoho souboru, upravovat je a uspořádat;
  4. vytvoření galerie, ve které jsou uloženy všechny získané výsledky;
  5. export do MS Word, PDF a grafických souborů; odesláním výsledku e-mail
  6. přímo z rozhraní aplikace;
  7. vytváření vodoznaků, které chrání výsledek;

rychlost a pohodlí.

img2txt img2txt – standardní aplikace , transformační různé typy grafické soubory do textového materiálu. Program podporuje většinu známé formáty

, snadné použití a volně dostupné.

  1. Hlavní funkce a vlastnosti:
  2. převod obrázků v různých formátech do textových souborů;
  3. rozpoznávání skenů dokumentů a fragmentů textu v obrazech;
  4. extrémně jednoduché menu obsahující dostatečnou sadu nástrojů;
  5. uložení výsledku v různých formátech;

distribuce zdarma.

Věnovat pozornost! img2txt má stejně jako další podobné aplikace svou online verzi, na jejíž vývoj a vylepšování nyní jeho tvůrci zaměřují svou pozornost.

SunnyPage SunnyPage je pohodlný nástroj, který vám umožňuje stahovat a převádět různé typy obrázků, ať už jde o naskenovanou kopii dokumentu, obrázek nebo fotografii v dobré kvalitě. Podporuje také práci s dokumenty PDF. Program zahrnuje rozsáhlou slovní zásobu a funkce

automatické rozpoznání

  1. jazyk. SunnyPage navíc: podporuje stahování doplňkové slovníky A
  2. ruční přidání
  3. nová slova a fráze; pracuje s velkými objemy s možností uložit je do jednoho souboru; má sadu funkcí pro úpravu obrázků,
  4. automatické nastavení
  5. jejich jas a odstranění vad;
  6. „čte“ většinu známých formátů;

umožňuje uložit výsledek do souboru aplikace Word;

má vícejazyčné rozhraní. Program pro skenování a rozpoznávání textu Abbyy Finereader ABBYY FineReader je zaslouženě nejlepší program pro rozpoznávání textu svého druhu. které uživatel hledá podobné aplikace. Je plně kompatibilní s Microsoft Office, která umožňuje začít pracovat s dokumentem ihned po dokončení procesu převodu.

Co umí ABBYY FineReader?


Capture2Text

Capture2Text – přenosná aplikace, který disponuje širokou škálou funkcí pro práci s dokumenty. Jeho charakteristický rys je možnost pořídit snímek obrazovky nebo jeho část a uložit jej jako obrázek. Poté se můžete pustit do práce a přenést přijaté informace do dokumentu v tradičních formátech.

Capture2Text nevyžaduje instalaci a lze jej spustit z flash disku. Díky tomu je použitelný v mnoha oblastech a jednoduše nenahraditelný pro ty, kteří potřebují mít vždy po ruce jednoduchý a výkonný měnič.

Capture2Text má mnoho zajímavých funkcí:

  • standardní převod obrázků (obrázků, skenů, fotokopií) do dokumentů aplikace Word;
  • rozpoznávání řeči (včetně ruštiny) a psaní hlasem;
  • schopnost přiřadit horké klávesy;
  • zachycení textu z plochy nebo její části a následné zpracování.

Dokumenty Google

Kromě všech výše uvedených utilit je přítomna funkce optického rozpoznávání textových fragmentů Dokumenty Google. Tato služba podporuje práci s oběma soubory v JPG formáty, PNG a GIF a vícestránkové PDF– dokumenty. Zdrojem mohou být obrázky získané pomocí skenerů, ale i běžné fotografie.

Stojí za zmínku, že při použití této služby v důsledku toho není vždy zachováno původní formátování. Některé struktury, jako jsou seznamy, sloupce a poznámky pod čarou, mohou být ztraceny.

To je značně ovlivněno kvalitou stahovaného grafického souboru. Přijaté dokumenty lze uložit do služby Disk Google, poté stažen do počítače nebo odeslán e-mailem.

Každý z uvažovaných programů má dostatečné nástroje, aby splnil svůj původní účel – převod souborů různé formáty PROTI textové dokumenty. Liší se však svou sestavou doplňkové funkce, rozhraní a podporované jazyky. Chcete-li pracovat, měli byste si vybrat aplikaci (nebo několik), která vyhovuje vašim potřebám a je schopna co nejpřesněji se s úkolem vyrovnat.

>

Existují speciální programy, které umí „číst“ obrázky s textem. Konverze znamená, že na základě algoritmu je text zobrazený na naskenovaném dokumentu převeden na věty. Celá potíž je v tom, že na obrázku program nevidí sadu písmen, ale rastr, bodovou strukturu. Všechny tyto body mají jiný tvar, jsou dešifrovány speciální pomůcky, přeměníte jej na běžný text, se kterým můžete dále pracovat.
Programy pro rozpoznávání textu se používají k převodu různé papírové literatury a dokumentů do elektronické podoby. Knihovny a archivy se převádějí podobně digitální pohled.

Automatická digitalizace pomocí programu předčí manuální metoda rychlá volba, proto je tato metoda tak běžná. Prozradíme vám pět nejlepších programů na rozpoznávání vyfotografovaných textů.

ABBYY FineReader 10


FineReader- vlajková loď mezi software, který rozpoznává texty v obrázcích. Tento program je široce používán mezi běžní uživatelé a odborníky na digitalizaci. Jeho popularita je způsobena kvalitou jeho práce. FineReader perfektně zvládá azbuku a 178 dalších jazyků.

Jedinou nevýhodou programu takříkajíc je, že je placený. Ale uživatelé, kteří to zkoušeli dva týdny a naskenovali řadu stránek, si produkt kupují, protože za ty peníze rozhodně stojí.

FineReader dokáže „číst“ text z libovolných obrázků, a nikoli v nejvyšší kvalitě. Pomocí programu můžete převést jakýkoli dokument do digitální podoby: od běžného obrázku po naskenovanou stránku.

Pros:

  • Jasně rozpoznává text;
  • Čte mnoho jazyků;
  • Neklade velké nároky na kvalitu obrazu, dokumentu, fotografie.
Nevýhody:
  • Bezplatná verze je omezena časem (dva týdny) a počtem naskenovaných stránek (55).

OCR CuneiForm


CuneiForm opticky rozpoznává texty na grafických souborech a převádí je do upravitelné podoby. Nástroj je k dispozici v jedné verzi, zdarma a liší se od předchozí program kvalita rozpoznávání. Ale to mi nevadí a mnoho lidí to používá svobodný software v domnění, že on funkčnost dělat skvělou práci.

S tímto programem nejen převedete text do digitální podoby, ale také uložíte font a výšku písmen. Databáze písem CuneiForm je rozsáhlá; nástroj dokáže rozpoznat i naskenované a napsané obrázky.

K jasnějšímu dešifrování textu nástroj používá specializované slovníky. Tyto slovníky jsou neustále aktualizovány, takže CuneiForm má bohatou slovní zásobu.

Pros:

  • Bezplatná verze programu;
  • Přesnost textu je opravena pomocí slovníků;
  • Dešifruje všechny obrázky, dokonce i ty nekvalitní;
  • Zachová strukturu dokumentu, dokonce i jeho formátování.
Nevýhody:
  • Chyby v textech;
  • Celkem je podporováno 24 jazyků.

WinScan2PDF


WinScan2PDF- kompaktní nástroj, který skenuje jakékoli dokumenty. Vydává se ve formě přenosného souboru, přenosné verze, kterou není třeba instalovat do počítače nebo jiných zařízení. Nástroj okamžitě přečte jakýkoli text a uloží jej pouze do dokumentu PDF.

Program je velmi snadno ovladatelný i pro nejnevyškolenější uživatele. Chcete-li dosáhnout požadovaného výsledku, stačí stisknout tři tlačítka:

  • Vyberte grafický soubor;
  • Zadejte umístění stahování;
  • Spusťte proces.
Program je schopen rychle zpracovat mnoho grafických souborů najednou, a proto je tak oblíbený mezi uživateli: začátečníky i profesionály.

Pros:

  • Nedostatek distribuce;
  • Okamžité dekódování textové grafiky;
  • Minimalistické, uživatelsky přívětivé rozhraní.
Nevýhody:
  • Užitná hmotnost je pouze 55 Kb;
  • Text lze uložit pouze ve formátu přenosného dokumentu.

Jednoduché OCR


Jednoduché OCR - bezplatná aplikace, který rozpozná naskenovaný text opticky, ale pouze na cizí jazyky. Ruský jazyk bohužel není zahrnut v balíčku rozhraní ani v seznamu podpory. Jinak utilita odvádí výbornou práci, rozpoznává i ručně psané texty.

Výstupní texty se liší vysoká úroveň přesnost. Tento nástroj můžete také použít k extrahování grafického souboru a odstranění šumu. Dalším charakteristickým rysem je přítomnost vestavěného textového editoru, který se velmi pohodlně používá.

Pros:

  • Funguje správně s vysoká přesnost;
  • Dokáže odstranit šum z grafiky;
  • Umožňuje okamžitou úpravu přijatých textů.
Nevýhody:
  • Neexistuje žádná podpora ruského jazyka.

Freemore OCR


Freemore- zdarma, jednoduchý nástroj, který snadno a rychle čte texty z různých grafických souborů i z několika skenerů současně a překládá je do pohodlný formát. Kromě toho může nástroj zpracovat mnoho stránek najednou.

Rozhraní nepodporuje ruský jazyk, ale i přes to je nástroj rozšířený a oblíbený mezi domácími uživateli, protože se velmi snadno používá.

Pros:

  • bezplatná verze;
  • šifruje a dešifruje soubory;
  • umožňuje zobrazit vlastnosti dokumentu;
  • jednoduché rozhraní, nepřetížené tlačítky;
  • správný, vysoce přesný výsledek výstupu;
  • čte několik skenerů najednou.
Nevýhody:
  • Uživatelské rozhraní není přeloženo do ruštiny;
  • Chcete-li dešifrovat ruské texty, musíte si stáhnout další jazyk.

Optické rozpoznávání text - proces, při kterém fotografovaný nebo naskenovaný text, pomocí speciální program, je přeložen do formátu dokumentu.

To znamená, že místo obrázku budete mít standardní psaný text, který lze upravovat.

V tento materiál probereme, který program pro rozpoznávání textu je lepší (nejlepších 7 nástrojů je uvedeno níže).

Výběr

Jak vybrat nejvhodnější program a jaké hlavní vlastnosti takový software má?

Může se lišit v různé ukazatele– přesnost rozpoznávání, schopnost pracovat s určitým jazykem, schopnost ukládat původní struktura text, atd.

Takový software může být distribuován za poplatek nebo zdarma a může být implementován online (ve formuláři speciální služby), a ve formě předinstalovaných programů.

Algoritmus práce spočívá v tom, že pro každé písmeno abecedy se sestaví databáze možností, jak může na fotografii vypadat, jeho hlavní prvky se zvýrazní a uloží. Jakmile jsou takové prvky na fotografii detekovány, program rozpozná odpovídající písmeno. Podle toho, jak dobře a podrobně byla taková databáze sestavena, závisí nakonec kvalita rozpoznání materiálu.

Proto je důležité, aby byl software navržen tak, aby pracoval specificky s ruským jazykem (některé programy mohou pracovat s textem napsaným ve dvou jazycích najednou, jiné ne).

Některé utility a služby jsou navíc schopny zachovat i původní strukturu textu (, seznamů), jeho typ provedení (odrážky atd.) a dokonce i .

V jakých případech je takový software nezbytný?

  • Při vytváření dokumentů, když je k dispozici pouze tištěná verze;
  • Při sestavování abstraktů, zpráv a nutnosti citovat velký úryvek textu z knihy;
  • Pro redakční práci, kdy je text dostupný pouze ve formátu fotografie atp.

Ve skutečnosti je rozsah použití softwaru velmi široký a při správném výběru může usnadnit a zrychlit práci s textem.

Specifikace

Software se v mnoha ohledech liší: způsob implementace (online nebo formou utility), licence k použití (placená nebo bezplatná), seznam uznávaných jazyků, kvalita rozpoznávání a další.

Aby to mohl uživatel udělat správná volba co nejrychleji, níže uvedená tabulka ukazuje hlavní charakteristiky takových programů.

Tituly Licence Snímání Kontrola pravopisu Překlad Zpracování textu v editoru Práce s ručně psaným textem Práce s nekvalitními obrázky
Abbyy Fine Reader Placené, s 10denní bezplatnou zkušební verzí Ano Ano Ano částečně částečně Ano
Formulář OCR Cunei Zdarma Ano Ano Žádný Ano Žádný Ano
Readiris Pro Žádný Ano Žádný Ano Ano Ano
OCR Freemore Zdarma Ano Žádný Žádný Ano Žádný Ano
Abbyy Čtečka snímků obrazovky Placené, se 14denní bezplatnou zkušební verzí Žádný Ano Ano Žádný Žádný částečně
Adobe Acrobat Placené, se 7denní bezplatnou zkušební verzí Ano Žádný Žádný částečně Žádný částečně
Uvolnit Online OCR Zdarma Žádný Žádný Žádný Žádný částečně Ano

Všechny nástroje uvedené v tabulce níže jsou podrobně popsány a jsou seřazeny v TOP pořadí, od nejlepšího po nejhorší.

Abbyy Fine Reader

Jedná se o nejkvalitnější a multifunkční software v tomto TOP. Vyznačuje se vysokou přesností rozpoznávání a má řadu výhod, je distribuován za poplatek.

Program úspěšně pracuje s mnoha jazyky při rozpoznávání je schopen zachovat strukturu textu a typ formátování.

Je určen pro profesionály, a proto podle většiny uživatelů za ty peníze stojí.

  • Velký počet podporovaných jazyků;
  • Schopnost poměrně přesně zachovat styl formátování a strukturální vlastnosti dokumentu;
  • Dostupnost bezplatné zkušební verze po dobu 10 dnů;
  • Žádné snížení kvality práce ani s velké objemy text (což je často pozorováno u jiných programů, které s každou další nahranou fotkou rozeznávají text hůř a hůř a problém je opraven až po restartu).

Recenze o tento software jiný: " Dobrý program, hodně pomáhá v mé práci“, „Nestojí za ty peníze – existují bezplatné programy se stejnou kvalitou rozpoznávání.“

OCR formulář Cunei

OCR Cunei Form je možná jedním z nejfunkčnějších pohodlné programy, mezi ty, které jsou distribuovány zdarma.

Poskytuje poměrně vysokou kvalitu rozpoznávání a funguje i s nekvalitními fotografiemi.

Program umožňuje upravovat fotografii přímo při práci s ní a celkem dobře rozeznává písma a struktury (ačkoliv nepracuje s ručně psaným textem).

Je možné je přímo odeslat a odeslat do editoru textová forma.

Má poměrně uspokojivou provozní rychlost.

  • Nedostatek vestavěného překladače;
  • Žádná kvalita kontroly pravopisu;
  • Nedostatek schopnosti pracovat s ručně psaným textem.

Uživatelské recenze tohoto programu jsou následující: „Dobrý software“, „Vzhledem k tomu, že program je zdarma, funguje dobře.“

Readiris Pro

Readiris Pro je další placený software, který poskytuje poměrně rozmanité a stabilní práci o rozpoznávání a úpravách testů.

Rozpoznávání textu je velmi výhodná příležitost. Již nemusíte přepisovat velké objemy knih a článků. Pro učitele, studenty a výzkumné pracovníky např softwarových aplikací- skutečný dárek. Uvažujme různé aplikace a určit, který program pro rozpoznání textu z obrázku je nejlepší.

Jak to funguje

Optické rozpoznávání znaků (OCR) je schopnost převádět text grafický pohled(foto, sken, pdf) v běžném formátu. Převedený text lze upravit.
Žádný rastrový obrázek se skládá z teček. Rozpoznávací software identifikuje písmena na obrázku a převede je na text. Je analyzována struktura dokumentu. Vyčnívat textové bloky. Poté jsou nakresleny čáry, které jsou rozděleny na slova a poté na symboly. Každá postava je porovnána se vzory. Poté se vytvářejí hypotézy o tom, o jaký druh symbolu se jedná. Na jejich základě software analyzuje různé možnosti dělení řádků na slova a slov na znaky. Počet takových hypotéz je obrovský. Nakonec se program rozhodne a vydá text.

Přehled softwaru

Obvykle lze všechny aplikace rozdělit do tří kategorií:

Podívejme se na několik možností z každé sekce.

Placené a bezplatné programy

OCR CuneiForm

Volný program pro skenování rozpoznávání textu, který si můžete stáhnout zde.

Aplikace byla vyvinuta v roce 1993 společností Cognitive Technologies. Jedním z jeho hlavních rysů v té době byla schopnost rozpoznat směs ruského a anglické jazyky. V roce 2009 byla přidána větev, která umožňuje rozpoznání směsi dalších jazyků. Softwarový produkt byl dodán se skenery a multifunkčními zařízeními od předních výrobců: Hewlet-Pachard, Epson, Xerox atd. Nejnovější verze vyšel v roce 2009.
Po stažení a instalaci se snažíme text rozpoznat. Vezměme si tento článek jako příklad.

Rozhraní programu je jednoduché, menu je v ruštině.


Klikněte na ikonu složky a nahrajte obrázek. Stiskněte tlačítko rozpoznávání.


Výsledek není působivý. Vícebarevný text nebyl rozpoznán.


Navzdory uvedenému použití různých slovníků byla angličtina také špatně rozpoznána.


Obecně platí, že ideální fotku lze převést do symbolů, ale čím nižší je kvalita originální obrázek, tím nižší je pro výsledek.
Je třeba poznamenat, že se jedná o jediný program pro rozpoznávání rusifikovaného textu pro skenování, který byl stažen zdarma legálním způsobem. Všichni ostatní dovnitř nejlepší scénář mít bezplatné zkušební období.

RiDoc

Program pro rozpoznávání textu z fotografie nebo ze skeneru s volné období za 30 dní. Stáhnout si ho můžete zde.

Aplikace má dobrou funkčnost a přístupné rozhraní. Chcete-li načíst obrázek, klikněte na tlačítko „Otevřít“.


Dále je tlačítko „Rozpoznat“.


Jako výsledek dostáváme hotový výsledek. Lze jej otevřít ve Wordu nebo OpenOffice.


Zde je výsledek.


Také ne ideální, ale mnohem více než v předchozím případě.
Můžete také přidat vodoznak nebo sloučit několik obrázků.

ReadIris

Zaplaceno softwarový produkt se zkušební verzí 100 stran nebo 10 dnů. Program skeneru pro rozpoznávání textu si můžete stáhnout z oficiálních stránek zde.

Developerem je belgická společnost IRIS, založená v roce 1986. Hlavní specializací jsou technologie a produkty pro inteligentní rozpoznávání dokumentů.

Program převede obrázek, PDF soubor nebo naskenovaný dokument do plně upravitelného textový soubor. Extrahuje text z vašich dokumentů při zachování rozvržení zdrojový soubor. Má následující vlastnosti:

  • konvertovat Soubory aplikace Word, Excel a PowerPoint na indexované soubory PDF;
  • převod dokumentů pomocí kontextové menu;
  • indikátor kvality pro importované dokumenty;
  • automatická detekce skenerů;
  • modul pro korekci perspektivy.

Rozhraní programu je rusifikované (indikováno při instalaci) a je poměrně jednoduché.


Klikněte na tlačítko „Ze souboru“ a vyberte náš obrázek. Program jej automaticky rozdělil do dvou bloků.


Pro rozpoznání klikněte na tlačítko „Otevřít“ a zadejte cestu k obrázku. Formát je uveden v řádku výše.


Výsledek předčil všechna očekávání. Dokonce i obrys zůstal zachován.


Dokument můžete odeslat poštou nebo do cloudu. Chcete-li to provést, klikněte na výše uvedený seznam a vyberte. Ve výchozím nastavení se uloží do souboru.


Tento program stojí asi 6 000 rublů.

ABBYY FineReader

Nejznámější a nejpropagovanější program. Stáhnout zkušební verze můžete tady.

Zaplacené náklady 6 990 rublů. Ruský vývoj 1993, je dodnes považován za jeden z nejlepších na světě. Hlavní vlastnosti:

Program má mnoho funkcí. Rozhraní je rusifikované a přístupné.


Po kliknutí na tlačítko „Otevřít“ a výběru obrázku začne jeho automatické rozdělení do bloků.


Proces spustíte kliknutím na příslušné tlačítko.


Zbývá pouze vybrat, v jakém formátu uložit a určit složku, do které se má dokument uložit.


Otevřeme výsledek. Jak vidíte, uznání proběhlo perfektně.


Znovu porovnejte s ReadIris.


První možnost (Finereader) je provedena bezchybně. Proto možná dáváme tomuto programu dlaň. Jsou srovnatelné v ceně, takže rozdíl 600-700 rublů nehraje zvláštní roli.

Rozpoznávání textu z fotografií online

IMGonline

Online služba zpracování obrazu. Stránka poskytuje nástroje:

  • Komprimujte a změňte velikost obrázku
  • Ořezávání, ořezávání
  • Zpracování vložených metadat
  • Efekty
  • Vylepšení
  • Definice obrázků barevné palety
  • Získání pozadí
  • Určení procenta podobnosti atd.

Pohodlná stránka, která poskytuje mnoho možností pro zpracování obrazu. Rozhraní je jednoduché a přehledné.


Nabízí dva programy. Pojďme to porovnat. Nahrajte soubor a klikněte na OK.


Dále klikněte na odkaz.


Výsledek není povzbudivý.


Zkusme druhý program.


Také pochybné.


Budeme vystavovat další jazyk.


Zkontrolujeme výsledek.

Trochu lepší, ale k dokonalosti má daleko.

rychlost a pohodlí.

Program pro rozpoznávání textu z fotografií online neumožňuje skenování.

Stránka funguje od roku 2014. Další služby kromě té současné vývojáři neplánují.


Vyberte soubor a klikněte na "Nahrát". Poté klikněte na „Spustit rozpoznávání“.

Výsledek má také daleko k dokonalosti.

Přeměna

Dost velký placený portál, kde můžete využít následující funkce:

Princip fungování je naprosto podobný, ale nastavení je více. Obrázky lze přetahovat.


Můžete zadat několik jazyků a typ dokumentu, kam se výsledek uloží.


Neregistrovaní uživatelé mají přístup pouze k 10 stránkám pro rozpoznání.
Po kliknutí na captcha vyberte „Převést“.


Klikněte na stáhnout.


Výsledek předčil všechna očekávání.


Ukazuje se, že jednoduché služby online je možnost kvalitního rozpoznání. Convertio je tedy v této kategorii vyhlášeno jasným vítězem. Ale jako každý skvělý produkt má svou cenu.

Tak jsme se podívali různé nástroje rozpoznávání textu. Ukázalo se, že bezplatné mohou pomoci, ale kvalita není na stejné úrovni. Pokud tedy neustále potřebujete překládat text z tištěná forma v elektronické podobě si jich budete muset vyklopit víc.

Přeji hezký den!




Nahoru