¿Qué es abbyy finereader? 12. Cómo reconocer texto escaneado usando Abbyy FineReader

Una de las funcionalidades más populares para trabajar con escaneo y procesamiento de archivos de varios tipos es Fine Reader. La funcionalidad del producto de software fue desarrollada por la empresa rusa ABBYY y permite no sólo reconocer, sino también procesar documentos (traducir, cambiar formatos, etc.). Muchos usuarios sólo pueden instalarlo, pero no pueden descubrir inmediatamente cómo utilizar ABBYY FineReader. Puede encontrar respuestas a muchas preguntas en este artículo.

El programa le permite escanear y reconocer texto, y más

Para comprender en detalle qué tipo de programa es ABBYY FineReader 12, es necesario considerar en detalle todas sus capacidades. La primera y más sencilla función es escanear un documento. Hay dos opciones de escaneo: con y sin reconocimiento. Si escanea una hoja impresa normalmente, recibirá la imagen que escaneó en la carpeta especificada en su dispositivo informático.

ATENCIÓN. La hoja debe colocarse uniformemente en la parte de escaneo de la impresora, a lo largo de los contornos indicados en la impresora. No permita que el archivo fuente quede torcido, ya que esto puede provocar una mala calidad del análisis final.

Debes decidir por ti mismo por qué necesitas FineReader, ya que la utilidad tiene una funcionalidad importante, por ejemplo, puedes elegir de forma independiente en qué color quieres que esté la imagen, es posible convertir todas las fotos a blanco y negro. En blanco y negro, el reconocimiento es más rápido y aumenta la calidad del procesamiento.

Si está interesado en la función de reconocimiento de texto de ABBYY FineReader, debe presionar un botón especial antes de escanear. En este caso, existen varias opciones para obtener información. Como estándar, se mostrará en su pantalla un trozo de hoja reconocido, que podrá copiar o editar manualmente.

Si selecciona otras funciones, podrá recibir inmediatamente el archivo como un documento de Word o una tabla de Excel. Seleccionar funciones es muy sencillo, el menú es intuitivo y fácil de personalizar debido a que todos los botones que necesitas están frente a tus ojos.

IMPORTANTE. Antes de que ABBYY FineReader pueda reconocer texto, debe seleccionar con precisión el idioma de procesamiento. A pesar de que la utilidad funciona de forma completamente automática, sucede que la baja calidad de la fuente no nos permite entender qué tipo de idioma había en la fuente. Esto reduce en gran medida la calidad de los resultados finales de la aplicación.

Múltiples modos de funcionamiento

Para comprender completamente cómo utilizar ABBYY FineReader 12, debe probar dos modos de funcionamiento: "Cuidadoso" y "Reconocimiento rápido". El segundo modo es adecuado para imágenes de alta calidad y el primero para archivos de baja calidad. El modo Completo tarda entre 3 y 5 veces más en procesar archivos.

La ilustración muestra el resultado del programa: reconocimiento de texto a partir de una imagen.

¿Qué otras funciones hay?

El reconocimiento de texto en ABBYY FineReader no es la única función útil. Para mayor comodidad del usuario, existe

La historia de Abbyy FineReader se remonta a más de 20 años. La compañía celebró el aniversario de 2013 con el lanzamiento de un Abbyy FineReader Pro completo (en comparación con la Express Edition de 2009) para Mac, y un par de meses después, en febrero de 2014, los usuarios de Windows también recibieron su "regalo". Abbyy FineReader 12 Profesional y Corporativo. Permítanme recordarles que la versión anterior apareció en 2011, y dos años y medio es mucho tiempo; averigüemos qué tan significativos son los cambios.

información general

Los requisitos del sistema para la nueva versión no han cambiado en absoluto. La plataforma puede ser Windows o Windows Server a partir de XP y 2003, respectivamente. Los requisitos de hardware en los tiempos modernos son aún más modestos: un procesador de cualquier capacidad con una frecuencia de 1 GHz, RAM de al menos 1 GB más 512 MB para cada núcleo informático, etc. Sólo la necesidad de espacio en disco ha aumentado un poco: ahora la instalación requiere 700 y 850 MB (más, como antes, otros 700 MB para archivos de trabajo).

Naturalmente, estamos hablando de requisitos mínimos; Todas las capacidades de Abbyy FineReader 12 Professional se revelarán sólo en sistemas relativamente modernos. En particular, permítanme recordarles que el programa puede paralelizar efectivamente el procesamiento de páginas individuales, utilizando todos los núcleos del procesador y cargando cualquier procesador casi al 100%. Pero realmente no es codicioso cuando se trata de RAM, e incluso sigue siendo de 32 bits.

El procedimiento de instalación tampoco ha cambiado: un mínimo de preguntas y opciones. Abbyy FineReader 12 Professional todavía viene con Abbyy Screenshot Reader, que entra en funcionamiento solo después del registro del usuario.

Después de esto, también tendrás acceso a soporte técnico.

Incluso basándonos en esta modesta información, podemos suponer que esto es el resultado de la evolución. En consecuencia, en el futuro me centraré en describir los cambios respecto a la versión anterior, que se pueden dividir en dos grupos principales: trabajo con el programa (interfaz, herramientas auxiliares, facilidad de uso) y OCR (calidad y rendimiento del reconocimiento). sí mismo).

Trabajando con el programa

Abbyy FineReader 12 Professional muestra algunas mejoras en la interfaz de usuario. Esto se nota inmediatamente en la ventana Tareas, que se abre de forma predeterminada cuando se inicia el programa. Obviamente imita el concepto de mosaicos de Windows 8.x y está adaptado para el control con los dedos, especialmente porque el programa también admite gestos básicos como desplazamiento y zoom. De hecho, los cambios afectaron sólo a la "fachada", y sólo en parte: junto a los mosaicos hay controles regulares y en el proceso de configuración de cualquier escenario tendrás que lidiar con cuadros de diálogo estándar. Trabajar con ellos con los dedos es bastante problemático, especialmente en pantallas de 8 a 10 pulgadas, que se están volviendo populares entre las tabletas con Windows.

Realmente no es difícil imaginar que el usuario de una tableta equipada con una cámara quiera ingresar rápidamente algún documento impreso "sobre la marcha". Mientras tanto, toda la historia de Windows, empezando por la primera edición del Tablet PC, confirma la inutilidad de adaptar la interfaz estándar del escritorio a controles táctiles. Al parecer, para estos fines es mucho más correcto crear un caparazón especial que corresponda a todos los cánones de Metro, pero que utilice el mismo "motor". Un ejemplo de esta solución es Internet Explorer de Windows 8.x. Además, Abbyy incluso tiene algunos trabajos pendientes en forma de Abbyy FineReader Touch para Windows 8, que utiliza el servicio en la nube de la empresa.

Si ignoramos la entrada táctil, habrá más cambios en esta clase, desde la muy esperada actualización de Windows para abrir/guardar documentos, que, entre otras cosas, proporciona un fácil acceso al almacenamiento en la nube (si el sistema tiene el agente correspondiente y su carpeta), a varios más importantes y útiles.

El procesamiento de páginas en Abbyy FineReader 12 Professional ahora se realiza en segundo plano. Esto implica la ausencia de la ventana modal anterior con el estado de las operaciones (ahora este papel lo desempeña la barra de estado en la parte inferior de la pantalla) y, en consecuencia, la disponibilidad de acceso a la interfaz. Por lo tanto, el usuario tiene la oportunidad de trabajar con el programa en paralelo con el proceso de reconocimiento (si, por supuesto, es lo suficientemente largo), por ejemplo, copiar fragmentos del texto recibido o incluso ajustar el diseño de la página; esto último será en cola y procesado nuevamente.

A diferencia de la versión anterior, tampoco hay que pasar página durante el reconocimiento o cuando el documento se carga inicialmente si el reconocimiento automático está desactivado. En Abbyy FineReader 12 Professional, el documento se carga y divide en páginas casi instantáneamente, y sus miniaturas se crean solo cuando se desplaza manualmente por el panel izquierdo. Entre otras cosas, esto ahorra recursos informáticos, de forma muy notable en documentos grandes de varias páginas.

El resto de cambios en esta clase no son tan interesantes, aunque pueden resultar útiles en algunos escenarios, por lo que hablaremos de ellos brevemente.

Si no necesita procesar todo el documento, sino solo citar pasajes individuales, puede desactivar todas las operaciones automáticas y seleccionar los fragmentos necesarios de cualquier tipo, copiándolos inmediatamente en el portapapeles, mientras que el análisis y el reconocimiento se realizarán sobre la marcha. .

Para obtener un resultado con una estructura más simple que la original, puede desactivar la recreación de encabezados, pies de página y otros elementos de diseño. Esto puede resultar útil, por ejemplo, a la hora de preparar libros electrónicos.

Continuando con los libros electrónicos, Abbyy FineReader 12 Professional admite los formatos EPUB 2.0.1 y 3.0.

Se han ampliado las opciones de conversión a XLSX, por ejemplo, ahora es posible borrar el formato o guardar imágenes.

Al guardar los documentos resultantes como PDF con una capa de texto, ahora puede aprovechar la nueva tecnología Precise Scan de Abbyy, que suaviza los caracteres de las imágenes de la página original. Por cierto, está disponible sólo en modo color.

El efecto de su trabajo es bastante notorio, aunque no siempre, digamos, “académico”. Sin embargo, la legibilidad de los caracteres suavizados debería ser mayor en cualquier caso, pero en este ejemplo el original es de muy baja calidad.


LOC

Ahora veamos qué mejoras se han producido en los propios mecanismos de reconocimiento.

Los desarrolladores informan sobre la siguiente etapa en la mejora de la tecnología ADRT, que, permítanme recordarles, analiza y recrea la estructura lógica del documento. Se declara que ha empezado a trabajar con mucha más precisión, especialmente con tablas, listas y diagramas. Demostrar esto con ejemplos adecuados no es tan fácil, pero tampoco imposible. Aquí, por ejemplo, están los resultados del reconocimiento (con la configuración predeterminada) de la misma página en Abbyy FineReader 11 Professional (arriba) y Abbyy FineReader 12 Professional (abajo).


La versión antigua seleccionaba y procesaba sólo el bloque de texto principal, quizás considerando los elementos restantes como “basura” debido a la baja calidad del original. El nuevo, por el contrario, identificó correctamente la lista e intentó recrearla. El resultado, sin embargo, no es ideal: el hecho de que no se reconozcan todos los marcadores se puede atribuir nuevamente a la calidad de la imagen, pero el programa aparentemente todavía no entendió que había contenido delante, de lo contrario no habría interpretado los números como letras. Sin embargo, el progreso es obvio y es posible que tales afirmaciones no se hubieran hecho con originales de mayor calidad.

Y así es como se procesa una tabla "implícita" sin líneas divisorias: Abbyy FineReader 11 Professional (arriba) y Abbyy FineReader 12 Professional (abajo).


Se ve claramente que la versión antigua, a diferencia de la nueva, no veía aquí ninguna estructura de tabla y estaba limitada a un conjunto de bloques de texto no relacionados. Tómese el tiempo para hacer clic en las imágenes y comparar los resultados del reconocimiento: Abbyy FineReader 12 Professional está cerca de ser ideal.

Desafortunadamente, esto no siempre sucede, y ya en las páginas vecinas Abbyy FineReader 12 Professional mostró resultados similares a Abbyy FineReader 11 Professional. Aunque sería ADRT quien debería haber rastreado los “límites” idénticos y haber entendido que frente a ellos había una especie de mesa fluida.

Pero todavía se nota claramente que los algoritmos actualizados prestan atención a más detalles que antes. Durante las pruebas de Abbyy FineReader 12 Professional, por ejemplo, incluso se intentó interpretar una imagen con información de texto ordenada en forma de tabla. Con mucha más frecuencia, la nueva versión también intenta recrear varios diagramas y diagramas basándose en la imagen de fondo, en lugar de bloques de texto y gráficos individuales.

Hay varias otras funciones nuevas diseñadas para mejorar la calidad del reconocimiento en Abbyy FineReader 12 Professional. Como sabes, uno de los requisitos para ello es la calidad del original, especialmente si se obtuvo con una cámara en lugar de un escáner. Por eso, en un momento, FineReader introdujo herramientas para el preprocesamiento de originales. En la nueva versión, su lista se ha ampliado, recortando los bordes de las páginas, aclarando y nivelando el brillo del fondo y eliminando elementos coloreados. Este último puede resultar útil, por ejemplo, para procesar documentos con sellos y timbres. Además, el usuario ahora puede conectar diferentes métodos individualmente.

También se ha mejorado el soporte de idiomas. En primer lugar, ha aparecido el alfabeto ruso con acentos y, en segundo lugar, se está incrementando la calidad del reconocimiento del chino, japonés y coreano (hasta un 20%), árabe (hasta un 60%) y hebreo (hasta un 10%). declarado; esto aparentemente se ha logrado mediante la mejora y la formación adicional de los clasificadores.

Y finalmente, una de las preguntas más candentes para muchos lectores: ¿ha aumentado la velocidad del programa? No es tan fácil responder sustancialmente a esta pregunta, especialmente con los números: hay demasiados idiomas, cada uno de los cuales tiene sus propios matices; la variedad de originales es demasiado grande; Hay demasiados factores desconocidos que influyen en el funcionamiento de los algoritmos. Por lo tanto, incluso los propios desarrolladores se muestran bastante comedidos cuando hablan de aumentar el rendimiento de Abbyy FineReader 12 Professional en un 10-15%.

Estas cifras generalmente se obtienen a partir de los resultados del procesamiento de cantidades bastante grandes de documentos y, en consecuencia, representan algo así como la "temperatura promedio en un hospital". Por lo tanto, es útil estudiar con más detalle algunos casos especiales ilustrativos, por ejemplo, como los dos siguientes:

  • escaneado a color con una resolución de 300 ppp 10 páginas de un folleto a todo color en formato A4. La calidad es buena, los idiomas son ruso e inglés, el diseño es complejo;
  • PDF con imágenes gráficas 138 páginas del libro que contiene una pequeña cantidad de ilustraciones en color y en blanco y negro, varias tablas. La calidad es baja (comenzando, aparentemente, con la impresión "a ciegas" en el libro de papel), los idiomas son ucraniano y ruso, el diseño es simple.

Ambos documentos fueron reconocidos en modo color, y el segundo también fue reconocido en blanco y negro, lo que pretendía simular el proceso de preparación de un libro electrónico. Todas las configuraciones predeterminadas se mantuvieron sin cambios, a excepción del conjunto de idiomas y, en consecuencia, los modos de funcionamiento. Como campo de pruebas se utilizó una PC con un procesador i5-3450 y 8 GB de memoria. Los resultados se presentan en la siguiente tabla:

Como puede ver, para PDF la aceleración incluso supera el 15% prometido; quizás este sea sólo uno de los casos especiales que se adapta bien a las últimas optimizaciones en algoritmos de reconocimiento. Hay que tener en cuenta que los programas, en términos generales, han realizado diferentes cantidades de trabajo. Basta con mirar las ilustraciones de arriba para ver el procesamiento de la tabla; es difícil decir qué versión fue más difícil.

En cuanto al número de errores, fue prácticamente el mismo para ambas versiones, aunque se notó que a veces diferentes fragmentos y símbolos plantean dudas; esto, aparentemente, es una prueba del entrenamiento de los algoritmos. En cualquier caso, la mayoría de los caracteres identificados de forma incierta se identificaron de forma absolutamente correcta mediante diccionarios y coincidieron errores "graves" (interpretación incorrecta de símbolos especiales y decorativos, texto en gráficos, etc.). Por tanto, se puede considerar que la diferencia está desapareciendo por completo.

Otra pregunta es: ¿cuánto importa esa mejora de la productividad? Al parecer, la ganancia de medio minuto en 138 páginas que aún deben ser revisadas y posiblemente corregidas no vale mucho. Si se supone que trabajos como tareas de prueba deben realizarse ocasionalmente, entonces definitivamente no tiene que preocuparse por el rendimiento. La situación es diferente cuando se trata del procesamiento fuera de línea de grandes volúmenes de documentos, que está disponible en Abbyy FineReader 12 Corporate. En este caso, el ahorro del 15% de tiempo ya se nota bastante.

Reanudar

A pesar de que el nuevo Abbyy FineReader 12 Professional no prometía nada revolucionario, al menos algunos cambios merecen todos los elogios. En primer lugar, se trata de mejoras en la tecnología ADRT en términos de reconocimiento de tablas, gráficos y la estructura lógica general de las páginas, lo que en algunos casos permite obtener resultados radicalmente mejores, así como un modo de procesamiento en segundo plano, que abre nuevas oportunidades. para trabajos interactivos con documentos grandes.

También hay muchos otros cambios, aunque menos significativos. El movimiento actual hacia el soporte del control táctil está ciertamente justificado, pero el camino elegido es cruel: es casi imposible proporcionar un manejo igualmente conveniente con un mouse y los dedos en una sola interfaz. Sin embargo, por ahora, las tabletas con Windows sólo están intentando entrar en el mercado y los desarrolladores de Abbyy todavía tienen tiempo.

Precios de Abbyy FineReader 12 Profesional:

  • versión en caja: 4990 RUR;
  • versión de descarga: 4.490 rublos;
  • actualización: 2690 frotar.

Como es habitual, la respuesta a la pregunta "¿vale la pena cambiar la versión anterior por una nueva?" Depende de la situación. En cualquier caso, vale la pena considerar que el ciclo de vida de FineReader es bastante largo, y si alguna de las mejoras descritas juega un papel importante para usted, en 2 o 3 años los costos de actualización seguramente se amortizarán, si no materialmente. , luego moralmente. Resolver esta pregunta por ti mismo finalmente te ayudará.

En esta ocasión te contaré cómo convertir documentos en papel a formato PDF electrónico, así como cómo transferir un documento en papel a una computadora para poder cambiar el texto. Entonces comencemos.
Tengo un documento en papel en mis manos.

ESCANEAR a PDF

Tarea: transferir este documento a la computadora (traducirlo a formato electrónico). Además, debe hacerse exactamente de esta forma para que no se pueda cambiar en el futuro (en términos generales, es necesario tomar una foto del documento). Luego este documento electrónico deberá ser enviado por correo postal a una dirección de correo electrónico. Además el cliente lo solicita en formato pdf.

Por etapas:
1) Paso el documento por el escáner
2) Guardo la impresión resultante en formato pdf en mi computadora
3) Envío el archivo recibido por correo
En mi trabajo utilizo 2 programas para solucionar este problema:
Foxit Phantom o ABBYY FineReader. Para mayor claridad, adjunto capturas de pantalla:
En Foxit Phantom, cuando el escáner está encendido, debe seleccionar ARCHIVO-CREAR PDF DESDE EL ESCÁNER en el menú principal...
Se realizará el escaneo y se le pedirá que guarde el archivo. Seleccione una ubicación, escriba el nombre del archivo y guárdelo.

ABBYY FineReader tiene botones enormes en la barra de herramientas. Uno de ellos se llama SCAN a PDF. Lo usamos.

Si necesita escanear un documento de varias páginas, entonces, por etapas:
1) Presione el botón número 1 SCAN

Recibimos un documento escaneado.

También escaneamos otra página (presionamos nuevamente el botón número 1 SCAN).
2) Guardar como PDF



Como resultado, obtenemos un documento terminado de varias páginas en forma de archivo PDF.

Ahora este archivo se puede enviar por correo electrónico.

RECONOCIMIENTO DE TEXTO

Tarea: convertir un documento en papel a formato electrónico (a una computadora)

Por etapas:
1) Escanear (botón 1 ESCANEAR)

2) Reconocimiento (botón 2 RECONOCER TODOS)

El reconocimiento debe entenderse como el proceso de traducir una fotografía (imagen) en texto (letras, números, signos). Si fotografió una página de texto, luego de reconocer el 99% del texto en papel, se convertirá en texto electrónico. El texto electrónico ya se puede cambiar (editar) en una computadora de la forma que desee.

3) Guardar en un editor de texto (botón 4 Guardar)
Le aconsejo que seleccione TRANSFERIR TODAS LAS PÁGINAS A MICROSOFT WORD

obtenemos

Me gustaría señalar puntos importantes durante el procedimiento de RECONOCIMIENTO. Hay matices a la hora de trabajar.
Inmediatamente después del reconocimiento, le aconsejo que mire el resultado. Especialmente en los bloques que crea el programa FineReader.

Estas son áreas resaltadas en marcos rectangulares. Estos marcos son de diferentes colores. Si es rojo, entonces este bloque se reconoce como una IMAGEN. Si es negro, entonces TEXTO. Los bloques vienen en diferentes tipos. El tipo de bloque se puede encontrar haciendo clic en el bloque con el botón DERECHO del mouse y seleccionando CAMBIAR TIPO DE BLOQUE.

Un pequeño truco: puedes seleccionar un área arbitraria y etiquetarla con cualquier tipo de bloque. Por ejemplo, seleccionemos esa parte del texto que no se reconoce bien usando el botón izquierdo del mouse (haga clic, mantenga presionado y arrastre, el marco cambia de tamaño).

Como resultado, el documento en Word tendrá un bloque de texto y un bloque de imágenes. La imagen del bloque tendrá una apariencia absolutamente sin cambios. Utilizo este método cuando guardo sellos, fuentes no estándar, imágenes y fotografías.

PD: El conocimiento y la capacidad para trabajar con PDF, escanear y reconocer documentos suelen ayudar en el trabajo de oficina. ¡El conocimiento te ahorra tiempo!

    Para utilizar el programa ABBYY FineReader, que está diseñado para el reconocimiento de texto en formatos gráficos y no editables. Primero debe descargarlo e instalarlo en su computadora, y luego ver el video a continuación, todo se describe en detalle sobre este programa.

    Este programa está diseñado para escanear texto y trabajar y reconocerlo.

    Por supuesto que se puede utilizar, y para realizar este uso puedes, sin salir del propio programa Finereader en el que trabajas, reconocer el texto del archivo y posteriormente transformarlo de una copia escaneada del documento al clásico. formato del programa Word. Entonces resultará ser para tu uso.

    Finereader es un programa para escanear y reconocer texto con exportación de información a paquetes de oficina populares. El principio de trabajar con él se puede describir en pocas palabras de la siguiente manera: tomamos una hoja de papel con texto impreso, la escaneamos con un escáner y obtenemos un determinado archivo gráfico en formato rasterizado. Luego, sin salir del programa Finereader, reconocemos el texto del archivo y el siguiente paso es realizar un documento en formato Word a partir de la copia escaneada. Antes de esto, el texto reconocido se puede ver y editar. El documento de Word resultante se puede complementar y editar aún más.

    El programa Abbyyfinereader es sin duda el líder entre programas similares.

    Tiene capacidades muy amplias para reconocer texto en formatos gráficos y no editables.

    El programa podrá reconocer texto en formatos básicos como (pdf no editable, formatos de archivos digitales jpeg, jpg, Djvu, gif, png, etc.).

    Además, ABBYY FineReader funciona bien con casi todos los modelos de escáner.

    Las principales funciones del programa son:

    Escanee documentos a formatos: Microsoft Word, Microsoft Excel, Pdf, escanee y guarde imágenes, PDF o imágenes en Microsoft Word, convierta fotos a Microsoft Word.

    Área de trabajo de ABBYY Finereader:

    Para agregar una nueva tarea, debes hacer clic en el botón **nueva tarea**, que se encuentra en la parte superior izquierda del área de trabajo del programa.

    se abrirá ventana nueva tarea

    En la ventana que se abre, debe seleccionar la tarea que desea realizar.

    Digamos que tenemos una foto de un documento que queremos convertir al formato de documento de Microsoft Word. Para hacer esto en la ventana nueva tarea encontrar la inscripción activa Convertir foto a Microsoft Word y haga clic en esta inscripción. se abrirá ventana del explorador de programas con vista previa :

    En la ventana que se abre, seleccione una foto de un archivo de texto que deba ser reconocido y convertido al formato que necesita.

    se abrirá ventana con escala de proceso de reconocimiento:

    Después, el programa procesa la foto e intenta reconocer el texto.

    Verás lo siguiente:

    Aquí puede seleccionar el área de su foto para el reconocimiento de texto.

    Después de seleccionar el área, haga clic en el botón reconocer que se encuentra en el menú superior del programa. El programa comenzará a convertir la foto seleccionada en texto. Después de procesar la imagen, haga clic en la flecha al lado del botón ahorrar y seleccione el formato deseado para crear un documento de texto:

    Programa potente y funcional. ABBYY FineReader, está diseñado para escaneo de alta calidad y reconocimiento preciso (esto depende de la resolución establecida durante el escaneo) de diversos soportes de papel con texto impreso (libros, revistas, periódicos, etc.), así como imágenes digitales.

    El programa admite varios idiomas de reconocimiento y puede guardar en: Microsoft Word, PDF, formatos de imagen y otros formatos. Dado que el programa tiene una interfaz intuitiva, es conveniente trabajar con él.

    Entonces, lo primero que debe hacer es configurar la configuración y escanear documento, obtenemos una imagen cuyo texto sigue el programa reconocer. Después del reconocimiento, puede corregir el texto (si hay imprecisiones) y guardarlo en el formato deseado.

La conversación será sobre el programa ABBYY FineReader 12, es decir, sobre su última versión. Sin ir demasiado lejos, elegimos el producto más famoso de ABBYY, que, por méritos propios, está perfectamente rusificado. A primera vista, Fine Reader (FR) da la impresión de ser un programa con buen soporte para el idioma ruso: en este sentido, todo está hecho a un nivel muy decente, incluida la información general.

Primero: retirada. La pregunta siempre es relevante: cómo convertir todo o parte de un archivo a formato digital (y qué se entiende, de hecho, por la palabra "digital"). Es poco probable que comprar un escáner resuelva todos los problemas. Por supuesto, muy a menudo la documentación del escáner viene con uno o varios discos con software propietario. Sin embargo, ya en la etapa de desinfección resulta que la calidad del programa de escaneo deja mucho que desear o que el formato en el que se guarda, lamentablemente, no es adecuado para el almacenamiento. ¿Por qué? La mayoría de los formatos gráficos no separan el texto del espacio que no es texto del documento y, por lo tanto, no es posible copiar ningún pasaje de dicho archivo.

Es en tales casos cuando acuden al rescate los programas funcionales de reconocimiento de texto, cuyas capacidades, en particular, incluyen la extracción de texto de una imagen.

Conociendo ABBYY FineReader

bolsa de plastico ABBYY FineReader 12- Sistema de reconocimiento óptico de caracteres (OCR). Diseñado tanto para la entrada automática de documentos impresos en una computadora como para convertir documentos PDF y fotografías a formatos editables. (del manual del programa)

El acrónimo "OCR" se aplica a todas las aplicaciones de reconocimiento de datos (no sólo a texto). La fuente para la extracción de datos puede ser un documento impreso o electrónico. Érase una vez, no hace mucho, pocas personas conocían el OCR, de una forma u otra, y el proceso de convertir texto a formato electrónico se convirtió en una mera rutina, hasta la reimpresión manual del texto original. Hoy en día, disponer de un escáner plano (sólo unos pocos utilizan un escáner manual en casa) y lector fino 12- Tenga la seguridad de que no habrá dificultades en el escaneo y el reconocimiento.

A partir de la sexta versión, FineReader admite la importación y exportación al formato PDF, patentado por Adobe. Muchos lectores probablemente hayan tenido dificultades para traducir de este formato a cualquier otro (doc, etc.), ya que no hay tantos programas realmente útiles en esta área (solo el producto subsidiario de ABBYY, PDF Transformer, es digno de atención). El hecho es que dichos programas realizan el reconocimiento de texto solo una vez, por lo que la "identidad" del resultado no es significativa (dependiendo de la complejidad del documento), además el formato del documento se pierde prácticamente.

En el caso de FineReader todo es diferente. La novena versión del programa introduce una tecnología llamada Document OCR. Se basa en el principio de reconocimiento integral de documentos: se analiza y reconoce como un todo, y no página por página. Al mismo tiempo, todo tipo de columnas, encabezados, fuentes, estilos, notas a pie de página e imágenes permanecen intactas o son reemplazadas por otras cercanas al original.

Instalación del paquete

La versión de demostración de Finereader 12 se puede descargar en el sitio web Abbyy.ru; en la sección Descargas, la versión con licencia completa se distribuye en un CD. Puedes informarte sobre las formas de compra en la misma web en el apartado “Comprar”.

En el sitio web de desarrolladores de ABBYY puede descargar una versión demo del paquete ABBYY FineReader versión 12 (u otra que esté vigente hoy en día)

ABBYY FineReader se distribuye en varias versiones: Professional Edition, Corporate Edition, Site License Edition, etc. La diferencia entre la versión Professional y las demás es que está diseñada para funcionar en una red corporativa con la capacidad de colaborar en el reconocimiento de documentos. De lo contrario, la diferencia es insignificante y depende de la elección de los términos del acuerdo de licencia.

Es difícil imaginar que hace 12 años existía FineReader 2.0, que ocupaba unos 10 MB de espacio en disco. Con el tiempo, el paquete se ha multiplicado por diez y ahora, cuando se instala, ocupa hasta 300 MB. ¿Es mucho o poco? Juzgue usted mismo. El nuevo FR admite 179 lenguajes de reconocimiento, incluidos lenguajes artificiales poco conocidos (ido, interlingua, occidental y esperanto), lenguajes de programación, fórmulas, etc. No nos olvidemos de la compatibilidad con varios formatos y scripts. Entonces, si por alguna razón desea limitar el espacio que ocupa un paquete, durante la instalación, seleccione solo aquellos componentes que serán necesarios durante la operación.

La elección de los componentes influye en la duración de la instalación, que, sin embargo, no debería llevar mucho tiempo. Durante el proceso de instalación, se le presentarán las características principales de FR. Después de la activación (a través de Internet, por correo electrónico, utilizando el código recibido, etc.), el programa está listo para funcionar completamente. En el modo de demostración, seguramente encontrará varias restricciones que, desafortunadamente, no le permitirán utilizar el paquete por completo.

Interfaz FineReader. Funcionalidad

El acceso a las capacidades del programa está disponible tanto a través de scripts que aparecerán en el menú principal inmediatamente después del proceso de instalación como, de hecho, a través de la interfaz principal.


Salvapantallas al iniciar FineReader

La apariencia del programa no sufre cambios significativos de una versión a otra: los desarrolladores no ven el sentido de cambiarlo radicalmente. Se presta mucha atención a la ergonomía, algo que se nota en todos los productos ABBYY (Lingvo, PDF Transformer, FlexiCapture...). En otras palabras, la interfaz de Fine Reader 12 está bien pensada y es adecuada para todos los usuarios, incluidos los principiantes. El principio de "Obtener resultados con un solo clic" atraerá a aquellos que no están acostumbrados a configurar y cambiar algo. Por otro lado, los usuarios más experimentados pueden configurar FineReader cuidadosamente a través del cuadro de diálogo de configuración (Herramientas -> Opciones...). La única advertencia: para trabajar cómodamente en la aplicación, es recomendable configurar la resolución de la pantalla en 1280×800, para que todas las herramientas estén siempre, como dicen, a mano.

Después de iniciar el programa Fine Reader, aparecerá una ventana con botones para acceder rápidamente a las funciones del programa. Este menú también está disponible a través del menú Herramientas -> ABBYY FineReader, el botón "Scripts principales" en el extremo derecho del programa o mediante la combinación de teclas Ctrl+N (similar a Word, donde esta combinación abre un nuevo documento). .

Escanear a Microsoft Word: en la novena versión de FineReader, apareció soporte para Microsoft Word 2007, que aún no se ha vuelto popular. A su vez, aparece un ícono rojo "de marca" en la barra de herramientas de las aplicaciones de Microsoft Office, en la sección de complementos después de instalar FR.


Menú para exportar un documento reconocido de FineReader
Seleccionar idiomas para escanear y reconocer documentos

Además de Microsoft Office, FR admite la integración con Microsoft Outlook y exporta resultados de reconocimiento a Microsoft Word, Excel, Lotus Word Pro, Corel WordPerect y Adobe Acrobat. Estas características hacen que trabajar con el programa sea algo más fácil y rápido, especialmente si tienes que trabajar con él regularmente.

PDF o imágenes en Microsoft Word: reconocer datos de un PDF u otro tipo de archivo gráfico compatible con Finereader versión 12. Cabe señalar que la tecnología para extraer texto de un archivo PDF en FR no consiste simplemente en "despegar" el contenido del texto (la capa de texto en PDF puede estar ausente) del gráfico. De hecho, la tecnología de reconocimiento es bastante complicada: después de analizar el contenido del documento, el programa decide qué y cómo hacer con el texto: simplemente extraerlo o reconocerlo, y así sucesivamente para cada fragmento de texto.

Escanear a Microsoft Excel: El escaneo a XLS (formato de Microsoft Excel) puede estar justificado si la imagen escaneada contiene tablas.

Escanear a PDF: Hay muchas razones para escanear a PDF. Uno de ellos es la seguridad: este es el único formato familiar para FR en cuya configuración se puede establecer un bloqueo con contraseña. La contraseña se establece no solo para abrir un documento, sino también para imprimirlo y otras operaciones. Es posible elegir uno de tres niveles de cifrado: 40 bits, 128 bits según el estándar RC4, nivel de 128 bits según el estándar AES (Advanced Encryption Standard).

Convertir foto a Microsoft Word: convertir un archivo de un formato gráfico (y puede ser PDF o una imagen de varias páginas) a DOC / DOCX.

Abrir en Fine Reader: abra un archivo gráfico (PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG) para el reconocimiento de FineReader.

Trabajando en FineReader

Ahora, brevemente sobre las características del programa. Todo el proceso se divide en escanear, reconocer y guardar los resultados. Después de haber elegido el tipo de acción del programa, especificado el archivo o dispositivo a escanear, FineReader lleva a cabo su tarea paso a paso, lo que, por cierto, consume bastantes recursos para el procesador central.

Si es el afortunado propietario de un procesador de doble núcleo, al trabajar en el paquete Fine Reader 12 podrá apreciar la potencia del rendimiento de su computadora. El caso es que FR, al detectar un procesador de doble núcleo, reconoce no una, sino dos páginas de un documento en paralelo. Es una cosa pequeña, pero es bonita.

Primero viene el escaneo, luego el reconocimiento y la exportación de un documento temporal al formato seleccionado.


Proceso de reconocimiento de documentos PDF

Exploración. No es necesario realizar ninguna configuración preliminar en la aplicación FineReader (excepto seleccionar un dispositivo de lectura) antes de escanear. Por eso se inventaron los scripts: están diseñados para simplificar la ejecución de acciones similares.

Reconocimiento. La simplificación también afectó a otras pequeñas cosas. Así, si recordamos versiones anteriores del programa, antes teníamos que cambiar manualmente el idioma (idiomas, si eran varios) del documento. Ahora bien, esto sucede automáticamente, aunque no siempre. En este último caso, FR sugiere discretamente comprobar el idioma del documento.

Volviendo a la tecnología de reconocimiento FR: ¿por qué el programa primero escanea todo el documento y no página por página? Como ya se mencionó, el texto se reconoce en función de todo el contenido: se seleccionan fuentes de tamaño/tipo de letra similar, tablas y bordes, sangrías, etc.

No se sorprenda si FineReader 12 muestra un mensaje que dice que no se puede reconocer la página porque no se encontraron áreas de texto. Para el experimento, fotografiamos un área de un documento de texto usando un teléfono móvil desde la pantalla LCD (sin embargo, ya conocíamos el resultado de antemano). Fine Reader 12 no reconoció el texto de la imagen, ya que era evidente que su calidad no era suficiente para ello. En la segunda visita, fotografiamos la página con texto en iluminación normal con una cámara digital.

FineReader reconoció el pasaje sin problemas, conservando el formato y resaltando con marcadores algunos momentos cuestionables o caracteres que pueden tener una ortografía variable.

Como puede ver en la imagen, se trata principalmente de puntos, guiones, comas y, en general, caracteres pequeños. Además, se ve claramente que el programa tuvo en cuenta los desniveles y curvaturas de la página fotografiada y alineó las líneas de texto. Conclusión: FR hizo un trabajo excelente en su tarea, aunque no muy difícil.

En ocasiones, algunos puntos menores pueden pasar desapercibidos para el programa Fine Reader, pero se pueden corregir fácilmente de forma manual. Afortunadamente, el paquete tiene su propio editor WYSIWYG, cuyas capacidades son suficientes para realizar la edición final del documento. La revisión ortográfica también está disponible.

¿Cómo podemos mejorar la precisión del reconocimiento para poder dedicar menos tiempo a editar texto? Primero, puede conectar un diccionario personalizado de Microsoft Word. Es cierto que es difícil juzgar el aumento en la precisión, excepto quizás el aumento en el vocabulario del corrector ortográfico (un módulo que revisa la ortografía y la gramática). Entre otras cosas, para mejorar el reconocimiento, tiene sentido familiarizarse con la configuración del programa (Herramientas -> Opciones) y seleccionar uno de dos modos:

reconocimiento cuidadoso- se puede seleccionar al reconocer documentos de cualquier “complejidad”: con tablas sin líneas de cuadrícula, texto, gráficos, tablas con fondo de color, etc. También puede ayudar con fuentes de reconocimiento de baja calidad

reconocimiento rápido- este modo se recomienda para procesar grandes volúmenes de documentos con un diseño simple o en casos donde el tiempo no permite un reconocimiento completo. En la mayoría de los casos, cuando tiene texto impreso en negro sobre un fondo blanco, puede conformarse con un reconocimiento rápido.

En general, mejorar la calidad del trabajo de FineReader es un tema de conversación aparte, cuyos detalles puede conocer en la ayuda oficial, concretamente en la sección "Cómo mejorar los resultados obtenidos".

Guardando el documento. La última etapa del trabajo en el programa Fine Reader 12 es guardar el resultado final en un formato gráfico/texto específico. La configuración de guardado previo se puede especificar en las opciones de FR: Herramientas -> Opciones, pestaña "Guardar". Cada formato tiene su propia configuración. Al guardar en formato DOCX, debe tener cuidado con la compatibilidad del formato (los archivos DOCX no se reconocen en Word 2003<). В txt-файлах не забудьте проверить правильность кодировки (особенно в случае с текстом в кириллице).

Lector de capturas de pantalla ABBYY

En muchos paquetes grandes, a los desarrolladores les suele gustar agregar pequeñas utilidades de servicio. Digamos que la conocida aplicación de grabación de discos Nero incluye un conjunto de 3 a 5 utilidades que le permiten hacer algo que ni siquiera el propio Nero puede hacer. Revisión (también puede descargarla aquí como parte de Fine Reader 12).

En cuanto a FineReader, contiene una pequeña aplicación, Screenshot Reader. Con su ayuda, puedes convertirlo rápidamente al formato deseado usando FR. El programa está disponible a través del menú Inicio (Inicio -> Todos los programas -> ABBYY FineReader 12.0 -> ABBYY Screenshot Reader).

Las capacidades de Screenshot Reader son algo más amplias de lo que parece a primera vista. (de lo contrario, podrías hacerlo simplemente presionando la tecla “ImprimirPantalla” en tu teclado). Además de tomar una captura de pantalla de la pantalla (o más exactamente, de un área seleccionada de la pantalla), Screenshot Reader está estrechamente integrado con FR.

Cuando hace clic en el botón "Instantánea" en el panel Lector de capturas de pantalla, el cursor cambia de forma y se activa la herramienta de selección del área de la pantalla. El área seleccionada de la imagen se enmarca para un mayor reconocimiento del texto (se ejecuta automáticamente).

En la lista desplegable, puede seleccionar la acción deseada: de hecho, Screenshot Reader duplica los scripts rápidos de FR con la diferencia de que, en lugar de una captura de pantalla del escáner, se recibe una captura de pantalla como entrada.

Cabe señalar que el programa, junto con el paquete completo, requiere activación. Al registrar el producto, ABBYY FineReader 12 Professional Edition Screenshot Reader se proporciona de forma gratuita como “extra”.

Conclusión

FineReader es un programa indispensable para escanear y reconocer datos gráficos. La interfaz en ruso y la accesibilidad de la configuración no ahuyentarán a un usuario inexperto. La compatibilidad con los últimos formatos, las tecnologías innovadoras y, como resultado, el reconocimiento de alta calidad hacen del programa la mejor opción, especialmente porque ABBYY FineReader todavía no tiene competidores en esta área.

FineReader 12 teclas de acceso rápido

  • Cree un nuevo documento de ABBYY FineReader- CTRL +N
  • Abrir el documento de ABBYY FineReader 12 - CTRL +MAYÚS+N
  • guardar paginas-CTRL+S
  • Guardar imagen en archivo-CTRL+ALT+S
  • Reconocer todas las páginas de un documento.- CTRL + MAYÚS + R
  • Cerrar la página actual-CTRL+F4
  • Reconocer páginas seleccionadas de un documento de ABBYY FineReader-CTRL+R
  • Abrir administrador de escenarios-CTRL+T
  • Abra el cuadro de diálogo Opciones de lector fino- CTRL + MAYÚS + O
  • Abrir ayuda- F1
  • Ir a la ventana del documento-ALT +1
  • Ir a la ventana de Imagen-ALT +2
  • Ir a la ventana de texto-ALT +3
  • Ir a la ventana Primer plano-ALT+4



Arriba