Seleccionar un motor OCR

Puede seleccionar un motor de OCR que se adapte mejor a sus requisitos de extracción de datos en función de sus tipos de documento. No es necesario reiniciar los servicios de IQ Bot para implementar un cambio de motor.

Durante la instalación IQ Bot, el sistema configura la última versión de Lector óptico de caracteres Tesseract como el motor OCR predeterminado. Esta también es la configuración predeterminada para el producto. Sin embargo, puede configurar manualmente el motor de OCR en el archivo Settings.txt, que se convierte en el motor predeterminado. De manera similar a las versiones anteriores de IQ Bot, puede continuar actualizando manualmente el archivo Settings.txt con el nombre del motor de OCR que desea establecer como predeterminado.

Al crear una instancia de aprendizaje, puede seleccionar un motor de OCR del menú desplegable Reconocimiento óptico de caracteres. Consulte Crear una instancia de aprendizaje
Nota:
  • Al seleccionar un motor de OCR en la interfaz, se anula la configuración en el archivo Settings.txt.
  • Como OCR de la API de Tegaki requiere una configuración Local que no es compatible con Automation 360 IQ Bot Nube, están disponibles todos los otros motores de OCR, excepto OCR de la API de Tegaki.

    Siempre tendrá la versión más reciente de los motores de OCR compatibles con Automation 360 IQ Bot Nube, pero no puede seleccionar una versión específica de OCR.

La siguiente tabla enumera los distintos motores de OCR admitidos en IQ Bot y las opciones correspondientes:

Tabla 1. Lista de motores de OCR y sus especificaciones
Calificadores Versión de OCR Instalación compatible Manuscritos Compatibilidad lingüística Calidad de los documentos Tipo de documento
Tesseract OCR 4 Nube y Local N/A

Inglés

Alemán

Español

Italiano

Francés

Sin ruido

Sin fondo oscuro

Sin sellos/marcas de agua

Más de 200 dpi

Facturas, órdenes de compra, etc.

Formatos semiestructurados

Motor ABBYY FineReader 12.3 o 12.4 Nube y Local N/A

Inglés

Todos latinos

Chino

Japonés

Coreano

Menos ruido

Fondo oscuro con fuentes blancas

Tiene sellos/marcas de agua

Más de 96 dpi

Facturas, órdenes de compra, etc.

Formatos semiestructurados

Formularios de hipotecas, formularios fiscales

Formatos no estructurados

Motor OCR de visión computarizada de Azure 2.0 o 3.2 Nube y Local Solo en inglés

Inglés

Todos latinos

Chino

Japonés

Coreano

Menos ruido

Fondo oscuro

Tiene sellos/marcas de agua

Más de 96 dpi

Facturas, órdenes de compra, etc.

Formatos semiestructurados

Pasaportes, permiso de conducir, etc.

Documentos de Conocimiento de Clientes (KYC)

API de Google Vision La versión se actualiza automáticamente para que coincida con la versión actual Nube y Local N/A

Inglés

Todos latinos

Asia

Menos ruido

Fondo oscuro

Tiene sellos/marcas de agua

Más de 96 dpi

Facturas, órdenes de compra, etc.

Formatos semiestructurados

Formularios de hipotecas, formularios fiscales

Formatos no estructurados

Procedimiento

  1. En la página Crear una nueva instancia de aprendizaje, seleccione el dominio y el idioma de los documentos.
    En la página de lista Mi instancia de aprendizaje, hay disponible una nueva columna del motor de OCR que muestra el motor de OCR utilizado para crear cada instancia de aprendizaje. Esta información es útil para el usuario al decidir sobre el procesamiento de documentos.
  2. Las secciones Campos a extraer y Configuración avanzada se muestran cuando selecciona el dominio.
    Cada dominio está disponible con una lista predefinida de idiomas principales compatibles. La selección de idioma está habilitada y disponible en la lista desplegable Idioma principal de documentos según los idiomas compatibles para un dominio específico.
    Nota: Si selecciona un idioma de la lista desplegable Idioma principal de documentos y luego selecciona un motor que no admite ese idioma, el sistema muestra un mensaje de error en la lista desplegable Reconocimiento óptico de caracteres.
  3. Haga clic en Configuración avanzada > Reconocimiento óptico de caracteres para mostrar la lista desplegable de opciones del motor OCR.

    Si la selección del motor OCR no es válida, la opción Crear instancia y analizar no está habilitada.

    Nota: IQ Bot instala automáticamente todos los motores OCR durante el proceso de instalación, excepto por Motor ABBYY FineReader.
    Importante: Solo se puede configurar el motor de OCR seleccionado en Automation 360 IQ Bot Local. Los ajustes de OCR en Nube Automation 360 IQ Bot no pueden editarse, ya que no son accesibles, excepto para Motor ABBYY FineReader. Puede editar los ajustes de configuración para Motor ABBYY FineReader utilizando la función appConfigurations de la API de REST.

    Puede seleccionar entre las siguientes opciones:

    OpciónDescripción
    Tesseract OCR 4 Este es el motor predeterminado, a menos que se cambie en el archivo Settings.txt.
    Motor ABBYY FineReader

    Para verificar si Motor ABBYY FineReader está instalado y disponible para usarlo en su máquina, verifique el archivo Settings.txt, la carpeta Plug-ins de OCR para los archivos SDK y la lista desplegable de Reconocimiento óptico de caracteres.

    Nota: También es compatible con el paquete de IQ Bot [Dispositivo local] y el paquete de IQ Bot Extraction.

    Usar el motor de Motor ABBYY FineReader OCR en el IQ Bot

    Motor OCR de visión computarizada de Azure IQ Bot admite todos los idiomas admitidos por este motor de OCR.

    Usar Motor OCR de visión computarizada de Azure.

    API de Google Vision IQ Bot admite API de Google Vision como motor de OCR y admite todos los idiomas admitidos por el motor.

    Usar motor API de Google Vision de OCR

    Mis documentos PDF no tienen imágenes

    Todos los documentos PDF que se cargan se procesan con el PDFBox OCR de manera predeterminada, independientemente del motor de OCR que haya especificado o seleccionado.

    Si está cargando documentos que no son PDF o documentos PDF que contienen imágenes, desactive la casilla de verificación Mis documentos PDF no tienen imágenes para asegurarse de que el motor de OCR que haya especificado o seleccionado se utilice para procesar los documentos.

    La casilla de verificación Mis documentos PDF no tienen imágenes está habilitada de forma predeterminada. Para inhabilitar esta función, consulte Deshabilite la opción PDFBox.
    Consejo: Si IQ Bot no puede extraer datos de documentos de baja calidad o escritos a mano, solucione el problema:

    IQ Bot unable to extract data from low quality and Handwritten documents (A-People login required)

    Nota: Utilice los siguientes archivos para cambiar la configuración de OCR:
    • AbbyyImagePreProcessingSettings.json
    • LangugeCodeToAbbyyLanguageCode.json
    • Azure3OCREngineSettings.json
    • GoogleOCREngineSettings.json
    • AzureOCREngineSettings.json
    How to change OCR Settings in IQ Bot (A-People login required)