Seleccionar un motor OCR

Puede seleccionar diferentes motores OCR de la IU para ver qué se adapta mejor a sus requisitos de extracción de datos en función de sus tipos de documentos. No es necesario detener y reiniciar los servicios IQ Bot para implementar un cambio de motor.

Durante la instalación IQ Bot, el sistema configura la última versión de Tesseract Optical Character Reader como el motor OCR predeterminado. Este también es el entorno global para el producto.

Sin embargo, puede configurar manualmente el motor OCR en el archivo Settings.txt, que se convierte en el motor predeterminado. De manera similar a las versiones anteriores de IQ Bot, puede continuar actualizando manualmente el archivo Settings.txt con el nombre del motor OCR que desea establecer como predeterminado.

Si selecciona una versión obsoleta del OCR motor o un motor no admitido a través de la configuración de archivo Settings.txt , el sistema muestra un mensaje de error.

Al crear una instancia de aprendizaje, puede seleccionar un OCR motor de la lista desplegable disponible directamente en la interfaz de usuario.
Nota: Al seleccionar un OCR motor en la interfaz, se anulan los ajustes del archivo Settings.txti.

Cree una instancia de aprendizaje

Procedimiento

  1. En la página Crear una nueva instancia de aprendizaje, seleccione el dominio y el idioma de los documentos.
    En la página de lista Mi instancia de aprendizaje, hay disponible una nueva columna del motor de OCR que muestra el motor OCR utilizado para crear cada instancia de aprendizaje. Esta información es útil para el usuario al decidir sobre el procesamiento de documentos.
  2. Las secciones Campos a extraer y Configuración avanzada se muestran cuando selecciona el dominio.
    Cada dominio está disponible con una lista predefinida de idiomas principales compatibles. La selección de idioma está habilitada y disponible en la lista desplegable Idioma principal de documentos según los idiomas compatibles para un dominio específico.
    Nota: Si selecciona un idioma de la lista desplegable Idioma principal de documentos y luego selecciona un motor que no admite ese idioma, el sistema muestra un mensaje de error en la lista desplegable Reconocimiento óptico de caracteres.
  3. Haga clic en Configuración avanzada > Reconocimiento óptico de caracteres para mostrar la lista desplegable de opciones del motor OCR.

    Si la selección del motor OCR no es válida, la opción Crear instancia y analizar no está habilitada.

    Nota: IQ Bot instala automáticamente todos OCR los motores durante el proceso de instalación, excepto ABBYY FineReader Engine.
    Importante: Sólo puede configurar OCR el motor seleccionado en Automation 360 IQ Bot On-Premises. OCR no Automation 360 IQ Bot Cloud se puede editar la configuración de , ya que no se puede acceder a ella excepto ABBYY FineReader Enginea . Puede editar los ajustes de configuración para ABBYY FineReader Engine utilizar la API DE REST de appConfigurations.

    Puede seleccionar una de las siguientes opciones:

    OpciónDescripción
    Tesseract OCR4 Éste es el motor predeterminado, a menos que se cambie en el archivo Settings.txt .
    ABBYY FineReader Engine

    Para comprobar si ABBYY FineReader Engine está instalado y disponible para su uso en su equipo, compruebe el archivo Settings.txt , OCR la carpeta Plug-ins para los archivos SDK y la lista desplegable Reconocimiento óptico de caracteres.

    Nota: También se admite en IQ Bot [Local Device] package y IQ Bot Extraction package.

    Usar ABBYY FineReader Engine OCR el motor en IQ Bot

    Microsoft Azure Computer Vision OCR engine IQ Bot admite todos los idiomas admitidos por este OCR motor.

    Uso Microsoft Azure Computer Vision OCR engine

    Google Vision API IQ Bot soporta Google Vision API como OCR motor y soporta todos los idiomas soportados por este motor.

    Utilizar Google Vision API el motor de RCO

    Tegaki API IQ Bot Soporta OCR su motor para extraer datos específicos de documentos en japonés y coreano. Debe descargar y utilizar su licencia privada para utilizar Tegaki API.
    Nota: Tegaki API OCR el motor no es compatible con Automation 360 IQ Bot Cloud.

    Usar Tegaki API OCR el motor

    Mis documentos PDF no tienen imágenes

    La casilla de verificación Mis documentos PDF no tienen imágenes está activada de forma predeterminada. Al cargar un documento PDF, se procesa con PDFBox OCR independencia del OCR motor seleccionado. Para cualquier tipo de documento que no sea .pdf, el especificado o seleccionado OCR se utiliza para procesar el documento si la opción Mis documentos PDF no tienen imágenes está activada o no.

    Opcionalmente, puede desactivar esta opción.

    Deshabilite la opción PDFBox

    Consejo: Si IQ Bot no puede extraer datos de documentos escritos a mano o de baja calidad, solucione el problema:

    IQ Bot unable to extract data from low quality and Handwritten documents (A-People login required)