Revisar el servicio de extracción

Una vez que haya confirmado que los documentos de los que desea extraer el contenido son formularios estándar, podrá planificar el tipo de servicio de extracción de formularios estándar que se ajuste a sus necesidades.

Las siguientes tecnologías están disponibles para el procesamiento de formularios estándar:

Servicio de extracción de IQ Bot

Se trata de un servicio de extracción basado en plantillas que utiliza OCR y la heurística para extraer contenido de formularios estándar. Tiene que entrenar una plantilla por cada formulario estándar.

Directrices para usar el servicio de extracción IQ Bot.
  • Los documentos son de buena calidad (300 dpi)
  • El contenido del documento no es muy denso
  • Los documentos de entrada no tienen copias manuscritas (soporte limitado)
  • Actualmente no se admiten firmas
  • Contiene un diseño de tabla simple (abarca una página) con encabezado y límites de tabla claros, entre otros.
  • No contiene ninguna tabla o contenido que tenga casillas de verificación (soporte limitado)
  • No tiene secciones repetidas (soporte limitado)
Beneficios del servicio de extracción IQ Bot
  • Una configuración integrada y sencilla desde el principio
  • Varios motores de OCR para aumentar la precisión de la extracción
  • Se pueden extraer disposiciones complejas (secciones repetidas, tablas continuas, etc.) para casos específicos (es necesario probarlo)
  • Solo requiere licencia de IQ Bot

Servicio de Microsoft Azure Form Recognizer

Tecnología de terceros, que proporciona modelos de inteligencia artificial (AI) creados a medida para extraer contenido de formularios estándar. Puede crear modelos personalizados en los que se pueden etiquetar y entrenar documentos.

Directrices para el uso del servicio de reconocimiento de formulariosMicrosoft Azure

  • Documentos de entrada:
    • pueden ser densos (contienen muchos detalles e información) y tienen una calidad razonable (>200 ppp)
    • pueden contener casillas de verificación y botones de opción
    • pueden tener contenido manuscrito
    • pueden incluir firmas
    • pueden incluir tablas

      Los documentos de entrada también pueden contener tablas que abarcan una sola página. Sin embargo, si los formularios estándar contienen tablas que abarcan varias páginas, la extracción de contenido puede fallar.

  • No se repite ninguna de las secciones de los documentos de entrada
  • Documentos que contienen tablas de transposición

Beneficios del servicio de reconocimiento de formularios Microsoft Azure

  • Se pueden procesar diversos tipos de documentos de formularios estándar
  • La característica de detección automática puede identificar diferentes tipos de tablas, como las tablas sin encabezado, las tablas invertidas, entre otras
  • Buena compatibilidad con formularios manuscritos