Elegir un modelo de extracción

Document Automation admite diferentes proveedores de extracción para permitir una amplia gama de casos de uso de procesamiento de documentos. Para determinar qué proveedor de extracción utilizar para procesar documentos, es posible que tenga que comparar diferentes proveedores de extracción o elegir una combinación de más de un proveedor de extracción para abordar un caso de uso específico.

Por ejemplo, para los paquetes de solicitud de préstamos, es posible que desee utilizar el proveedor de extracción Automation Anywhere para extraer ciertos datos, como formularios W-2 y extractos bancarios, y el proveedor de extracción Google Document AI para extraer ciertos datos, como facturas y documentos de identidad. En tal escenario, la extracción de datos utilizando solo uno de los proveedores de extracción no proporciona una cobertura completa.

Un dato fundamental para decidir sobre un proveedor de extracción es el tipo de documento que desea procesar: estructurado, semiestructurado o no estructurado. Para obtener información sobre los tipos de documentos, consulte Tipos de documento.

Documentos estructurados

En el caso de los documentos estructurados que siguen una estructura consistente y un diseño claro, recomendamos utilizar el modelo de extracción de formularios estándar en Document Automation para la extracción de datos. Este modelo utiliza una combinación de capacidades de reconocimiento óptico de caracteres (OCR) con un modelo basado en plantillas para extraer pares clave-valor y datos de tablas de documentos estructurados con un formato muy consistente, como formularios o identificaciones. Consulte Crear modelos personalizados en Document Automation mediante Formularios estándares.

Documentos semiestructurados

Los documentos semiestructurados a menudo requieren pruebas y validación de diferentes modelos de extracción y proveedores para determinar la combinación que entregará los datos requeridos. Algunos casos de uso pueden requerir la creación de más de una instancia de aprendizaje con diferentes combinaciones de modelos de extracción y proveedores para extraer los datos necesarios de los campos y las tablas. Este modelo utiliza una combinación de capacidades de OCR con extracción basada en palabras clave, expresiones regulares y retroalimentación de validación para extraer pares clave-valor y datos de tablas de una amplia gama de formatos.

En la siguiente tabla se enumeran los diferentes modelos de extracción preentrenados y proveedores disponibles en Document Automation para procesar documentos semiestructurados. La disponibilidad de modelos de extracción depende del idioma que seleccione. Cuando un modelo de extracción admite los proveedores de extracción Automation Anywhere y Google Document AI, es posible que a veces desee comparar los dos para ver cuál es mejor para el caso de uso o, incluso, usar los dos en conjunto si es necesario para extraer todos los datos relevantes.
Nota: Utilice el modelo genérico (definido por el usuario) si no ve el modelo que desea usar disponible en la lista de modelos de extracción entrenados previamente.
Tipo de documento Proveedores de extracción
Automation Anywhere Google Document AI
Facturas
Aviso de llegada No
Conocimiento de embarque No
Lista de empaque No
Recibos No
Definidas por el usuario
Factura de servicio No
Guía de carga No
Utilizar el tipo de documento definido por el usuario

Documentos no estructurados

En el caso de los documentos no estructurados que carecen de un formato estándar, diseño fijo, o falta de datos sin etiquetas, como contratos, recomendamos utilizar el modelo de extracción de documentos no estructurados en Document Automation para la extracción de datos. La extracción de documentos no estructurados depende de modelos IA generativa que pueden comprender el significado semántico y analizar formatos de documentos complejos.

Nota: Para lograr aún mayor flexibilidad, también se pueden integrar analizadores de terceros mediante la función Configurar analizador, además de las opciones indicadas anteriormente. Consulte Integración del analizador de terceros en una instancia de aprendizaje