Elegir un modelo de extracción
- Última actualización2024/10/31
Elegir un modelo de extracción
Document Automation admite diferentes proveedores de extracción para permitir una amplia gama de casos de uso de procesamiento de documentos. Para determinar qué proveedor de extracción utilizar para procesar documentos, es posible que tenga que comparar diferentes proveedores de extracción o elegir una combinación de más de un proveedor de extracción para abordar un caso de uso específico.
Por ejemplo, para los paquetes de solicitud de préstamos, es posible que desee utilizar el proveedor de extracción Automation Anywhere para extraer ciertos datos, como formularios W-2 y extractos bancarios, y el proveedor de extracción Google Document AI para extraer ciertos datos, como facturas y documentos de identidad. En tal escenario, la extracción de datos utilizando solo uno de los proveedores de extracción no proporciona una cobertura completa.
Un dato fundamental para decidir sobre un proveedor de extracción es el tipo de documento que desea procesar: estructurado, semiestructurado o no estructurado. Para obtener información sobre los tipos de documentos, consulte Tipos de documento.
Documentos estructurados
En el caso de los documentos estructurados que siguen una estructura consistente y un diseño claro, recomendamos utilizar el modelo de extracción de formularios estándar en Document Automation para la extracción de datos. Este modelo utiliza una combinación de capacidades de reconocimiento óptico de caracteres (OCR) con un modelo basado en plantillas para extraer pares clave-valor y datos de tablas de documentos estructurados con un formato muy consistente, como formularios o identificaciones. Consulte Crear modelos personalizados en Document Automation mediante Formularios estándares.
Documentos semiestructurados
Los documentos semiestructurados a menudo requieren pruebas y validación de diferentes modelos de extracción y proveedores para determinar la combinación que entregará los datos requeridos. Algunos casos de uso pueden requerir la creación de más de una instancia de aprendizaje con diferentes combinaciones de modelos de extracción y proveedores para extraer los datos necesarios de los campos y las tablas. Este modelo utiliza una combinación de capacidades de OCR con extracción basada en palabras clave, expresiones regulares y retroalimentación de validación para extraer pares clave-valor y datos de tablas de una amplia gama de formatos.
Tipo de documento | Proveedores de extracción | |
---|---|---|
Automation Anywhere | Google Document AI | |
Facturas | Sí | Sí |
Aviso de llegada | Sí | No |
Conocimiento de embarque | Sí | No |
Lista de empaque | Sí | No |
Recibos | No | Sí |
Definidas por el usuario | Sí | Sí |
Factura de servicio | No | Sí |
Guía de carga | Sí | No |
Documentos no estructurados
En el caso de los documentos no estructurados que carecen de un formato estándar, diseño fijo, o falta de datos sin etiquetas, como contratos, recomendamos utilizar el modelo de extracción de documentos no estructurados en Document Automation para la extracción de datos. La extracción de documentos no estructurados depende de modelos IA generativa que pueden comprender el significado semántico y analizar formatos de documentos complejos.