Extracción de datos impulsada por visión IA generativa

Los modelos de IA generativa impulsados por visión mejoran Document Automation al aumentar la precisión de extracción de datos de documentos complejos y no estructurados, utilizando capacidades como el análisis de diseño y el reconocimiento de campos de formulario. Estos modelos optimizan los flujos de trabajo al reducir la intervención humana y cuentan con el apoyo de proveedores como Microsoft OpenAI y Claude de Anthropic en varias regiones.

Nota: Asegúrese de estar utilizando la versión Extracción de documentos paquete 3.35.14 o posterior para utilizar los modelos de IA generativa impulsados por visión.

La integración de modelos IA generativa impulsados por visión en Document Automation le ayudará a procesar documentos con estructuras visualmente complejas, incluido el reconocimiento de casillas de verificación y la detección de firmas.

Cuando usa el paquete que admite modelos IA generativa impulsados por visión, puede usar la etiqueta indicadora @GenAIVision para indicar al motor del Extracción de documentos que utilice modelos IA generativa impulsados por visión para la extracción de datos. Para obtener más información, consulte Uso de etiquetas de indicador en indicadores de IA generativa.

Capacidades

La siguiente imagen muestra algunas de las capacidades de los modelos de IA generativa impulsados por visión utilizados en Document Automation:

Document Automation con capacidades de modelos de IA generativa impulsadas por visión

Document Automation con modelos de IA generativa impulsados por visión facilitan las siguientes capacidades mejoradas en comparación con otros modelos de IA generativa:

  • Análisis de diseño
  • Reconocimiento de campos de formulario
  • Reconocimiento de tablas
  • Reconocimiento de imágenes y gráficos
  • Reconocimiento de firmas y casillas de verificación

Ventajas

Los modelos de IA generativa impulsados por visión ofrecen los siguientes beneficios:

Extracción de datos sin interrupciones
Extrae datos de tablas complejas con filas anidadas, columnas combinadas y secciones. Reconoce y captura elementos de selección, como casillas de verificación.
Desarrollado para casos de uso del mundo real
Supera los desafíos en la extracción de datos de varios tipos de documentos, como facturas, órdenes de compra, documentos de atención médica y documentos de la cadena de suministro.
Configuración sin esfuerzo
Utiliza modelos preentrenados que funcionan de inmediato, donde se utilizan consultas de búsqueda para identificar y extraer información.

Matriz de compatibilidad de regiones

La siguiente tabla facilita los modelos de IA generativa impulsados por visión admitidos por los proveedores de IA generativa en diferentes regiones:

Nota: Si está utilizando el modelo "traiga su propia licencia" (BYOL) para un proveedor, estas configuraciones no se considerarán. Para configurar BYOL para un proveedor, consulte acción Extraer datos.
Regiones Proveedores ¿Es compatible con el modelo de IA generativa impulsado por visión? Modelos de IA generativa compatibles
Estados Unidos Microsoft OpenAI GPT-4o
Claude de Anthropic (Amazon Bedrock) Claude 3 Haiku
Europa Microsoft OpenAI GPT-4o
Claude de Anthropic (Amazon Bedrock) Claude 3 Haiku
Resto del mundo Microsoft OpenAI No* GPT-3.5 Turbo
Claude de Anthropic (Amazon Bedrock) Claude 3 Haiku

* Puede configurar BYOL (traiga su propia licencia) para usar su propio modelo de IA generativa impulsado por visión para la extracción de datos. Consulte acción Extraer datos.