Tipos de documento

El tipo de documento es la clasificación de los documentos según su propósito, diseño y contenido. Document Automation admite los siguientes tipos de documentos para su procesamiento: documentos estructurados, semiestructurados y no estructurados.

Documentos estructurados

Los documentos estructurados siguen una estructura consistente y un diseño claro donde se escriben los datos, lo que facilita que los sistemas automatizados extraigan y procesen los datos. El modelo de extracción de datos utilizado para dichos documentos utiliza una combinación de capacidades de reconocimiento óptico de caracteres (OCR) con un modelo basado en plantillas para extraer pares clave-valor y datos de tablas de documentos estructurados.

Los siguientes son algunos ejemplos de documentos estructurados:

  • Formularios de solicitud
  • Encuestas
  • Pasaportes
  • Formularios de impuestos

Documentos semiestructurados

Los documentos semiestructurados son documentos que tienen cierta estructura o formato predecible, como los documentos estructurados, pero que también tienen algunas variaciones en el diseño o el contenido. Algunos documentos pueden contener elementos de datos comunes, pero los datos pueden estar en diferentes ubicaciones en diferentes documentos. El modelo de extracción de datos utilizado para dichos documentos utiliza una combinación de capacidades de OCR con extracción basada en palabras clave, expresiones regulares y retroalimentación de validación para extraer pares clave-valor y datos de tablas de documentos semiestructurados.

Los siguientes son algunos ejemplos de documentos semiestructurados:

  • Facturas
  • Órdenes de compra (OC)
  • Conocimiento de embarque
  • Explicación de beneficios (EOB)

Documentos no estructurados

Los documentos no estructurados carecen de un formato estándar, diseño fijo o datos sin etiquetas. Los datos están en su mayoría en formato de lenguaje natural sin una estructura consistente. El modelo de extracción de datos utiliza una combinación de capacidades de OCR con procesamiento de lenguaje natural (NLP) y tecnologías de IA generativa para realizar análisis semántico y extraer pares clave-valor y datos de tablas de los documentos no estructurados.

Los siguientes son algunos ejemplos de documentos no estructurados:

  • Documentos legales
  • Correspondencia (incluidos correos electrónicos)
  • Informes
Document Automation puede gestionar la extracción de datos de todos estos tipos de documentos. Sin embargo, comprender en qué categoría se encuentran sus documentos es importante para decidir qué opciones utilizar para extraer los datos.
Nota: La opción Mejorar la precisión mediante la validación para proporcionar comentarios de validación no es compatible con documentos no estructurados.