Types de document

Le type de document est la classification des documents en fonction de leur finalité, de leur mise en page et de leur contenu. Automatisation de documents prend en charge le traitement des types de documents suivants : documents structurés, semi-structurés et non structurés.

Documents structurés

Les documents structurés suivent une structure cohérente et une mise en page claire où les données sont saisies ou écrites, ce qui facilite l'extraction et le traitement des données par les systèmes automatisés. Le modèle d'extraction de données de ces documents utilise une combinaison de capacités de reconnaissance optique de caractères (OCR) avec un modèle basé sur des modèles pour extraire des paires clé-valeur et des données de tableau à partir de documents structurés.

Voici quelques exemples de documents structurés :

  • Formulaires de demande
  • Enquêtes
  • Passeports
  • Formulaires fiscaux

Documents semi-structurés

Les documents semi-structurés sont des documents qui ont une structure ou un format prévisible, comme les documents structurés, mais qui présentent également des variations dans la mise en page ou le contenu. Certains documents peuvent contenir des éléments de données communs, mais les données peuvent se trouver à différents emplacements dans différents documents. Le modèle d'extraction de données utilisé pour ces documents utilise une combinaison de fonctionnalités OCR avec une extraction basée sur des mots-clés, des expressions régulières et des commentaires de validation pour extraire des paires clé-valeur et des données de tableau à partir de documents semi-structurés.

Voici quelques exemples de documents semi-structurés :

  • Factures
  • Bons de commande
  • Connaissements
  • Explications des avantages (EOB)

Documents non structurés

Les documents non structurés n'ont pas de format standard, de mise en page fixe ou de données sans étiquettes. Les données sont principalement dans un format de langage naturel sans structure cohérente. Le modèle d'extraction de données utilise une combinaison de capacités OCR, avec le traitement du langage naturel (NLP) et des technologies d'IA générative pour effectuer une analyse sémantique et extraire des paires clé-valeur et des données de tableau à partir de documents non structurés.

Voici quelques exemples de documents non structurés :

  • Documents juridiques
  • Correspondance (y compris les e-mails)
  • Rapports

Automatisation de documents peut gérer l'extraction de données à partir de tous ces types de documents. Cependant, il est important de comprendre dans quelle catégorie appartiennent vos documents pour décider des options à utiliser pour extraire les données.