Créer une instance d'apprentissage à l'aide de Google CDE

Une instance d'apprentissage est une structure qui contient des informations telles que le type de document, la langue et les champs à extraire. Après avoir créé un processeur d'extraction personnalisé, vous devez créer une instance d'apprentissage pour extraire les données des documents.

Prérequis

  • Assurez-vous d'avoir créé et entraîné avec succès un processeur Google Custom Document Extractor (CDE).
  • Assurez-vous que votre Control Room dispose de la licence de produit Espace de travail documentaire (nombre de pages).
  • Assurez-vous d'avoir configuré le BYOK. Pour plus d'informations, consultez Configurer BYOK (Bring Your Own Key) pour Google CDE.

Pour intégrer un nouveau processeur dans Google Document AI, l'étape cruciale est la création d'une instance d'apprentissage. Il s'agit d'utiliser le fournisseur comme option Google Document AI (défini par l'utilisateur). En créant une instance d'apprentissage à l'aide de cette option, les utilisateurs peuvent définir des champs de formulaire et de tableau dont les noms correspondent à ceux présents dans le processeur.
Remarque :
  • Actuellement, Google Document AI prend en charge l'extraction d'un seul tableau.
  • La fonctionnalité de case à cocher (en mode aperçu) peut entraîner une extraction incohérente pour les champs de case à cocher, ce qui peut donner des résultats incohérents. Dans ce cas, si le système n'est pas en mesure d'extraire précisément la valeur du champ de case à cocher, la valeur sera étiquetée comme Introuvable.

Procédure

  1. À partir de la page d'accueil de la Control Room, accédez à Gérer > Instances d'apprentissage > Créer une instance d'apprentissage.
    La fenêtre Créer une instance d'apprentissage s'ouvre dans un nouvel onglet.
  2. Ajoutez un nom pour la nouvelle instance d'apprentissage à créer.
  3. Dans le menu déroulant Type de document, sélectionnez Défini par l'utilisateur.
  4. Dans le menu Fournisseur, sélectionnez Google Document AI (défini par l'utilisateur).
  5. Cliquez sur Suivant.
  6. Sélectionnez l'onglet Champs de formulaire ou Champs de tableau.
  7. Créez de nouveaux champs avec les mêmes noms que les étiquettes de schéma utilisées dans le processeur Google CDE.
    Remarque : Lorsque vous créez de nouveaux champs, veillez à ce que leur nom corresponde aux étiquettes de schéma utilisées dans le processeur Google. Vous devez faire correspondre les noms des champs de formulaire et des champs de tableau.
  8. Cliquez sur Créer.

    Lorsqu'une nouvelle instance d'apprentissage est créée, la Control Room crée un dossier portant le même nom que celui de l'instance d'apprentissage dans le dossier Automatisation > Processus d'espace de travail des documents.

    Vous pouvez ajouter des champs de formulaire et de tableau personnalisés pour les instances d'apprentissage Google Document AI. Si vous souhaitez extraire des données de champs non pris en charge par Google, vous pouvez créer des champs personnalisés. Grâce à cette amélioration, vous pouvez utiliser des modèles préentraînés de Google ainsi que des champs personnalisés pour l'extraction de documents.

    Tenez compte des points suivants lorsque vous ajoutez des champs personnalisés pour les instances d'apprentissage Google Document AI :
    • Vous pouvez ajouter des champs de formulaire et de tableau personnalisés pour les types de documents.
    • Vous pouvez modifier et enregistrer les champs personnalisés.
    • Une expression régulière est disponible pour les champs personnalisés.
    • Vous pouvez ajouter des champs personnalisés pour les instances d'apprentissage existantes qui sont associées à l'ancien package.

      Dans ce scénario, lorsque vous enregistrez l'instance d'apprentissage, une notification s'affiche pour mettre à jour la version du package.

    • Lorsqu'un package n'est pas compatible avec plusieurs fonctionnalités, un message s'affiche, correspondant à la version du package la plus élevée.
    • Vous pouvez importer ou exporter les champs personnalisés vers ou depuis le fichier .dw, ainsi que les paramètres.
    • Lorsque vous extrayez les champs personnalisés, ces champs sont rétrocompatibles avec l'ancienne version du package.
      • Lorsqu'une instance d'apprentissage utilise les champs personnalisés, l'ancien package (v.29 et précédentes) ne génère pas d'erreur et contient des valeurs vides pour les champs personnalisés.
      • Comme pour les champs standard, l'ancien package (v.29) applique la normalisation et les règles pour les champs personnalisés, le cas échéant.
  9. Mettez à jour le robot d'extraction de l'instance d'apprentissage avec le compte de service et l'URL du point de terminaison du processeur.
    1. Ouvrez le robot pour l'instance d'apprentissage à partir de Automatisation > Processus d'espace de travail des documents > <LI name> > <Li name>_extractionbot
    2. Dans l'option Paramètres supplémentaires, sélectionnez Google DocAI.
    3. Dans le champ Compte de service, sélectionnez la consigne du coffre d'informations d'identification, les informations d'identification et l'attribut dans lequel la clé de compte de service est stockée. Pour plus d'informations, consultez Configurer BYOK (Bring Your Own Key) pour Google CDE.
    4. Copiez l'URL du point de terminaison de prédiction à partir du processeur Google CDE.
      Point de terminaison de prédiction dans Google Document AI
    5. Collez l'URL copiée dans l'URL du point de terminaison pour le processeur de documents.

      URL du point de terminaison de Document AI pour le processeur de documents

Étapes suivantes

Chargez des documents vers l'instance d'apprentissage, corrigez les erreurs de validation et vérifiez les données extraites. Pour plus d'informations, consultez Traiter les documents dans Document Automation.