Créer une instance d'apprentissage

Créez une instance d'apprentissage et chargez les exemples de documents d'entraînement. Dans cette étape, vous définissez les éléments de données pour un seul type de document, tel qu'une facture ou un bon de commande, et les champs que vous souhaitez extraire.

Prérequis

Assurez-vous que les exemples de documents répondent aux exigences suivantes :
  • Chaque document est un fichier distinct. Par exemple, si vous avez téléchargé un e-mail et ses pièces jointes dans un seul PDF, vous devez séparer le corps de l'e-mail des pièces jointes. Reportez-vous à la rubrique Utilisation de l'action Diviser le document.
  • Les documents sont dans l'un des types de fichiers pris en charge suivants :
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIFF
  • Utilisez des documents avec une résolution d'au moins 300 points par pouce (ppp).
  • Lors de la préproduction, vous pouvez charger un maximum de 150 documents de 10 Mo par instance d'apprentissage.
  • Lors de la production, vous pouvez charger des documents de 50 Mo maximum. Cependant, le nombre maximum de documents autorisés par instance d'apprentissage dépend de la licence.
  • Il n'y a pas de limitation du nombre de pages par document dans un moteur de reconnaissance de texte pdfbox.
  • Vous pouvez charger 60 pages par document dans un moteur de reconnaissance de texte basé sur l'image.
  • Vous pouvez charger un fichier d'une taille maximale de 12 Mo. Vous pouvez charger d'autres documents après la création de l'instance d'apprentissage.
  • Les noms de fichiers des documents que vous chargez ne doivent pas commencer par des caractères spéciaux, tels que le trait d'union (-).
  • Si le texte à extraire commence par l'un des caractères spéciaux suivants : ‘# : , \ ` '', ces caractères spéciaux sont ignorés par IQ Bot lors de la capture du texte.
Remarque :
  • Avec Tesseract4 OCR, une limite restreint le nombre de pages par document à moins de 60.
  • L'informatique confidentielle Azure permet aux entreprises de charger des données chiffrées vers un stockage sécurisé, tel que des dossiers privés sur une machine virtuelle. Si vous chargez des documents à partir de ces dossiers sécurisés vers IQ Bot, ils sont définis sur l'état Non classés, car l'extraction de données n'est pas prise en charge pour ces documents.

Lorsque vous commencez avec une collection de documents à insérer dans un processus numérique, vous aurez probablement un mélange de types de documents, de formats et d'orientations. Par exemple, une facture comporte un ensemble cohérent d'éléments de données, alors qu'un bon de commande contient un ensemble différent d'éléments de données. Vous devez créer une instance d'apprentissage différente pour chacun de ces types de documents, en suivant les étapes suivantes :

Procédure

  1. Accédez à INSTANCES D'APPRENTISSAGE et cliquez sur l'option Nouvelle instance.
  2. Dans l'écran Créer une nouvelle instance d'apprentissage, entrez les informations suivantes :
    1. Nom de l'instance : Saisissez un nom unique.
      IQ Bot version A360.21 et les versions inférieures n'autorisent pas la duplication des noms d'instance d'apprentissage. Même si vous supprimez une instance d'apprentissage, son nom ne peut pas être réutilisé. À partir de la version A360.22 d'IQ Bot, il est possible de créer des noms d'instances d'apprentissage en double, et de réutiliser le nom d'une instance d'apprentissage supprimée.
    2. Facultatif : Description : Saisissez une description.
    3. Type de document : sélectionnez le type de document dans la liste déroulante.
      Ne choisissez pas les formulaires standard comme type de document lors de la création de l'instance d'apprentissage. En fonction de l'option sélectionnée, un ensemble prédéfini de champs de formulaire et de tableau s'affiche pour ce domaine. Par exemple, lorsque vous sélectionnez Factures, les formulaires et tableaux communs d'une facture s'affichent.
      Remarque : Si vous voulez créer un domaine à utiliser spécifiquement pour cette instance d'apprentissage, sélectionnez Type de document > Autre et saisissez un nom de domaine. Dans les étapes suivantes, vous allez personnaliser le domaine.

      Pour plus d'informations sur la création d'un domaine personnalisé, regardez la vidéo suivante :

      Si vous souhaitez créer un domaine à utiliser dans plusieurs instances d'apprentissage et que vous disposez des autorisations d'accès requises, vous pouvez travailler avec l'assistance d'Automation Anywhere pour créer un domaine personnalisé. Pour plus d'informations, reportez-vous à la rubrique Domaines personnalisés dans IQ Bot.

    4. Langue principale des documents : Utilisez le menu déroulant pour sélectionner une langue pour l'instance d'apprentissage.
      Pour créer des domaines personnalisés dans d'autres langues et accéder aux 190 langues prises en charge par IQ Bot, contactez Automation Anywhere l'assistance.
      Important : Si vous ne parvenez pas à voir toutes les langues dans l’interface IQ Bot, résolvez le problème : Unable to extract data from Multiple languages in a document (A-People login required)
    5. Charger vos documents : Cliquez sur l'option Parcourir pour charger des exemples de documents.
  3. Sélectionnez ou désélectionnez des champs dans les sections Champs de formulaire communs et Champs communs de tableau et de section répétée.
    Les champs de formulaire apparaissent une seule fois dans un document, comme la date ou le numéro de la facture. Les champs de tableau sont des champs qui reviennent dans tout le document, comme le total ou la quantité des articles.
    Pour consulter tous les champs possibles, cliquez sur Champs de formulaire supplémentaires ou Champs supplémentaires de tableau/section répétée.
  4. Facultatif : Ajoutez des champs supplémentaires en saisissant le nom du champ dans la section Champs de formulaire supplémentaires ou Champs supplémentaires de table/section répétée.
    Suivez les conventions de dénomination lorsque vous saisissez un nom dans le champ Ajouter des champs (facultatif) :
    • Les noms de champ peuvent uniquement commencer par des caractères alphabétiques (A-Z et a-z).
    • Les noms de champ peuvent uniquement inclure des caractères alphanumériques et des espaces.
    • Le nom du champ ne peut pas se terminer par une espace.
  5. Reconnaissance optique des caractères : Sélectionnez le moteur ROC nécessaire.
  6. Facultatif : Décochez la case Mes documents PDF n'ont pas d'image. Pour en savoir plus, consultez la rubrique Désactiver l'option PDFBox.
    Lorsque cette case est cochée, IQ Bot utilise un moteur de reconnaissance de texte PDFBox pour traiter les documents PDF. Les documents non PDF sont traités par le moteur de reconnaissance de texte que vous avez sélectionné à l'étape précédente.
  7. Détection automatique de la case à cocher : Cochez la case Détecter les cases à cocher pour activer cette fonctionnalité.
    La sélection de cette option permet IQ Bot de détecter automatiquement les cases à cocher dans un document. Toutefois, cette action peut augmenter le temps de traitement des documents.
  8. Cliquez sur l'option Créer une instance et analyser pour créer l'instance d'apprentissage.
    Le système analyse et trie les documents d'entraînement en groupes logiques en fonction de l'identification des champs et affiche les détails dans l'onglet Instance d'apprentissage > Résumé.
Lorsqu'une instance d'apprentissage est créée, les exemples de documents que vous avez chargés sont analysés et triés en groupes sur la base des caractéristiques des documents. Pour en savoir plus, voir À propos du classificateur.

Étapes suivantes

Une fois que le classificateur a terminé de trier les documents, vous êtes redirigé vers le Designer où vous entraînez des robots à extraire des données de chaque exemple de document. Entraîner une instance d'apprentissage.