Sélectionner un moteur ROC

Vous pouvez sélectionner un moteur ROC qui correspond le mieux à vos exigences pour l'extraction de données en fonction de vos types de documents. Il n'est pas nécessaire de redémarrer les services IQ Bot pour mettre en œuvre une modification de moteur.

Pendant l’installation de IQ Bot, le système définit la dernière version de Tesseract Optical Character Reader comme moteur ROC par défaut. Il s'agit également du paramètre par défaut pour le produit. Cependant, vous pouvez définir manuellement le moteur ROC dans le fichier Settings.txt, qui devient le moteur par défaut. Comme pour les versions précédentes de IQ Bot, vous pouvez continuer à mettre à jour manuellement le fichier Settings.txt avec le nom du moteur ROC que vous souhaitez définir comme moteur par défaut.

Lorsque vous créez une instance d'apprentissage, vous pouvez sélectionner un moteur ROC à partir du menu déroulant Reconnaissance optique des caractères. Reportez-vous à la rubrique Créer une instance d'apprentissage
Remarque :
  • La sélection d'un moteur ROC dans l'interface remplace les paramètres du fichier Settings.txt.
  • Comme l'API Tegaki ROC nécessite une configuration Sur site distincte qui n'est pas prise en charge dans Automation 360 IQ Bot cloud, tous les autres moteurs ROC à l'exception de l'API Tegaki ROC sont disponibles.

    Vous disposerez toujours de la dernière version des moteurs ROC pris en charge par Automation 360 IQ Bot cloud, mais vous ne pouvez pas sélectionner une version spécifique de ROC.

Le tableau suivant répertorie les différents moteurs ROC pris en charge dans IQ Bot et les options correspondantes :

Tableau 1. Liste des moteurs OCR et leurs spécifications
Qualificatifs Version OCR Installation prise en charge Manuscrit Langues prises en charge Qualité des documents Type de document
Tesseract OCR 4 cloud et Sur site S/O

Anglais

Allemand

Espagnol

Italien

Français

Pas de bruit

Pas d'arrière-plan sombre

Pas d'horodatage/de filigrane

Supérieur à 200 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Moteur FineReader ABBYY 12.3 ou 12.4 cloud et Sur site S/O

Anglais

Toutes les langues latines

Chinois

Japonais

Coréen

Moins de bruit

Arrière-plan sombre avec polices blanches

Présence d'horodatages/de filigranes

Supérieur à 96 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Formulaires d'hypothèque, formulaires fiscaux

Formats non structurés

Moteur OCR Computer Vision de Microsoft Azure 2.0 ou 3.2 cloud et Sur site Anglais seulement

Anglais

Toutes les langues latines

Chinois

Japonais

Coréen

Moins de bruit

Arrière-plan sombre

Présence d'horodatages/de filigranes

Supérieur à 96 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Passeports, permis de conduire, etc.

Documents KYC

API Google Vision La version est mise à jour automatiquement pour correspondre à la version actuelle cloud et Sur site S/O

Anglais

Toutes les langues latines

Asie

Moins de bruit

Arrière-plan sombre

Présence d'horodatages/de filigranes

Supérieur à 96 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Formulaires d'hypothèque, formulaires fiscaux

Formats non structurés

Procédure

  1. Sur la page Créer une nouvelle instance d'apprentissage, sélectionnez le domaine et la langue des documents.
    Dans la page Ma liste d'instances d'apprentissage, une nouvelle colonne Moteur OCR est disponible qui montre le moteur ROC utilisé pour créer chaque instance d'apprentissage. Ces informations sont utiles à l’utilisateur lorsqu’il décide du traitement du document.
  2. Les sections Champs à extraire et Paramètres avancés s'affichent lorsque vous sélectionnez le domaine.
    Chaque domaine est disponible avec une liste prédéfinie de langues principales prises en charge. La sélection de la langue est activée et disponible dans la liste déroulante Langue principale des documents en fonction des langues prises en charge pour un domaine spécifique.
    Remarque : Si vous sélectionnez une langue dans la liste déroulante Langue principale des documents, puis sélectionnez un moteur qui ne prend pas en charge cette langue, le système affiche un message d'erreur dans la liste déroulante Reconnaissance optique des caractères.
  3. Cliquez sur Paramètres avancés > Reconnaissance optique des caractères pour afficher la liste déroulante des options du moteur ROC.

    Si la sélection du moteur ROC n'est pas valide, l'option Créer une instance et analyser n'est pas activée.

    Remarque : IQ Bot installe automatiquement tous les moteurs ROC pendant le processus d’installation, à l’exception de Moteur FineReader ABBYY.
    Important : Vous pouvez uniquement configurer le moteur ROC sélectionné dans Automation 360 IQ Bot Sur site. Il n'est pas possible de modifier les paramètres ROC dans Automation 360 IQ Bot cloud car ils ne sont pas accessibles, sauf pour Moteur FineReader ABBYY. Vous pouvez modifier les paramètres de configuration pour Moteur FineReader ABBYY à l'aide de l'API REST appconfigurations.

    Vous pouvez sélectionner l'une des options suivantes :

    OptionDescription
    Tesseract OCR 4 Il s'agit du moteur par défaut, à moins qu'il ne soit modifié dans le fichier Settings.txt.
    Moteur FineReader ABBYY

    Pour vérifier si Moteur FineReader ABBYY est installé et disponible sur votre ordinateur, consultez le fichier Settings.txt, le dossier de plug-ins ROC des fichiers SDK et la liste déroulante Reconnaissance optique des caractères.

    Remarque : Également pris en charge dans package IQ Bot [Appareil local] et package IQ Bot Extraction.

    Utiliser le moteur Moteur FineReader ABBYY ROC dans IQ Bot

    Moteur OCR Computer Vision de Microsoft Azure IQ Bot prend en charge toutes les langues gérées par ce moteur ROC.

    Utilisez Moteur OCR Computer Vision de Microsoft Azure.

    API Google Vision IQ Bot prend en charge API Google Vision en tant que moteur ROC et prend en charge toutes les langues gérées par ce moteur.

    Utiliser le moteur OCR API Google Vision

    Mes documents PDF n'ont pas d'image

    Tous les documents PDF que vous chargez sont traités par défaut à l'aide de ROC PDFBox, quel que soit le moteur ROC que vous avez spécifié ou sélectionné.

    Si vous chargez des documents non PDF ou des documents PDF contenant des images, désactivez la case à cocher Mes documents PDF n'ont pas d'image pour vous assurer que le moteur ROC que vous avez spécifié ou sélectionné est utilisé pour traiter les documents.

    La case Mes documents PDF n'ont pas d'image est cochée par défaut. Pour désactiver cette fonction, reportez-vous à la section Désactiver l'option PDFBox.
    Conseil : Si IQ Bot n’est pas en mesure d’extraire des données de documents de mauvaise qualité ou manuscrits, solutionnez le problème :

    IQ Bot unable to extract data from low quality and Handwritten documents (A-People login required)

    Remarque : Utilisez les fichiers suivants pour modifier les paramètres ROC :
    • AbbyyImagePreProcessingSettings.json
    • LangugeCodeToAbbyyLanguageCode.json
    • Azure3OCREngineSettings.json
    • GoogleOCREngineSettings.json
    • AzureOCREngineSettings.json
    How to change OCR Settings in IQ Bot (A-People login required)