Sélectionner un moteur Reconnaissance de texte

Vous pouvez sélectionner un moteur Reconnaissance de texte qui correspond le mieux à vos exigences pour l'extraction de données en fonction de vos types de documents. Il n'est pas nécessaire de redémarrer les services IQ Bot pour mettre en œuvre une modification de moteur.

Pendant l’installation de IQ Bot, le système définit la dernière version de Tesseract Optical Character Reader comme moteur Reconnaissance de texte par défaut. Il s'agit également du paramètre par défaut pour le produit. Cependant, vous pouvez définir manuellement le moteur Reconnaissance de texte dans le fichier Settings.txt, qui devient le moteur par défaut. Comme pour les versions précédentes de IQ Bot, vous pouvez continuer à mettre à jour manuellement le fichier Settings.txt avec le nom du moteur Reconnaissance de texte que vous souhaitez définir comme moteur par défaut.

Lorsque vous créez une instance d'apprentissage, vous pouvez sélectionner un moteur Reconnaissance de texte à partir du menu déroulant Reconnaissance optique des caractères. Reportez-vous à la rubrique Créer une instance d'apprentissage
Remarque : La sélection d'un moteur Reconnaissance de texte dans l'interface remplace les paramètres du fichier Settings.txt.

Le tableau suivant répertorie les différents moteurs Reconnaissance de texte pris en charge dans IQ Bot et les options correspondantes :

Tableau 1. Liste des moteurs OCR et leurs spécifications
Qualificatifs Version OCR Installation prise en charge Manuscrit Langues prises en charge Qualité des documents Type de document
Tesseract OCR 4 Cloud et Sur site S/O

Anglais

Allemand

Espagnol

Italien

Français

Pas de bruit

Pas d'arrière-plan sombre

Pas d'horodatage/de filigrane

Supérieur à 200 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Moteur FineReader ABBYY 12.3 ou 12.4 Cloud et Sur site S/O

Anglais

Toutes les langues latines

Chinois

Japonais

Coréen

Moins de bruit

Arrière-plan sombre avec polices blanches

Présence d'horodatages/de filigranes

Supérieur à 96 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Formulaires d'hypothèque, formulaires fiscaux

Formats non structurés

Moteur OCR Computer Vision de Microsoft Azure 2.0 ou 3.2 Cloud et Sur site Anglais seulement

Anglais

Toutes les langues latines

Chinois

Japonais

Coréen

Moins de bruit

Arrière-plan sombre

Présence d'horodatages/de filigranes

Supérieur à 96 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Passeports, permis de conduire, etc.

Documents KYC

API Google Vision La version est mise à jour automatiquement pour correspondre à la version actuelle Cloud et Sur site S/O

Anglais

Toutes les langues latines

Asie

Moins de bruit

Arrière-plan sombre

Présence d'horodatages/de filigranes

Supérieur à 96 ppp

Factures, bons de commande, etc.

Formats semi-structurés

Formulaires d'hypothèque, formulaires fiscaux

Formats non structurés

Procédure

  1. Sur la page Créer une nouvelle instance d'apprentissage, sélectionnez le domaine et la langue des documents.
    Dans la page Ma liste d'instances d'apprentissage, une nouvelle colonne Moteur OCR est disponible qui montre le moteur Reconnaissance de texte utilisé pour créer chaque instance d'apprentissage. Ces informations sont utiles à l’utilisateur lorsqu’il décide du traitement du document.
  2. Les sections Champs à extraire et Paramètres avancés s'affichent lorsque vous sélectionnez le domaine.
    Chaque domaine est disponible avec une liste prédéfinie de langues principales prises en charge. La sélection de la langue est activée et disponible dans la liste déroulante Langue principale des documents en fonction des langues prises en charge pour un domaine spécifique.
    Remarque : Si vous sélectionnez une langue dans la liste déroulante Langue principale des documents, puis sélectionnez un moteur qui ne prend pas en charge cette langue, le système affiche un message d'erreur dans la liste déroulante Reconnaissance optique des caractères.
  3. Cliquez sur Paramètres avancés > Reconnaissance optique des caractères pour afficher la liste déroulante des options du moteur Reconnaissance de texte.

    Si la sélection du moteur Reconnaissance de texte n'est pas valide, l'option Créer une instance et analyser n'est pas activée.

    Remarque : IQ Bot installe automatiquement tous les moteurs Reconnaissance de texte pendant le processus d’installation, à l’exception de Moteur FineReader ABBYY.
    Important : Vous pouvez uniquement configurer le moteur Reconnaissance de texte sélectionné dans IQ Bot Automation 360 Sur site. Il n'est pas possible de modifier les paramètres Reconnaissance de texte dans IQ Bot Automation 360 Cloud car ils ne sont pas accessibles, sauf pour Moteur FineReader ABBYY. Vous pouvez modifier les paramètres de configuration pour Moteur FineReader ABBYY à l'aide de l'API REST appconfigurations.

    Vous pouvez sélectionner l'une des options suivantes :

    OptionDescription
    Tesseract OCR 4 Il s'agit du moteur par défaut, à moins qu'il ne soit modifié dans le fichier Settings.txt.
    Moteur FineReader ABBYY

    Pour vérifier si Moteur FineReader ABBYY est installé et disponible sur votre ordinateur, consultez le fichier Settings.txt, le dossier de plug-ins Reconnaissance de texte des fichiers SDK et la liste déroulante Reconnaissance optique des caractères.

    Remarque : Également pris en charge dans IQ Bot [Périphérique local] package et Extraction IQ Bot package.

    Utiliser le moteur Moteur FineReader ABBYY Reconnaissance de texte dans IQ Bot

    Moteur OCR Computer Vision de Microsoft Azure IQ Bot prend en charge toutes les langues gérées par ce moteur Reconnaissance de texte.

    Utilisez Moteur OCR Computer Vision de Microsoft Azure.

    API Google Vision IQ Bot prend en charge API Google Vision en tant que moteur Reconnaissance de texte et prend en charge toutes les langues gérées par ce moteur.

    Utiliser le moteur OCR API Google Vision

    Mes documents PDF n'ont pas d'image

    Tous les documents PDF que vous chargez sont traités par défaut à l'aide de Reconnaissance de texte PDFBox, quel que soit le moteur Reconnaissance de texte que vous avez spécifié ou sélectionné.

    Si vous chargez des documents non PDF ou des documents PDF contenant des images, désactivez la case à cocher Mes documents PDF n'ont pas d'image pour vous assurer que le moteur Reconnaissance de texte que vous avez spécifié ou sélectionné est utilisé pour traiter les documents.

    La case Mes documents PDF n'ont pas d'image est cochée par défaut. Pour désactiver cette fonction, reportez-vous à la section Désactiver l'option PDFBox.
    Conseil : Si IQ Bot n’est pas en mesure d’extraire des données de documents de mauvaise qualité ou manuscrits, solutionnez le problème :

    IQ Bot est incapable d'extraire des données de documents de mauvaise qualité ou manuscrits (connexion à A-People requise)

    Remarque : Utilisez les fichiers suivants pour modifier les paramètres Reconnaissance de texte :
    • AbbyyImagePreProcessingSettings.json
    • LangugeCodeToAbbyyLanguageCode.json
    • Azure3OCREngineSettings.json
    • GoogleOCREngineSettings.json
    • AzureOCREngineSettings.json
    Modification des paramètres de la reconnaissance de texte dans IQ Bot (connexion à A-People requise)