Amélioration de la qualité des résultats à l'aide de la confiance OCR

Améliorez la qualité des résultats de la plateforme IQ Bot en utilisant la région identifiée par le système (System Identified Region, SIR) et la confiance de reconnaissance optique de caractères (Optical Character Recognition, OCR) en la comparant à un seuil prédéfini.

La validation basée sur la confiance est utile pour un champ de type texte et pour les champs de type Date ou Nombre, car elle permet d’acheminer un document contenant des valeurs difficiles à voir pour un humain, même si les champs remplissent les critères de validation définis.

Activer la validation basée sur la confiance OCR

Remarque : Cette option est applicable uniquement si vous avez sélectionné Tesseract OCR lors de la création de l'instance d'apprentissage.

Cette fonctionnalité est désactivée par défaut. Pour activer cette fonctionnalité, ouvrez le fichier de configuration Settings.txt disponible dans <IQ Bot Installation Folder>\Configurations\, puis définissez la valeur de seuil souhaitée dans la propriété ConfidenceThreshold. Pour cet exemple, définissez la valeur du seuil de confiance au niveau du caractère sur 99, soit ConfidenceThreshold=99. Lorsque cette fonctionnalité est désactivée, la valeur par défaut est définie sur 0.

Remarque : La valeur du seuil de confiance est applicable uniformément à toutes les instances d'apprentissage.

Fonctionnement de la validation basée sur la confiance OCR

Dans un document, si le niveau de confiance au niveau des caractères SIR d'un champ est inférieur à celui du seuil de confiance défini, la validation de ce champ échoue et entraîne l'échec du document concerné.

Remarque : Si la valeur d'un champ échoue en raison d'une autre règle de validation que celle reposant sur la confiance OCR (par exemple, Format de nombre non valide), cette info-bulle s'affiche plutôt que l'info-bulle Confiance faible.

Lors de l'entraînement avec un document, un échec de la validation basée sur la confiance par rapport à un champ s'affiche dans un rectangle orange dans l'aperçu (s'il n'existe aucune autre erreur de validation pour ce champ). D'autres erreurs de validation ont priorité sur la validation par niveau de confiance OCR au niveau des caractères.

Troubleshoot : Si le moteur OCR n’est pas en mesure d’identifier les SIR pour les documents PDF en chinois, résolvez le problème :