Mejorar la calidad de salida con la confianza de OCR

Puede mejorar la calidad de salida de la plataforma de IQ Bot al usar la confianza de región identificada por el sistema (SIR) y reconocimiento óptico de caracteres (OCR) y compararla con un umbral predefinido.

La validación basada en la confianza es útil para un campo de tipo texto y los campos de fecha o número, pues ayuda a enrutar un documento que tiene valores contradictorios para que una persona lo revise, incluso si los campos satisfacen los criterios de validación establecidos.

Habilitar la validación basada en la confianza de OCR

Nota: Esta opción solo es aplicable si seleccionó Tesseract OCR cuando creó la instancia de aprendizaje.

Esta función está desactivada por defecto. Para habilitar esta característica, abra el archivo de configuración Settings.txt, disponible en <IQ Bot Installation Folder>\Configurations\ y asigne el valor de umbral deseado en la propiedad ConfidenceThreshold. Para este ejemplo, establezca el valor del umbral de confianza en el nivel 99, es decir, ConfidenceThreshold=99. Cuando esta función está inhabilitada, se asigna el valor predeterminado 0.

Nota: El valor del umbral de confianza se aplica uniformemente en todas las instancias de aprendizaje.

Cómo funciona la validación basada en la confianza de OCR

En un documento, si el nivel de confianza del nivel de carácter SIR de un campo es inferior al umbral de confianza establecido, se generará un error en la validación de ese campo, lo que generará un error en el documento.

Nota: Si el valor de un campo contiene un error causado por una regla de validación (por ejemplo, "Formato de número no válido") que no sea un error de validación de la confianza de OCR, verá ese texto emergente en lugar del texto Bajo nivel de confianza.

Durante el entrenamiento de un documento, los errores de validación basados en la confianza en comparación con un campo se muestran en un cuadro de color anaranjado durante la vista previa si no existen otros errores de validación para ese campo. Otros errores de validación tienen prioridad sobre la validación de confianza en el nivel de los caracteres de OCR.

Troubleshoot: Si el motor de OCR no puede identificar SIR para documentos PDF en idioma chino, solucione el problema: