Extracción de datos en Automatización de documentos

Comprenda la forma en que el sistema mejora la precisión de la extracción a través de los cambios proporcionados por el usuario en el Validador.

Mejoramiento de la precisión de la extracción mediante la validación

Cuando se crea una instancia de aprendizaje, el usuario tiene la opción de habilitar esta característica para enviar comentarios a la instancia de aprendizaje basándose en los cambios proporcionados por el usuario en el Validador. En Automatización de documentos, las instancias de aprendizaje que se ejecutan en modo de producción, pueden "aprender" continuamente cada vez que un usuario cambia el tamaño o la ubicación de la región de extracción en el Validador.

El siguiente gráfico proporciona una visión general del proceso por el que las instancias de aprendizaje reciben continuamente comentarios de la validación:

Proceso de "enseñanza" a las instancias de aprendizaje a través de comentarios de validación

  1. Un documento cargado pasa por el motor de extracción.
  2. Si la instancia de aprendizaje extrae correctamente los datos, el documento se agrega al recuento de procesamiento directo (STP) y los valores extraídos se descargan en un archivo en la carpeta Success.

    Si la instancia de aprendizaje no puede extraer los datos, el sistema evalúa si el documento contiene una disposición desconocida.

  3. Si la instancia de aprendizaje no reconoce la disposición del documento (nueva disposición), el documento se envía a una validación manual en la que el usuario "enseña" a la instancia de aprendizaje cómo extraer los datos configurando la región de extracción.
  4. Los valores extraídos se descargan en un archivo en la carpeta Success y los cambios se recopilan en un archivo de comentarios, que se envía a la base de datos de comentarios.
    Nota:
    • Los comentarios solo se recopilan cuando el usuario cambia la región de extracción. Si el usuario ingresa manualmente el texto, el sistema no recopila los comentarios.
    • El archivo de comentarios solo contiene datos sobre la ubicación del campo para mejorar la precisión de la extracción de los documentos posteriores.

    Si la instancia de aprendizaje reconoce el clúster, recupera los comentarios anteriores desde la base de datos de comentarios y la utiliza para extraer datos.

Utilizar los comentarios de validación para extraer valores específicos en una tabla

A partir de Automation 360v.27, puede entrenar una instancia de aprendizaje para extraer datos de una celda que contenga más de un campo.

Por ejemplo, si una columna de descripción de un producto incluye también el número de artículo, puede perfilar el número de artículo en la interfaz de validación. Cuando la instancia de aprendizaje procese documentos posteriores, extraerá el número de artículo e ignorará la descripción del producto.

Siga este proceso para configurar una instancia de aprendizaje para extraer valores específicos de una celda:
  1. Cree una instancia de aprendizaje con un modelo Automation Anywhere preentrenado y seleccione la opción de enviar comentarios de validación: Cree una instancia de aprendizaje Automatización de documentos
  2. Cargar un documento de muestra: Documentos procesados en Automatización de documentos
  3. En el Validador, localice el campo y vuelva a dibujar la caja para que solo rodee los valores que desea extraer.
  4. Después de hacer clic en Enviar, la información sobre la nueva región de extracción se enviará a la base de datos de comentarios.
  5. Cargue más documentos para comprobar la precisión de la extracción. Cuando esté satisfecho con los resultados, comience a preparar la instancia de aprendizaje para ejecutarla en producción: Publicar la instancia de aprendizaje en producción

Cómo Automatización de documentos identifica nuevas disposiciones

La extracción de Automatización de documentos se basa en la detección de objetos. Durante el procesamiento de documentos, el motor de extracción identifica los objetos, o pares de clave-valor del campo y el valor asociado. El motor crea una "huella digital" del documento, que almacena la secuencia de los objetos y la ubicación de cada objeto en el documento.

Cuando se procesa un documento, si el motor reconoce las claves y sus ubicaciones, el documento se clasifica y se extrae basándose en esa huella digital existente. En caso contrario, el motor guarda una nueva huella digital de las claves y sus ubicaciones.

Proceso mediante el cual el motor reconoce la huella digital existente en un documento o crea una nueva huella digital