Mejorar la extracción de datos de tabla

Utilice la configuración de entrenamiento avanzada para entrenar sus documentos y proporcionar entradas adicionales para el motor de extracción Document Automation a fin de mejorar la extracción de datos de tablas.

Después de extraer el documento, puede usar la opción Configuración de entrenamiento avanzada en la página de validación para establecer los siguientes valores:
  • Columna principal: Configure la columna principal para la identificación de filas según sus requisitos.
  • Indicador de fin de tabla: Agregue un valor del indicador de fin de tabla para que el sistema extraiga datos hasta que el valor alcance el valor especificado, a excepción del valor del indicador de fin de tabla.
  • Etiquetas de encabezado: Ajustar o reasignar los campos de la tabla según sea necesario.
Nota: Esta función solo se aplica a proveedores si la opción Mejorar la precisión mediante validación está disponible.

Antes de empezar

  • La opción Configuración de entrenamiento avanzada solo está disponible si la opción Mejorar la precisión mediante validación está habilitada.
  • Asegúrese de tener el permiso Entrenar grupos para proporcionar información sobre etiquetas de encabezado, indicador de fin de tabla y una columna principal utilizada para la detección de filas.
  • Solo puede haber una columna principal.
  • El indicador de final de tabla es una región identificada por el sistema (SIR) de texto.

Procedimiento

  1. Procese un documento y vaya a la página de validación.
  2. Haga clic en Configuración de entrenamiento avanzada.

    Opción de configuración de entrenamiento avanzada en la página del validador
  3. Entrene su documento para establecer los siguientes valores:
    1. Establezca la columna principal definida por el usuario para la identificación de filas.

      Ajustar la columna principal mediante la configuración de entrenamiento avanzada

      Cuando especifique este valor por primera vez, la próxima vez que procese nuevamente este documento o documentos de tipo similar, este valor se actualizará automáticamente.

      Para borrar el valor actualizado automáticamente, haga clic en el menú desplegable y seleccione el valor vacío en el menú desplegable.

    2. Especifique el valor del indicador de fin de tabla.

      Especificar el indicador de fin de tabla para extraer datos a excepción del texto de fin de transmisión (EoT)
      Nota: Si una tabla se extiende por varias páginas e incluye un campo de fin de tabla similar en cada página, le recomendamos que agregue un indicador de fin de tabla. Agregar el indicador de fin de tabla mejora la extracción de datos de las tablas, ya que el sistema evalúa el indicador en cada página.

      Cuando especifica este valor por primera vez, la próxima vez que procese nuevamente este documento o documentos de tipo similar, este valor se actualizará automáticamente incluso cuando el indicador esté en ubicaciones aleatorias en el documento.

      Si un documento no tiene este valor, se actualizará automáticamente. Sin embargo, no habrá una región identificada por el sistema (SIR) correspondiente en el documento ya que falta el valor.

      Para borrar el valor actualizado automáticamente, haga clic en el botón de cerrar junto al valor del campo indicador de final de tabla o en el cuadro de selección del valor en el documento.

    3. Haga clic en la columna requerida y especifique el nombre del encabezado requerido.

      Cambiar el valor del encabezado de las columnas
  4. Haga clic en Enviar y vuelva a procesar el documento.
    Nota: Debe hacer clic en Enviar para guardar y aplicar esta configuración mientras vuelve a procesar el documento.
    Según la configuración de entrenamiento avanzada especificada, el documento se vuelve a procesar y se envía nuevamente al validador para la validación de los campos, si los hubiere, o los datos se extraen en la carpeta Success como archivo CSV.

Columna principal

Por ejemplo, después de extraer el documento, los datos de la tabla de varias líneas de la columna Número de artículo se extraen en una sola fila, pero usted debe extraerlos en filas separadas. En tales casos, puede establecer el Número de artículo como columna principal para mejorar la extracción de la tabla. Para obtener más detalles, consulte Ejemplo de configuración de la columna principal mediante la configuración de entrenamiento avanzada.

Indicador de fin de tabla

Por ejemplo, cuando procesa un documento, extrae todos los datos de la tabla desde donde desea extraer datos de filas hasta Total pagadero. En tales casos, puede especificar el valor del Indicador de fin de tabla para que se extraigan los datos de la tabla hasta ese valor (a excepción del valor Indicador de fin de tabla) y no se extraigan más datos de fila.

Etiqueta de encabezado

Cuando hay una etiqueta que no coincide en los datos de la tabla, por ejemplo, la etiqueta del encabezado extraída es Precio unitario, pero usted necesita que la etiqueta del encabezado sea Precio. En tales casos, puede cambiar la etiqueta del encabezado.

Otro caso de uso consiste en que puede reasignar todos los valores de Precio unitario o cambiar la etiqueta del encabezado junto con los datos de la columna. Puede usar el llenado automático para agilizar esta reasignación. Por ejemplo, después de la extracción, la columna Precio de la instancia de aprendizaje se extrae como Precio total, pero usted necesita que la etiqueta del encabezado sea Precio unitario junto con los datos de su columna. En tales casos, puede cambiar la etiqueta del encabezado Precio total por Precio unitario y debe seleccionar y reasignar todos los valores de las celdas de la columna Precio unitario.


Cambiar la etiqueta del encabezado para obtener el encabezado requerido junto con los datos de la columna
En el siguiente video, se muestra un ejemplo de cómo configurar el Número de artículo como columna principal y extraer los datos en una fila separada, en lugar de en una sola celda.