action Extracción de datos estructurados

Aproveche la nueva action Extracción de datos estructurados para capturar bloques de datos estructurados de aplicaciones web desarrolladas con tecnología HTML. Durante el tiempo de ejecución, la Recorder identifica objetos similares al seleccionado y los organiza en filas, mientras que sus elementos secundarios se asignan como columnas.

Nota: Esta action solo está disponible en la plataforma Windows para crear automatizaciones.

Requisitos previos

Asegúrese de usar la extensión del navegador (versión 4.1.0.0 o posterior).

Parámetros de la Acción

  • Haga doble clic en Grabadora > Extracción de datos estructurados o arrastre la opción.
  • Especifique la ventana en la que se va a capturar un objeto. Elija entre la pestaña Aplicación, Navegador o Variable.
    • Aplicación: Seleccione de una lista de ventanas actualmente activas. Esta opción muestra una lista de todas las ventanas de aplicaciones y navegadores que están abiertas en el dispositivo de Bot Creator.
    • Navegador: Seleccione de una lista de pestañas de navegadores compatibles, como Google Chrome y navegadores Microsoft Edge basados en Chromium.
    • Variable: Seleccione una variable de ventana existente para especificar el título de la ventana de la aplicación.
  • Especifique la ventana en la que se va a capturar un objeto.
  • Haga clic en Capturar objeto.

    Aparece la ventana seleccionada.

  • Mueva el mouse sobre el objeto especificado que tiene otros elementos similares.

    Aparecerá una casilla rectangular roja alrededor del objeto.

    Caja rectangular alrededor del objeto capturado

  • Haga clic en el objeto para capturarlo.
  • Revisar las tablas Propiedades de los objetos.
    Importante: Le recomendamos que deseleccione propiedades como ID HTML, Ruta y cualquier otra propiedad que pueda cambiar en cada página. Incluya propiedades como DOMXPath y selector CSS en su lugar.
  • En el Tipo de extracción de datos, seleccione Sistema o Personalizado.
    • Sistema: Este modo detecta y extrae automáticamente patrones de datos repetitivos de la sección seleccionada de la página web. Identifica campos comunes, como texto, imágenes e hipervínculos, y los estructura en columnas. Este modo es ideal cuando desea extraer rápidamente diseños de datos estándar, como listas de productos o tablas, sin configurar manualmente cada columna.
    • Personalizado: El modo personalizado es más adecuado para diseños de página complejos o no estándar que requieren mayor precisión. Es especialmente útil cuando el elemento capturado contiene muchos elementos secundarios, pero necesita extraer solo unos pocos seleccionados. Además, el modo personalizado garantiza que los datos extraídos permanezcan en un número fijo y predefinido de columnas.
      Seleccione Ejecutar extracción personalizada para extraer todos los puntos de datos del objeto capturado, incluido el DOMXPath y su valor de ejemplo. Luego puede configurar o refinar manualmente los datos extraídos, editar las expresiones XPath, renombrar columnas y agregar, eliminar o reorganizar elementos según sea necesario. El modo personalizado es ideal para diseños de página complejos o no estándar donde se requiere mayor precisión.
      Importante: Usar una variable en la pestaña Aplicación podría causar un error al ejecutar la extracción personalizada. Recomendamos que seleccione la ventana específica desde el menú desplegable en la pestaña Aplicación y ejecute la extracción personalizada sin guardar el bot.
  • En el campo Establecer tiempo de espera del sistema, seleccione Básico o Avanzado.
    • Básico: En el campo Esperar respuesta del sistema (segundos), especifique el tiempo en segundos que el bot debe esperar para que aparezca el control del objeto en la ventana de la aplicación. Este tiempo de espera incluye el tiempo de espera tanto para la carga de la página como para la búsqueda de objetos.
      Nota: El tiempo de espera especificado para que el bot espere a que el control aparezca en la ventana de la aplicación solo se aplica si existe la ventana en la que se encuentra el control. El Recorder primero busca la ventana de la aplicación y solo después busca el objeto dentro de esa ventana. El tiempo de búsqueda por defecto de la ventana es de 30 segundos. Por lo tanto, aunque se especifique un tiempo de espera de 5 segundos, seguirá esperando 30 segundos por defecto si la ventana no existe.

      Se recomienda utilizar primero la condición Si > Ventana existe, especificar un tiempo de espera de cero segundos y asegurarse de que la ventana de la aplicación exista. Si la ventana existe entonces utilice el Recorder, especifique un tiempo de espera de 5 segundos, y ejecute el bot para detectar el objeto.

    • Avanzado: Utilice esta opción para automatizar sitios web que se cargan y actualizan constantemente con los datos más recientes, como un sitio web de acciones. Técnicamente, estos sitios web nunca se cargan completamente en la pantalla. En tales casos, el bot no necesita esperar a que la página web se cargue por completo y puede proceder de manera directa a automatizar la página web después de un tiempo determinado.

      En el campo Esperar respuesta del navegador (segundos), especifique el tiempo en segundos que el bot debe esperar para que se cargue el navegador. Seleccione una de las siguientes opciones:

      • Detener el bot y mostrar un mensaje de error: Si la página web no se carga completamente dentro del tiempo de espera especificado, seleccione esta opción para detener el bot y mostrar un mensaje de error.
      • Omitir y continuar con el objeto: Seleccione esta opción para continuar directamente con el objeto y capturarlo incluso si la página web no se cargó por completo.

      En el campo Esperar respuesta del objeto (segundos), especifique el tiempo en segundos que el bot debe esperar para que aparezca el control del objeto en la ventana de la aplicación.

    • La página tiene carga diferida: Seleccione esta opción para páginas donde los datos se cargan de manera dinámica y continúan cargándose automáticamente. Por ejemplo, los elementos se cargan en la página a medida que se desplaza.
      • Cantidad de reintentos: Ingrese la cantidad de reintentos que necesita para verificar los nuevos datos.
      • Tiempo de espera entre reintentos: Ingrese la cantidad de segundos que desea que la automatización espere entre reintentos.
  • En el campo Guardar el resultado en una variable, cree una variable de Tabla de datos para almacenar el resultado.

    Los datos extraídos se almacenan en una tabla de datos, donde objetos similares se organizan como filas y sus elementos secundarios se representan como columnas.

Comportamiento conocido del producto

  • Solo se extraerá el contenido textual durante la extracción. Las etiquetas como img, entrada, seleccionar, botón, script y estilo se omitirán durante la extracción.
  • Cuando utilice la acción Tabla de datos > Escribir en archivo para guardar los datos generados por la acción Extracción de datos estructurados en un archivo CSV, asegúrese de seleccionar UTF-8 como la codificación.
  • Los elementos similares dentro del shadow dom no son compatibles.
  • El sistema no puede encontrar los objetos si el objeto capturado original no está disponible.
  • Actualmente no se admite el registro seguro.

Casos de uso

A continuación, se muestran algunos sitios web donde puede probar la extracción de datos estructurados: