action Extração de dados estruturados

Utilize a nova action Extração de dados estruturados para capturar blocos de dados estruturados de aplicativos da Web desenvolvidas com tecnologia HTML. Durante a execução, o Recorder identifica objetos semelhantes ao selecionado e os organiza em linhas, enquanto seus elementos filhos são mapeados como colunas.

Nota: Essa action está disponível apenas na plataforma Windows para criar automações.

Pré-requisitos

Certifique-se de usar a extensão do navegador (versão 4.1.0.0 ou mais recente).

Parâmetros da Ação

  • Clique duas vezes ou arraste Gravador > Extração de dados estruturados.
  • Especifique a janela na qual é preciso capturar um objeto. Escolha a guia Aplicação, Navegador ou Variável.
    • Aplicativo: Selecione a partir de uma lista de janelas atualmente ativas. Essa opção mostra uma lista de todas as janelas de aplicativo e do navegador que estão abertas no dispositivo Bot Creator.
    • Navegador: Selecione a partir de uma lista de guias de navegadores compatíveis, como Google Chrome e Microsoft Edge baseado em Chromium.
    • Variável: Selecione uma variável de janela existente para especificar o título do título da janela do aplicativo.
  • Especifique a janela na qual é preciso capturar um objeto.
  • Clique em Capturar objeto.

    A janela selecionada será exibida.

  • Mova o mouse sobre o objeto especificado que possui outros elementos semelhantes.

    Um realce vermelho aparece ao redor do objeto.

    Caixa retangular ao redor do objeto capturado

  • Clique no objeto para capturar.
  • Reveja a tabela Propriedades do objeto.
    Importante: Recomendamos que você desmarque propriedades como HTML ID, Caminho e quaisquer outras propriedades que possam variar a cada página. Em vez disso, inclua propriedades como DOMXPath e seletor CSS.
  • No Tipo de extração de dados, selecione Sistema ou Personalizado.
    • Sistema: Esse modo detecta e extrai automaticamente padrões de dados repetitivos da seção selecionada da página da Web. Ele identifica campos comuns, como texto, imagens e hiperlinks, e os estrutura em colunas. Esse modo é ideal quando você deseja extrair rapidamente layouts de dados padrão, como listas de produtos ou tabelas, sem configurar cada coluna manualmente.
    • Personalizar: O modo personalizado é mais adequado para layouts de página complexos ou não padronizados que exigem maior precisão. Ele é especialmente útil quando o elemento capturado contém muitos elementos secundários, mas você precisa extrair apenas alguns selecionados. Além disso, o modo personalizado garante que os dados extraídos permaneçam em um número fixo e predefinido de colunas.
      Selecione Executar extração personalizada para extrair todos os pontos de dados do objeto capturado, incluindo o DOMXPath e seu valor de exemplo. Em seguida, você pode configurar ou refinar manualmente os dados extraídos, editar expressões XPath, renomear colunas e adicionar, remover ou reorganizar elementos conforme necessário. O modo personalizado é ideal para layouts de página complexos ou não padronizados, nos quais é necessária maior precisão.
      Importante: Usar uma variável na guia Aplicativo pode causar um erro ao executar a extração personalizada. Recomendamos que você selecione a janela específica no menu suspenso da guia Aplicativo e execute a extração personalizada sem salvar o bot.
  • No campo Definir tempo limite do sistema, selecione Básico ou Avançado.
    • Básico: No campo Aguardar resposta do sistema (em segundos), especifique quantos segundos o bot deve esperar para que o controle do objeto apareça na janela do aplicativo. Esse tempo de espera inclui o tempo de espera para carregamento da página e pesquisa de objeto.
      Nota: O tempo limite especificado para o bot esperar que o controle apareça na janela do aplicativo se aplica somente se a janela na qual o controle está presente existir. O Recorder primeiro procura a janela do aplicativo e só depois procura o objeto dentro dessa janela. O tempo padrão para pesquisar a janela é de 30 segundos. Portanto, mesmo se você especificar o tempo de espera como 5 segundos, ele ainda aguardará 30 segundos por padrão se a janela não existir.

      Recomendamos que você utilize primeiro a condição If > A janela existe, especifique um tempo de espera de zero segundo e garanta que a janela do aplicativo exista. Se a janela existir, então usar o Recorder, especificar um tempo de espera de 5 segundos e executar o bot para detectar o objecto.

    • Avançado: Use esta opção para automatizar sites que carregam e atualizam constantemente com os dados mais recentes, como um site do mercado de ações. Tecnicamente, esses sites nunca são carregados de forma completa na tela. Nesses casos, o bot não precisa esperar que a página da web seja totalmente carregada e pode passar direto para a automatização dessa página após um determinado tempo.

      No campo Aguardar resposta do navegador (em segundos), especifique quantos segundos o bot deve esperar o navegador carregar. Selecione uma das opções abaixo:

      • Pare o bot e exiba uma mensagem de erro: Se a página da Web não tiver carregado completamente dentro do tempo limite especificado, selecione esta opção para interromper o bot e exibir uma mensagem de erro.
      • Pule e vá para o objeto: Selecione esta opção para ir direto para o objeto e capturá-lo mesmo que a página da Web não tenha carregado completamente.

      No campo Aguardar resposta do objeto (em segundos), especifique quantos segundos o bot deve esperar para que o controle do objeto apareça na janela do aplicativo.

    • A página possui carregamento lento Selecione essa opção para páginas em que os dados são carregados dinamicamente e continuam a ser carregados automaticamente. Por exemplo, os itens são carregados na página à medida que você rola.
      • Tentativas de repetição: insira o número de tentativas de repetição de que você precisa para verificar os novos dados.
      • Tempo de espera entre as tentativas: digite o número de segundos que você deseja que a automação aguarde entre as tentativas de repetição.
  • No campo Salvar o resultado em uma variável, crie uma variável do tipo Tabela de dados para armazenar a saída.

    Os dados extraídos são armazenados em uma tabela de dados, onde objetos semelhantes são organizados como linhas e seus elementos secundários são representados como colunas.

Comportamento conhecido do produto

  • Somente o conteúdo textual será extraído durante a extração. Tags como img, input, select, button, script e style serão ignoradas durante a extração.
  • Ao usar a ação Tabela de dados > Gravar no arquivo para salvar os dados gerados pela ação extração de dados estruturados em um arquivo CSV, certifique-se de selecionar UTF-8 como a codificação.
  • Elementos semelhantes dentro do shadow dom não são compatíveis.
  • O sistema não conseguirá encontrar objetos se o objeto capturado original não estiver disponível.
  • A gravação segura atualmente não é compatível.

Casos de uso

Abaixo estão alguns sites onde você pode testar a extração de dados estruturados: