Como usar a ação Extrair texto a partir do PDF

Extraia texto de um arquivo PDF e salve como um arquivo de texto usando a ação Extrair texto.

Importante:
  • Se as fontes corretas não tiverem sido integradas no arquivo PDF, a ação Extrair texto não extrai o texto corretamente.
  • Quando você usa a ação para extrair texto de um arquivo PDF e esse texto for um dado de uma única linha, mas o arquivo PDF tiver os mesmos dados em duas linhas, os dados poderão aparecer em duas linhas.
Nota: Ao extrair campos de um PDF que contém 20 campos de formulário, o tempo de processamento pode ser 30% a 40% maior do que os PDFs sem campos de formulário.

Procedimento

Para extrair texto de um arquivo PDF, siga estas etapas:

  1. Na paleta Ações, clique duas vezes ou arraste a ação Extrair texto do pacote PDF.
  2. No Caminho do PDF, selecione uma das seguintes opções para especificar a localização do PDF:
    • Arquivo de Sala de controle: Permite selecionar um arquivo PDF disponível em uma pasta na Control Room.
    • Perfil da Área de trabalho: Permite selecionar um arquivo PDF disponível em seu dispositivo.
    • Variável: Permite especificar a variável do arquivo que contém a localização do arquivo PDF.
  3. Opcional: No campo Senha do usuário ou Senha do proprietário, digite uma senha para restringir o acesso ao arquivo PDF criptografado.
    • Senha de usuário: Permite que os usuários executem operações específicas no arquivo PDF criptografado.
    • Senha de proprietário: Permite que os usuários usem uma senha para abrir o arquivo.
  4. No campo Tipo de texto, selecione uma das seguintes opções:
    • Texto sem formatação: Extrai o texto e o copia para um arquivo de texto.

      Funciona como a cópia e a colagem de texto de um arquivo PDF para um arquivo de texto.

    • Texto estruturado: Preserve a formatação original do texto extraído do arquivo PDF.
      Você pode selecionar a opção Reduzir a perda de dados para garantir que o texto completo seja extraído com o mínimo de sobreposição de caracteres. Com esta funcionalidade, o número de caracteres sobrepostos por outros caracteres é reduzido.
      Nota: Quando você seleciona essa opção para extrair texto, o texto extraído pode conter caracteres de espaço extra. Você pode escolher algumas das açõescomo Substituir ou Cortar a partir da String pacote para resolver esses problemas nos documentos PDF extraídos.
  5. No campo Intervalo de páginas, selecione uma das seguintes opções:
    • Todas as páginas: Permite salvar todas as páginas no arquivo PDF como imagem.
    • Páginas: Permite inserir os números das páginas que você deseja salvar como imagem.
  6. No campo Exportar dados para arquivo de texto, especifique um nome e local para o arquivo de texto.
    Nota: Você pode incluir a extensão .txt no nome do arquivo de texto. Por exemplo, se o nome do arquivo for Relatório_trimestre_junho, a extensão.txt será Relatório_trimestre_junho.txt.
  7. Marque a caixa de seleção Substituir arquivos com o mesmo nome para substituir arquivos existentes com o mesmo nome.
    Nota: Se essa opção não for selecionada e o bot encontrar um arquivo com o mesmo nome no local especificado, o bot falhará.
  8. Opcional: Na lista Atribuir propriedades de PDF a uma variável de dicionário, selecione uma variável de dicionário para manter as propriedades do arquivo.
  9. Clique em Salvar.