Uso de la acción Extracción de texto de un PDF

Extraiga el texto de un archivo PDF y guárdelo como un archivo de texto utilizando la acción Extraer texto.

Importante:
  • Si las fuentes correctas no están incrustadas en el archivo PDF, la acción Extraer texto no extrae el texto correctamente.
  • Cuando utilice esta acción para extraer texto de un archivo PDF, y si ese texto es un dato de una sola línea pero el archivo PDF tiene los mismos datos en dos líneas, entonces los datos podrían aparecer en dos líneas.
Nota: Cuando se extraen campos de un PDF que contiene 20 campos de formulario, el tiempo de procesamiento puede ser entre un 30 y un 40 % más largo que el de los PDF sin campos de formulario.

Procedimiento

Siga estos pasos para extraer texto de un archivo PDF:

  1. En la paleta Acciones , haga doble clic o arrastre la acción Extraer texto del paquete PDF .
  2. En la ruta de PDF, seleccione una de las siguientes opciones para especificar la ubicación del PDF:
    • Archivo de Control Room: Permite seleccionar un archivo PDF que esté disponible en una carpeta en la Control Room.
    • Perfil de escritorio: Permite seleccionar un archivo PDF que esté disponible en el dispositivo.
    • Variable: Permite especificar la variable de archivo que contiene la ubicación del archivo PDF.
  3. Opcional: En el campo Contraseña del usuario o Contraseña del propietario, escriba una contraseña para restringir el acceso al archivo PDF cifrado.
    • Contraseña del usuario: Permite a los usuarios realizar operaciones específicas en el archivo PDF cifrado.
    • Contraseña del propietario: Permite que los usuarios utilicen una contraseña para abrir el archivo.
  4. En el campo Tipo de texto, seleccione una de las siguientes opciones:
    • Texto sin formato: Extrae el texto y lo copia en un archivo de texto.

      Funciona de manera similar a copiar y pegar el texto de un archivo PDF a un archivo de texto.

    • Texto estructurado: Conserva el formato original del texto extraído del archivo PDF.
      Puede seleccionar la opción Reducir la pérdida de datos para asegurarse de que se extraiga el texto completo con una superposición mínima de caracteres. Con esta funcionalidad, se reduce el número de caracteres superpuestos por otros.
      Nota: Cuando se selecciona esta opción para extraer texto, el texto extraído puede contener caracteres de espacio adicionales. Puede elegir algunos de losacciones como Reemplazar o Recortar de laCadena paquetepara resolver dichos problemas en los documentos PDF extraídos.
  5. En el campo Rango de páginas, seleccione una de las siguientes opciones:
    • Todas las páginas: Le permite guardar todas las páginas del archivo PDF como una imagen.
    • Páginas: Le permite escribir los números de las páginas que desee guardar como imagen.
  6. En el campo Exportar datos a archivo de texto, especifique un nombre para el archivo de texto y la ubicación.
    Nota: Deberá incluir la extensión .txt en el nombre del archivo de texto. Por ejemplo, si el nombre del archivo es June_Quarter_report, la extensión .txt es June_Quarter_report.txt.
  7. Seleccione la casilla de verificación Sobrescribir archivos con el mismo nombre para sobrescribir los archivos existentes con el mismo nombre.
    Nota: Si esta opción no está seleccionada y el bot encuentra un archivo con el mismo nombre en la ubicación especificada, el bot fallará.
  8. Opcional: Desde la lista Asignar propiedades PDF a una variable de diccionario, seleccione una variable de diccionario para conservar las propiedades del archivo.
    Para obtener más información, consulte Usar una variable de diccionario para las propiedades de PDF.
  9. Haga clic en Guardar.