Utilisation de l'action Extraire le texte d'un fichier PDF

Extrayez le texte d'un fichier PDF et enregistrez-le dans un fichier texte grâce à l'action Extraire un texte.

Important : Si le fichier PDF ne contient pas les polices correctes, l'action Extraire un texte ne parviendra pas à extraire correctement le texte.
Remarque : Lorsque vous extrayez des champs d'un PDF qui contient 20 champs de formulaire, le temps de traitement peut être de 30 à 40 % plus long que pour les PDF sans champs de formulaire.

Procédure

Pour extraire le texte d'un fichier PDF, procédez comme suit :

  1. Dans la palette Actions, double-cliquez sur l'action Extraire un texte ou faites-la glisser depuis le package PDF.
  2. Dans le chemin PDF, sélectionnez l'une des options suivantes pour spécifier l'emplacement du fichier PDF :
    • Fichier de la Control Room : Vous permet de sélectionner un fichier PDF disponible dans un dossier dans le Control Room.
    • Profil de bureau : Vous permet de sélectionner un fichier PDF disponible sur votre périphérique.
    • Variable : Vous permet de spécifier la variable de fichier qui contient l'emplacement du fichier PDF.
  3. Facultatif : Dans le champ Mot de passe de l'utilisateur ou Mot de passe du propriétaire, saisissez un mot de passe pour restreindre l'accès au fichier PDF chiffré.
    • Mot de passe de l'utilisateur : Autoriser les utilisateurs à effectuer des opérations spécifiques sur le fichier PDF chiffré.
    • Mot de passe du propriétaire : Autoriser les utilisateurs à utiliser un mot de passe pour ouvrir le fichier.
  4. Dans le champ Type de texte, sélectionnez l'une des options suivantes :
    • Texte brut : permet d'extraire le texte et de le copier dans un fichier texte.

      L'opération s'apparente à copier et à coller du texte d'un fichier PDF dans un fichier texte.

    • Texte structuré : permet de préserver la mise en forme originale du texte extrait du fichier PDF.
      Sélectionnez l'option Réduire la perte de données pour vous assurer que le texte complet est extrait avec un chevauchement minimal des caractères. Grâce à cette fonctionnalité, vous réduisez le nombre de caractères chevauchés par d'autres caractères.
      Remarque : Lorsque vous sélectionnez cette option pour extraire du texte, le texte extrait peut contenir des caractères d'espacement supplémentaires.
  5. Dans le champ Intervalle de pages, sélectionnez l'une des options suivantes :
    • Toutes les pages : cette option vous permet d'enregistrer toutes les pages du fichier PDF en tant qu'image.
    • Pages : cette option vous permet de saisir les numéros de page des pages que vous souhaitez enregistrer en tant qu'image.
  6. Dans le champ Exporter les données vers le fichier texte, spécifiez un nom et un emplacement pour le fichier texte.
    Remarque : Vous devez inclure l'extension .txt dans le nom du fichier texte. Par exemple, si le nom du fichier est June_Quarter_report, l'extension .txt est ajoutée pour obtenir June_Quarter_report.txt.
  7. Cochez la case Remplacer les fichiers avec le même nom pour remplacer les fichiers existants avec le même nom.
    Remarque : Si cette option n'est pas sélectionnée et que robot rencontre un fichier portant le même nom à l'emplacement spécifié, le robot échoue.
  8. Facultatif : Dans la liste Attribuer les propriétés PDF à une variable de dictionnaire, sélectionnez une variable de dictionnaire pour contenir les propriétés du fichier.
  9. Cliquez sur Enregistrer.