Verwendung der Aktion „Text extrahieren“ aus PDF

Mit der Aktion Text extrahieren können Sie Text aus einer PDF-Datei extrahieren und als Textdatei speichern.

Wichtig:
  • Wenn die richtigen Schriftarten nicht in die PDF-Datei eingebettet sind, kann der Text durch die Aktion Text extrahieren nicht korrekt extrahiert werden.
  • Wenn Sie diese Aktion verwenden, um Text aus einer PDF-Datei zu extrahieren, und dieser Text aus einer einzigen Zeile besteht, die PDF-Datei aber dieselben Daten in zwei Zeilen enthält, dann erscheinen die Daten möglicherweise in zwei Zeilen.
Anmerkung: Wenn Sie Felder aus einer PDF-Datei extrahieren, die 20 Formularfelder enthält, kann die Verarbeitungszeit 30 bis 40 % länger sein als bei PDF-Dateien ohne Formularfelder.

Prozedur

Gehen Sie wie folgt vor, um Text aus einer PDF-Datei zu extrahieren:

  1. Doppelklicken Sie auf oder ziehen Sie in der Aktionen -Palette die Aktion Text extrahieren im PDF -Paket.
  2. Wählen Sie im Feld PDF-Pfad eine der folgenden Optionen, um den Speicherort der PDF-Datei anzugeben:
    • Control Room-Datei: Dient zur Auswahl einer PDF-Datei, die in einem Ordner in Control Room verfügbar ist.
    • Desktop-Profil: Dient zur Auswahl einer PDF-Datei, die auf Ihrem Gerät verfügbar ist.
    • Variable: Dient zur Angabe der Dateivariablen, die den Speicherort der PDF-Datei enthält.
  3. Optional: Geben Sie in das Feld Nutzerpasswort oder Eigentümerpasswort ein Passwort eingeben ein, um den Zugriff auf die verschlüsselte PDF-Datei zu beschränken.
    • Nutzerpasswort: Erlauben Sie den Nutzern, bestimmte Operationen mit der verschlüsselten PDF-Datei durchzuführen.
    • Eigentümerpasswort: Erlauben Sie den Nutzern, ein Passwort zum Öffnen der Datei zu verwenden.
  4. Wählen Sie im Feld Texttyp eine der folgenden Optionen:
    • Nur Text: Damit können Sie den Text extrahieren und in eine Textdatei kopieren.

      Dies ähnelt dem Kopieren von Text aus einer PDF-Datei und Einfügen in eine Textdatei.

    • Strukturierter Text: Die ursprüngliche Formatierung des aus der PDF-Datei extrahierten Textes bleibt erhalten.
      Mit der Option Datenverlust reduzieren können Sie sicherstellen, dass der gesamte Text mit minimaler Zeichenüberlagerung extrahiert wird. Mit dieser Funktion wird die Anzahl der Zeichen, die von anderen Zeichen überlagert werden, reduziert.
      Anmerkung: Wenn Sie Text mit dieser Option extrahieren, kann der extrahierte Text zusätzliche Leerzeichen enthalten. Sie können einige derAktionen wie Ersetzen oder Trimmen aus derZeichenfolge Paketwählen, um solche Probleme in den extrahierten PDF-Dokumenten zu beheben.
  5. Wählen Sie im Feld Seitenbereich eine der folgenden Optionen:
    • Alle Seiten: Alle Seiten der PDF-Datei werden als Bild gespeichert.
    • Seiten: Hier können Sie die Seitenzahlen der Seiten angeben, die Sie als Bild speichern möchten.
  6. Geben Sie im Feld Daten in Textdatei exportieren einen Namen und einen Speicherort für die Textdatei an.
    Anmerkung: Der Name der Textdatei muss die .txt-Erweiterung enthalten. Wenn der Dateiname zum Beispiel Juni_Quartal_Bericht lautet, ist die .txt-Erweiterung Juni_Quartal_Bericht.txt.
  7. Aktivieren Sie das Kontrollkästchen Dateien mit demselben Namen überschreiben, um vorhandene Dateien mit demselben Namen zu überschreiben.
    Anmerkung: Wenn diese Option nicht ausgewählt ist und der Bot auf eine Datei mit demselben Namen am angegebenen Ort trifft, schlägt der Bot fehl.
  8. Optional: Wählen Sie aus der Liste PDF-Eigenschaften einer Wörterbuchvariablen zuweisen eine Wörterbuchvariable aus, die die Dateieigenschaften enthalten soll.
    Weitere Informationen finden Sie unter Verwenden einer Wörterbuchvariable für PDF-Eigenschaften.
  9. Klicken Sie auf Speichern.