PDF からの [テキストの抽出] アクションの使用

[テキストを抽出] アクション を使用して、PDF ファイルからテキストを抽出し、テキスト ファイルとして保存します。

重要:
  • 正しいフォントが PDF ファイルに埋め込まれていない場合、[テキストを抽出] アクション は、テキストを正しく抽出しません。
  • このアクションを使用して、PDF ファイルからテキストを抽出する際に、そのテキストが 1 行のデータであっても PDF ファイルでは同じデータが 2 行になっている場合、そのデータは 2 行で表示される場合があります。
注: 20 個のフォーム フィールドを含む PDF からフィールドを抽出する場合、フォーム フィールドのない PDF に比べて処理時間が 30 ~ 40% 長くなる場合があります。

手順

PDF ファイルからテキストを抽出するには、次の手順を実行します。

  1. アクション パレットで、 PDF パッケージの [テキストを抽出] アクションをダブルクリックまたはドラッグします。
  2. [PDF パス] で、次のいずれかのオプションを選択して PDF の場所を指定します。
    • Control Room ファイル: Control Room のフォルダー内の PDF ファイルを選択できます。
    • デスクトップ プロフィール: デバイスで使用できる PDF ファイルを選択できます。
    • 変数: PDF ファイルの場所を含むファイル変数を指定できます。
  3. オプション: [ユーザー パスワード] フィールドまたは [オーナー パスワード] フィールドにパスワードを入力して、暗号化された PDF ファイルへのアクセスを制限するためのパスワードを入力します。
    • ユーザー パスワード: 暗号化された PDF ファイルに対してユーザーが特定の操作を実行できるようにします。
    • オーナー パスワード: ユーザーはパスワードを使用してファイルを開くことができます。
  4. [テキスト タイプ] フィールドで、以下のいずれかのオプションを選択します。
    • プレーン テキスト: テキストを抽出してテキスト ファイルにコピーします。

      これは、PDF ファイルからテキストをコピーしてテキスト ファイルに貼り付ける操作と似ています。

    • 構造化テキスト: PDF ファイルから抽出されたテキストの元のフォーマットを保持します。
      [データ損失の軽減] オプションを選択すると、文字の重複を最小限に抑えながら完全なテキストを抽出することができます。この機能により、他の文字と重複する文字の数を減らすことができます。
      注: このオプションを選択してテキストを抽出した場合、抽出されたテキストに余分なスペース文字が含まれることがあります。いくつかのアクション ([置換] や [削除] など) を文字列 パッケージから選択し、抽出された PDF ドキュメントのこのような問題を解決できます。
  5. [ページ範囲] フィールドで、以下のいずれかのオプションを選択します。
    • [全ページ]: PDF ファイル内のすべてのページを画像として保存できます。
    • [ページ]: 画像として保存するページのページ番号を入力できます。
  6. [テキスト ファイルにデータをエクスポート] フィールドに、テキスト ファイルの名前と場所を指定します。
    注: テキスト ファイルの名前には、.txt 拡張子を含める必要があります。たとえば、ファイル名が June_Quarter_report の場合は、.txt 拡張子は June_Quarter_report.txt になります。
  7. 指定した場所に同じ名前のファイルが存在する場合に既存のファイルを上書きするには、[同じ名前でファイルを上書き] チェックボックスを選択します。
    注: このオプションが選択されておらず、Bot が指定した場所で同じ名前のファイルを見つけた場合、その Bot は失敗します。
  8. オプション: [ディクショナリ変数に PDF プロパティを代入] リストで、ファイルのプロパティを格納するディクショナリ変数を選択します。
    詳細については、「PDF プロパティでのディクショナリ変数の使用」を参照してください。
  9. [保存] をクリックします。