Automation 360

PDF からの [テキストの抽出] アクションの使用

PDF としてダウンロード

コンテンツ

PDF からの [テキストの抽出] アクションの使用

PDF としてダウンロード

最終更新日2022/12/08

[テキストを抽出] アクションを使用して、PDF ファイルからテキストを抽出し、テキストファイルとして保存します。

重要:

正しいフォントが PDF ファイルに埋め込まれていない場合、[テキストを抽出] アクションは、テキストを正しく抽出しません。
このアクションを使用して、PDF ファイルからテキストを抽出する際に、そのテキストが 1 行のデータであっても PDF ファイルでは同じデータが 2 行になっている場合、そのデータは 2 行で表示される場合があります。

注: 20 個のフォームフィールドを含む PDF からフィールドを抽出する場合、フォームフィールドのない PDF に比べて処理時間が 30 ～ 40% 長くなる場合があります。

手順

PDF ファイルからテキストを抽出するには、次の手順を実行します。

アクション パレットで、 PDF パッケージの [テキストを抽出] アクションをダブルクリックまたはドラッグします。
[PDF パス] で、次のいずれかのオプションを選択して PDF の場所を指定します。
- Control Room ファイル: Control Room のフォルダー内の PDF ファイルを選択できます。
- デスクトッププロフィール: デバイスで使用できる PDF ファイルを選択できます。
- 変数: PDF ファイルの場所を含むファイル変数を指定できます。
オプション: [ユーザーパスワード] フィールドまたは [オーナーパスワード] フィールドにパスワードを入力して、暗号化された PDF ファイルへのアクセスを制限するためのパスワードを入力します。
- ユーザーパスワード: 暗号化された PDF ファイルに対してユーザーが特定の操作を実行できるようにします。
- オーナーパスワード: ユーザーはパスワードを使用してファイルを開くことができます。
[テキストタイプ] フィールドで、以下のいずれかのオプションを選択します。
- プレーンテキスト: テキストを抽出してテキストファイルにコピーします。
  これは、PDF ファイルからテキストをコピーしてテキストファイルに貼り付ける操作と似ています。
- 構造化テキスト: PDF ファイルから抽出されたテキストの元のフォーマットを保持します。
  [データ損失の軽減] オプションを選択すると、文字の重複を最小限に抑えながら完全なテキストを抽出することができます。この機能により、他の文字と重複する文字の数を減らすことができます。
  注: このオプションを選択してテキストを抽出した場合、抽出されたテキストに余分なスペース文字が含まれることがあります。いくつかのアクション ([置換] や [削除] など) を文字列パッケージから選択し、抽出された PDF ドキュメントのこのような問題を解決できます。
[ページ範囲] フィールドで、以下のいずれかのオプションを選択します。
- [全ページ]: PDF ファイル内のすべてのページを画像として保存できます。
- [ページ]: 画像として保存するページのページ番号を入力できます。
[テキストファイルにデータをエクスポート] フィールドに、テキストファイルの名前と場所を指定します。

注: テキストファイルの名前には、.txt 拡張子を含める必要があります。たとえば、ファイル名が June_Quarter_report の場合は、.txt 拡張子は June_Quarter_report.txt になります。
指定した場所に同じ名前のファイルが存在する場合に既存のファイルを上書きするには、[同じ名前でファイルを上書き] チェックボックスを選択します。

注: このオプションが選択されておらず、Bot が指定した場所で同じ名前のファイルを見つけた場合、その Bot は失敗します。
オプション: [ディクショナリ変数に PDF プロパティを代入] リストで、ファイルのプロパティを格納するディクショナリ変数を選択します。
詳細については、「PDF プロパティでのディクショナリ変数の使用」を参照してください。
[保存] をクリックします。