[テキストを抽出] アクション の使用
[テキストを抽出] アクション を使用して、PDF ファイルからテキストを抽出し、テキスト ファイルとして保存します。
重要: 正しいフォントが PDF ファイルに埋め込まれていない場合、[テキストを抽出] アクション は、テキストを正しく抽出しません。
手順
PDF ファイルからテキストを抽出するには、次の手順を実行します。
- アクション パレットで、PDF パッケージ の [テキストを抽出] アクション をダブルクリックまたはドラッグします。
-
[PDF パス] で、以下のオプションの 1 つを選択して PDF の場所を指定します。
- Control Room ファイル: Control Room のフォルダー内の PDF ファイルを選択できます。
- デスクトップ プロフィール: デバイスで使用できる PDF ファイルを選択できます。
- 変数: PDF ファイルの場所を含むファイル変数を指定できます。
- オプション:
[ユーザー パスワード] または [オーナー パスワード] フィールドにパスワードを入力して、暗号化された PDF ファイルへのアクセスを制限します。
- ユーザー パスワード: 暗号化された PDF ファイルでユーザーが特定の操作を実行できるようにします。
- オーナー パスワード: ユーザーはパスワードを使用してファイルを開くことができます。
-
[テキスト タイプ] フィールドで、以下のいずれかのオプションを選択します。
- テキスト: テキストを抽出してテキスト ファイルにコピーします。
これは、PDF ファイルからテキストをコピーしてテキスト ファイルに貼り付ける操作と似ています。
- 構造化テキスト: PDF ファイルから抽出されたテキストの元のフォーマットを保持します。[データ損失の軽減] オプションを選択すると、文字の重複を最小限に抑えながら完全なテキストを抽出することができます。この機能により、他の文字と重複する文字の数を減らすことができます。注: このオプションを選択してテキストを抽出した場合、抽出されたテキストに余分なスペース文字が含まれることがあります。
- テキスト: テキストを抽出してテキスト ファイルにコピーします。
-
[ページ範囲] フィールドで、以下のいずれかのオプションを選択します。
- [全ページ]: PDF ファイル内のすべてのページを画像として保存できます。
- [ページ]: 画像として保存するページのページ番号を入力できます。
-
[テキスト ファイルにデータをエクスポート] フィールドに、テキスト ファイルの名前と場所を指定します。
注: テキスト ファイルの名前には、.txt 拡張子を含める必要があります。たとえば、ファイル名が June_Quarter_report の場合は、.txt 拡張子は June_Quarter_report.txt になります。
-
指定した場所に同じ名前のファイルが存在する場合に既存のファイルを上書きするには、[同じ名前でファイルを上書き] チェック ボックスを選択します。
注: このオプションが選択されておらず、指定した場所で Bot に同じ名前のファイルが発生した場合、Bot は失敗します。
- オプション:
[ディクショナリ変数に PDF プロパティを代入] リストで、プロパティを格納するディクショナリ変数を選択します。
詳細については、「PDF プロパティのディクショナリ変数の使用」をご覧ください。
- [保存] をクリックします。