Document Automation でのドキュメントの処理

PDF としてダウンロード

最終更新日2024/12/09

Document Automation でのドキュメントの処理

サンプル請求書をアップロードして、ラーニングインスタンスのテスト、抽出されたデータの検証、検証エラーの修正を行います。

前提条件

まだ実行していない場合は、Document Automationにラーニングインスタンスを作成を実行してください。
デバイスが Control Room に接続されていることを確認します。Bot エージェントをインストールして Windows デバイスを登録する
ラーニングインスタンスがGoogle Document AIモデルを使用していてGoogle Document AIを通じてAutomation Anywhere ライセンスを購入していない場合は、Google Document AI認証情報を抽出Botに提供する必要があります。「Google Document AI のキーの構成」を参照してください。
ラーニングインスタンスが Automation Anywhere モデルを使用する場合、各ファイルが 50MB 以下であることを確認します。
ラーニングインスタンスが Google Document AI モデルを使用する場合、各ファイルが 20MB 以下、5 ページ以下であることを確認します。
サンプルドキュメントが、次のサポートされているドキュメントタイプのいずれかであることを確認します。
- PDF
- JPG
- JPEG
- PNG
- TIF
- Tiff
抽出されたデータのデフォルトの出力形式は CSV ファイルです。出力を JSON に変更するには、「CSV から JSON への出力形式の変更」を参照してください。

以下のステップでサンプル請求書をラーニングインスタンスにアップロードし、ラーニングインスタンスのデータ抽出機能をテストします。

手順

ドキュメントをアップロードして、ラーニングインスタンスをテストします。
これらの手順については、次のビデオをご覧ください。
<span>ドキュメントを処理</span>
1. [ドキュメントを処理] をクリックします。
2. [ドキュメントを処理] ウィンドウで、[参照] をクリックしてアップロードするファイルを選択します。
  
  注: ファイル名が149文字を超えるドキュメントは、処理中にエラーが表示されます。ファイル名が150文字の制限内に収まるようにしてください。
3. [データのダウンロード先] フィールドに、抽出されたデータを保持するファイルパスを入力します。
  プロセスが実行されると、指定されたファイルパスに以下の 3 つのフォルダーが作成されます。
  - 成功: 抽出されたデータが、指定された形式 (CSV または JSON) で保存されます。
  - 無効: 無効とマークされたドキュメントが保持されます。
  - 失敗: 処理できなかったドキュメントが保持されます。
  以下のいずれかのオプションに基づいて、出力フォルダーパスを指定することができます。
  - オプション 1: ドキュメント処理と検証を同じデバイスに設定している場合 - ローカルデバイスのパス。
    このオプションは、通常、ラーニングインスタンスをテストするときに使用します。
  - オプション 2 異なるデバイスに検証を分散させる設定をしている場合 - 共有フォルダーのパス。
    このオプションは、通常、公開したラーニングインスタンスで使用します。たとえば、\\10.239.192.60\Sharepath\Output と入力します。
4. [ドキュメントを処理] をクリックします。
  Bot Runner ウィンドウが表示されます。ドキュメントの処理が終了すると、このウィンドウは消えます。ラーニングインスタンステーブルを更新すると、更新された指標が表示されます。

[ドキュメントを検証] リンクの横に値がある場合、ドキュメントフィールドを手動で検証する必要があります。それ以外の場合は、ステップ 3 に進みます。

検証エラーを修正する
1. [ドキュメントを検証] をクリックします。
  Automation Co-Pilot タスクマネージャーが新しいタブで開き、キュー内の最初に失敗したドキュメントが示されます。検証ツールのユーザーインターフェースの概要については、「Automation Co-Pilot 検証ツールによるドキュメントの検証」を参照してください。
2. 各フィールドを確認し、データタイプと抽出された値を検証します。
  Document Automationがサポートしているデータタイプは、テキスト、数字、日付、アドレス、チェックボックスです。
  
  または、右側のパネルのドロップダウンリストから [検証が必要なフィールドを表示] を選択することもできます。
  
  注: ドキュメントが検証待ちのときに、ラーニングインスタンスを編集した場合は、再処理をクリックして、抽出を再試行します。
  ドキュメントの再処理は、アップロードされたドキュメントの指標に影響を与えません。
3. エラーのあるフィールドを更新します。
  フィールドをクリックするか、抽出する値の周囲にボックスを描きます。
  
  Automation Anywhere 事前トレーニング済みモデルの場合、ラーニングインスタンスを構成してフィールド内の特定の値を抽出し、他の値を無視できます。詳細については、「検証フィードバックを使用して、テーブルに特定の値を抽出する」をご覧ください。
  
  <span>検証</span>
  - エラーを修正せずにドキュメントをスキップするには、[スキップ] をクリックして検証キュー内の次のドキュメントに進みます。
  - 処理できないドキュメントを削除するには、[無効としてマーク] をクリックします。
4. 必要な修正を行ったら、[送信] をクリックして、ドキュメントが処理を終了できるようにします。
  キューにある次のドキュメントが表示されます。すべてのドキュメントが修正されると、これ以上タスクはないことを示すメッセージが表示されます。
5. タブを閉じて、ラーニングインスタンスページに戻ります。
出力結果を確認します。
1. Success フォルダーで、抽出されたデータを含むファイルを開き、結果を確認して、事例と一致することを確認します。
  Microsoft のフォームは、GUID_0-MSFormTableResult.json のような JSON 形式で抽出された値 (OCR データ) を返します。抽出されたドキュメントデータは <<GUID>>_FileName CSV ファイルに格納されていますが、Success フォルダーにも抽出されたテーブルデータが CSV ファイルとして個別に格納されています。ドキュメント内のテーブルの数に応じて、テーブルごとに異なる CSV ファイルを見つけることができます。たとえば、<<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER です。
  個別のテーブルデータを使用すると、抽出されたデータを GUID_0-MSFormTableResult.json ファイル内の Microsoft エンジンデータと比較できます。
2. オプション: [ ラーニングインスタンス] ダッシュボードを確認します。
  ダッシュボードには、アップロードされたドキュメントの総数と検証待ちのドキュメントの数が表示されます。

ラーニングインスタンスが再三にわたりフィールドを見つけられない場合や、文字が正しく認識されない場合（文字「l」が数字「1」として抽出されるなど）、OCR を Google Vision OCR に変更してみてください。

次のステップ

ソースフォルダーからラーニングインスタンスにドキュメントをアップロードする Bot をビルドします。次に、ラーニングインスタンスアセット (プロセス、フォーム、Bot) を公開リポジトリに公開し、ラーニングインスタンスを公開モードで使用して実際のドキュメントからデータを抽出し、検証ツールがドキュメントを手動で検証することができるようにします (ラーニングインスタンスを本番環境に公開する)。