Community Edition でのドキュメントの処理

サンプル請求書をアップロードして、ラーニングインスタンスのトレーニング、抽出されたデータの検証、検証エラーの修正を行います。

前提条件

  • まだ実行していない場合は、「Community Editionにラーニングインスタンスを作成」を実行してください。
  • 各ファイルが 2MB 以下であることを確認してください。
  • サンプルの請求書が、次のサポートされているドキュメント タイプであることを確認します。
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIF
    • Tiff

サンプルの請求書をラーニングインスタンスにアップロードして、ラーニングインスタンスのデータ抽出機能をテストします。ドキュメントに手動の検証が必要な場合、システムから 検証ツール に送られ、そこで正しいデータを手動で入力する必要があります。

手順

  1. ラーニングインスタンスにドキュメントをアップロードします。
    注: Community Edition は、一度に最大 5 件のドキュメントを処理することができます。別のドキュメントをアップロードするには、ドキュメントが正常に処理 (必要な場合は検証も) されるのを待つ必要があります。
    1. [ドキュメントを処理] をクリックします。
    2. [ドキュメントを処理] ウィンドウで、[参照] をクリックしてアップロードするファイルを選択します。
    3. [データのダウンロード先] フィールドに、抽出したデータが CSV ファイルに出力されるファイル パスを入力します。
    4. [ドキュメントを処理] をクリックします。
      Bot Runner ウィンドウが表示されます。ドキュメントの処理が終了すると、このウィンドウは消えます。ラーニングインスタンス テーブルを更新すると、更新された指標が表示されます。

[ドキュメントを検証] リンクの横に値がある場合、エラーがあるフィールドを手動で検証する必要があります。そうでない場合は、ステップ 2b に進み、抽出されたデータを確認します。

  1. 検証エラーの修正
    1. [ドキュメントを検証] をクリックします。
      Automation Co-Pilot タスク マネージャーが新しいタブで開き、キュー内の最初に失敗したドキュメントが示されます。検証ツールのユーザー インターフェースの概要については、「Document Automationの Automation Co-Pilot タスクマ ネージャー検証ツールを使用する」を参照してください。
    2. 各フィールドを確認し、データ タイプと抽出された値を検証します。
      Document Automationがサポートしているデータ タイプは、テキスト、数字、日付、アドレス、チェックボックスです
      または、右側のパネルのドロップダウン リストから [検証が必要なフィールドを表示] を選択することもできます。
      注: ドキュメントが検証待ちのときに、ラーニングインスタンスを編集した場合は、[再処理] をクリックして、抽出を再試行します。

      ドキュメントの再処理は、アップロードされたドキュメントの指標に影響を与えません。

    3. エラーのあるフィールドを更新します。
      フィールドをクリックするか、抽出する値の周囲にボックスを描きます。
      オートメーション・エニウェア 事前トレーニング済みモデルの場合、ラーニングインスタンスを構成してフィールド内の特定の値を抽出し、他の値を無視できます。詳細については、「検証による抽出精度の向上」を参照してください。
      • エラーを修正せずにドキュメントをスキップするには、[スキップ] をクリックして検証キュー内の次のドキュメントに進みます。
      • 処理できないドキュメントを削除するには、[無効としてマーク] をクリックします。
    4. 必要な修正を行ったら、[送信] をクリックして、ドキュメントが処理を終了できるようにします。
      キューにある次のドキュメントが表示されます。すべてのドキュメントが修正されると、これ以上タスクはないことを示すメッセージが表示されます。
    5. タブを閉じて、[ラーニングインスタンス] ページに戻ります。
  2. 出力結果を確認します。
    1. Success フォルダーで、抽出されたデータを含むファイルを開き、結果を確認して、ユース ケースと一致することを確認します。
      Microsoft のフォームは、GUID_0-MSFormTableResult.json のような JSON 形式で抽出された値 (OCR データ) を返します。抽出されたドキュメント データは <<GUID>>_FileName CSV ファイルに格納されていますが、Success フォルダーにも抽出されたテーブル データが CSV ファイルとして個別に格納されています。ドキュメント内のテーブルの数に応じて、テーブルごとに異なる CSV ファイルを見つけることができます。たとえば、<<GUID_PAGE_NUMBER-Table_FILENAME_PAGENUMBER_TABLENUMBER です。

      個別のテーブル データを使用すると、抽出されたデータを GUID_0-MSFormTableResult.json ファイル内の Microsoft エンジン データと比較できます。

    2. オプション: [ラーニングインスタンス] ダッシュボードを確認します。
      ダッシュボードには、アップロードされたドキュメントの総数と検証待ちのドキュメントの数が表示されます。

次のステップ

おめでとうございます。Community Edition バージョンの Document Automation で最初のドキュメントが正常に処理されました。