Document Automationにラーニングインスタンスを作成

サポートされているさまざまなドキュメント タイプからデータを抽出するためのラーニングインスタンスを作成することで、ドキュメントの処理を開始します。ラーニングインスタンスは、ドキュメント タイプ、言語、抽出するフィールドなどの情報を保持する構造です。

前提条件

  • ラーニングインスタンスを作成するには、Learning instance creator ユーザーでなければなりません。「Document Automation 人のユーザー」を参照してください。
  • OCR をサポートするドキュメント タイプの場合、デフォルトの OCR は ABBYY FineReader エンジン です。または、Google Vision OCR を使用してドキュメントを処理するラーニングインスタンスを作成できます。
  • 標準フォーム ドキュメント タイプの場合は、カスタム抽出モデルを作成したことを確認してください。「Document Automationでの Standard Forms の作成」を参照してください。

ラーニングインスタンスを作成するための完全なエンドツーエンド プロセスについては、このビデオをご覧ください。

手順

  1. Control Room ホームページから、[マネージ] > [ラーニングインスタンス] > [ラーニングインスタンスの作成] に移動します。
  2. ラーニングインスタンスの名前と説明を入力します。
    Document Automation では、重複したラーニングインスタンス名を使用できないため、一意の名前を指定する必要があります。
  3. 適切なドキュメント タイプを選択します。
    注: ユーザー定義のドキュメント タイプを使用して、請求書と外観が似ていて、発注書や受注書などのキー値ペアとテーブル構造を含むドキュメントを処理します。このドキュメント タイプでは、すべてのフォームとテーブルのフィールドを作成し、設定します。
  4. 言語を選択します。
    Document Automationでサポートされている言語の詳細については、「Document Automationでサポートされている言語」を参照してください。

    ステップ 3 でパーサーを構成する際に使用するドキュメント タイプを選択すると、パーサーの構成時に選択した言語が自動的に選択されます。さらに、ロケール リストには、自動選択された言語に基づいた言語オプションが表示されます。

  5. プロバイダーを選択します。
    ステップ 4 で英語を選択した場合、Automation Anywhere (トレーニング済み) が自動で選択されます。

    ステップ 3 でパーサーを設定する際に使用するドキュメント タイプを選択すると、構成した (サードパーティの) パーサーがプロバイダーとして自動的に選択されます。

  6. オプション: OCR プロバイダーを選択します。デフォルトでは、Document AutomationABBYY FineReader エンジン でドキュメントを処理します。
    Cloud Control Room を使用しているユーザーは、Google Vision OCR でドキュメントを処理するように選択できます。
  7. オプション: [検証を使用して精度を改善] オプションを使用すると、抽出結果を改善するためにフィードバックをシステムに送信することができます。詳細については、「検証による抽出精度の向上」を参照してください。
    注: [検証を使用して精度を改善] オプションは、選択したドキュメント タイプでのみ使用できます。
  8. オプション: generative AI 機能を使用して抽出するには、[生成 AI によるデータ抽出] オプションを選択します。詳細については、「Document Automation - generative AI を使用したデータ抽出」を参照してください。
    次のいずれかの generative AI プロバイダーを選択します。
    注:
    • [生成 AI によるデータ抽出] オプションは、選択したドキュメント タイプでのみ使用できます。一部のドキュメント タイプでは、[生成 AI によるデータ抽出] オプションはデフォルトで有効になっており、無効にすることはできません。このようなドキュメント タイプに対してのみ generative AI プロバイダーを選択できます。
    • 以前のリリースから v.33 以降に更新すると、Open AI がデフォルトのデータ抽出プロバイダーとして設定されます。
    • ラーニングインスタンスでデータ抽出プロバイダーとして Anthropic を選択し、対応する抽出 bot で必要な Anthropic 設定を構成していない場合、ドキュメントを処理する際にエラーが表示されます。
    • ラーニングインスタンスに Anthropic プロバイダーを選択し、Anthropic 設定を誤って構成した場合、または対応する抽出 bot で異なるプロバイダーを選択した場合、ドキュメントを処理する際にエラーが表示されます。
    • Open AI を使用してドキュメントを処理した後、Anthropic に切り替えてデータを抽出する場合、Anthropic への切り替え後に処理されるドキュメントのみが、データ抽出に Anthropic を使用します。以前に処理されたドキュメントについては、抽出されたデータは Open AI を使用します。
    • Open AI: Azure OpenAI は、コンテンツ生成、要約、画像理解、意味検索、自然言語からコードへの翻訳を実行する Open AI の強力な言語モデルにアクセスできます。このプロバイダーは、組み込みライセンス (追加ライセンスを必要としない) および BYOL (Bring Your Own License) で利用可能です。BYOL を使用している場合、抽出 bot で Open AI 用の追加設定を構成して、このプロバイダーを使用するようにしてください。「[データの抽出] action」を参照してください。
    • Anthropic: AWSや GCP で利用可能な Anthropic generative AI モデルを、Document Automationでのデータ抽出に使用できるようになりました。このオファリングにより、御社が認定したCloud プロバイダーに応じて、generative AI モデルを柔軟に選択することができます。

      Anthropic は、以下のメリットを提供します。

      • 大規模な非構造化ドキュメントを効率的に処理する
      • 英語と他の言語の両方のドキュメントを処理できる
      • データ抽出の精度が向上し、ドキュメントの処理が高速化する

      BYOL を使用している場合、このプロバイダーを使用するには、Google Vertex AI または Amazon Bedrock サービスで Anthropic Claude モデルを構成し、抽出 bot で追加設定を構成する必要があります。「[データの抽出] action」を参照してください。

    Document Automationでのラーニングインスタンスの作成
  9. [次へ] をクリックします。

フォームおよびテーブル フィールドを構成するときは、サンプル ドキュメントを Control Room ウィンドウと並べて開くことをお勧めします。

注:
  • フォーム フィールドは、ドキュメントに 1 回だけ出現するフィールドのタイプです。
  • テーブル フィールドとは、ドキュメント中に繰り返し出現するフィールドのタイプで、通常はテーブルの形で出現します。

  1. 抽出するフォーム フィールドとテーブル フィールドを構成します。詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
    1. フィールドをクリックすると、フィールド エディターが開きます。詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
    2. フィールドの右側にあるメニュー アイコンにマウス カーソルを合わせて、上下矢印を表示します。
    3. 矢印を使用してフィールドの順序を並べ替えて、より効率的に手動検証を行うことができます。
      フィールドの順序は抽出に影響しません。
    他のフィールド属性については、「Considerations when creating learning instance in Document Automation」を参照してください。
  2. [フィールドの追加] をクリックし、フィールド名、フィールド ラベル、信頼度、データ タイプ、日付/数値のフォーマットなどのフィールドの詳細を指定します。詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
    次の画像は、ラーニングインスタンスに設定されたフォームとテーブル フィールドを示しています。
    ラーニングインスタンスのフォーム フィールド

    ラーニングインスタンスのテーブル フィールドとラーニングインスタンス レベルでのカスタム テーブルの追加
    注: [フィールドを追加] オプションは、[領収書] ドキュメント タイプでは使用できません。
  3. オプション: [テーブル フィールド] タブで、[+] アイコンをクリックして、ラーニングインスタンス レベルでカスタム テーブルを追加します。
    1. テーブルの名前を入力し、[追加] をクリックします。
    2. [フィールドの追加] をクリックし、フィールド名、フィールド ラベル、信頼度、データ タイプ、日付/数値のフォーマットなどのフィールドの詳細を指定します。詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
      注: また、ラーニングインスタンスの編集中にカスタム テーブルを追加および削除することもできます。
    カスタム テーブルは [テーブル] ドロップダウン リストに表示されます。
    ラーニングインスタンス レベルで作成され、ドロップダウン リストに表示されるテーブル

    また、[ドキュメント ルール] タブでカスタム テーブルとデフォルト テーブルのフィールドを表示することもできますが、すべての異なるテーブルにわたりフィールドを選択することはできません。複数のテーブル サポートの詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。

  4. [作成] をクリックします。
新しいラーニングインスタンスが作成されると、[オートメーション] > [Document Workspace Processes] フォルダー内のラーニングインスタンスと同じ名前のフォルダーが、Control Room によって作成されます。このフォルダーには、2 つの bots (抽出とダウンロード)、プロセス、フォームが含まれています。詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。

次のステップ

ドキュメントをラーニングインスタンスにアップロードし、検証エラーを修正して、抽出したデータを確認します (Document Automation でのドキュメントの処理)。