ドキュメント オートメーションにラーニングインスタンスを作成

サポートされているさまざまなドキュメント タイプからデータを抽出するためのラーニングインスタンスを作成することで、ドキュメントの処理を開始します。 ラーニングインスタンスは、ドキュメント タイプ、言語、抽出するフィールドなどの情報を保持する構造です。

前提条件

  • ラーニングインスタンスを作成するには、Learning instance creator ユーザーでなければなりません。 「ドキュメント オートメーション 人のユーザー」を参照してください。
  • OCR をサポートするドキュメント タイプの場合、デフォルトの OCR は ABBYY FineReader エンジン です。または、Google Vision OCR を使用してドキュメントを処理するラーニングインスタンスを作成できます。
  • 標準フォーム ドキュメント タイプの場合は、カスタム抽出モデルを作成したことを確認してください。 「標準フォームでカスタム抽出モデルを作成」を参照してください。

ラーニングインスタンスを作成するための完全なエンドツーエンド プロセスについては、このビデオをご覧ください。

手順

  1. Control Room ホームページから、 AI > ドキュメント オートメーション に移動し、 [ラーニングインスタンスを作成] をクリックします。
  2. ラーニングインスタンスの名前と説明を入力します。
    ドキュメント オートメーション では、重複したラーニングインスタンス名を使用できないため、一意の名前を指定する必要があります。
  3. 適切なドキュメント タイプを選択します。
    注: ユーザー定義のドキュメント タイプを使用して、請求書と外観が似ていて、発注書や受注書などのキー値ペアとテーブル構造を含むドキュメントを処理します。 このドキュメント タイプでは、すべてのフォームとテーブルのフィールドを作成し、設定します。
  4. 言語を選択します。
    でサポートされている言語の詳細については、「ドキュメント オートメーション」を参照してください。ドキュメント オートメーションでサポートされている言語

    ステップ 3 でパーサーを構成する際に使用するドキュメント タイプを選択すると、パーサーの構成時に選択した言語が自動的に選択されます。 さらに、ロケール リストには、自動選択された言語に基づいた言語オプションが表示されます。

  5. プロバイダーを選択します。
    ステップ 4 で英語を選択した場合、 Automation Anywhere (トレーニング済み) が自動で選択されます。

    ステップ 3 でパーサーを設定する際に使用するドキュメント タイプを選択すると、構成した (サードパーティの) パーサーがプロバイダーとして自動的に選択されます。

  6. オプション: OCR プロバイダーを選択します。 デフォルトでは、ドキュメント オートメーションABBYY FineReader エンジン でドキュメントを処理します。
    Cloud Control Room を使用しているユーザーは、Google Vision OCR でドキュメントを処理するように選択できます。
  7. オプション: [検証を使用して精度を改善] オプションを使用すると、抽出結果を改善するためにフィードバックをシステムに送信することができます。 詳細については、「検証による抽出精度の向上」を参照してください。
    注: [検証を使用して精度を改善] オプションは、選択したドキュメント タイプでのみ使用できます。
  8. オプション: 機能を使用して抽出するには、[生成 AI生成 AI によるデータ抽出] オプションを選択します。 詳細については、「ドキュメント オートメーション - 生成 AI を使用したデータ抽出」を参照してください。
    次のいずれかの 生成 AI プロバイダーを選択します。
    注:
    • 生成AI駆動のデータ抽出 オプションを使用するには、ドキュメント抽出 パッケージバージョン3.31.16以降を使用していることを確認してください。 「ドキュメント抽出 パッケージの更新」を参照してください。
    • [生成 AI によるデータ抽出] オプションは、選択したドキュメント タイプでのみ使用できます。 一部のドキュメント タイプでは、[生成 AI によるデータ抽出] オプションはデフォルトで有効になっており、無効にすることはできません。 このようなドキュメント タイプに対してのみ 生成 AI プロバイダーを選択できます。
    • 以前のリリースから v.33 以降に更新すると、Open AI がデフォルトのデータ抽出プロバイダーとして設定されます。
    • ラーニングインスタンスでデータ抽出プロバイダーとして Anthropic を選択し、対応する抽出 Anthropic で必要な Bot 設定を構成していない場合、ドキュメントを処理する際にエラーが表示されます。
    • ラーニングインスタンスに Anthropic プロバイダーを選択し、Anthropic 設定を誤って構成した場合、または対応する抽出 Bot で異なるプロバイダーを選択した場合、ドキュメントを処理する際にエラーが表示されます。
    • OpenAI を使用してドキュメントを処理した後、Anthropic に切り替えてデータを抽出する場合、Anthropic への切り替え後に処理されるドキュメントのみが、データ抽出に Anthropic を使用します。 以前に処理されたドキュメントについては、抽出されたデータは OpenAI を使用します。
    • Open AI: OpenAI は、コンテンツ生成、要約、画像理解、意味検索、自然言語からコードへの翻訳を実行する Open AI の強力な言語モデルにアクセスできます。 このプロバイダーは、組み込みライセンス (追加ライセンスを必要としない) および BYOL (Bring Your Own License) で利用可能です。 BYOL を使用している場合、抽出 BotOpenAI 用の追加設定を構成して、このプロバイダーを使用するようにしてください。 「[データの抽出] アクション」を参照してください。
    • Anthropic: Anthropicや GCP で利用可能な 生成 AI AWS モデルを、ドキュメント オートメーションでのデータ抽出に使用できるようになりました。 このオファリングにより、御社が認定した生成 AI プロバイダーに応じて、クラウド モデルを柔軟に選択することができます。

      Anthropic は、以下のメリットを提供します。

      • 大規模な非構造化ドキュメントを効率的に処理する
      • 英語と他の言語の両方のドキュメントを処理できる
      • データ抽出の精度が向上し、ドキュメントの処理が高速化する

      BYOL を使用している場合、このプロバイダーを使用するには、Anthropic Claude または Google Vertex AI サービスで Amazon Bedrock モデルを構成し、抽出 Bot で追加設定を構成する必要があります。 「[データの抽出] アクション」を参照してください。

    ドキュメント オートメーションでのラーニングインスタンスの作成
  9. [次へ] をクリックします。

フォームおよびテーブル フィールドを構成するときは、サンプル ドキュメントを Control Room ウィンドウと並べて開くことをお勧めします。

注:
  • フォーム フィールドは、ドキュメントに 1 回だけ出現するフィールドのタイプです。
  • テーブル フィールドとは、ドキュメント中に繰り返し出現するフィールドのタイプで、通常はテーブルの形で出現します。

  1. 抽出するフォーム フィールドとテーブル フィールドを構成します。 詳細については、「」を参照してください。
    1. フィールドをクリックすると、フィールド エディターが開きます。 詳細については、「」を参照してください。
    2. フィールドの右側にあるメニュー アイコンにマウス カーソルを合わせて、上下矢印を表示します。
    3. 矢印を使用してフィールドの順序を並べ替えて、より効率的に手動検証を行うことができます。
      フィールドの順序は抽出に影響しません。
    他のフィールド属性については、「」を参照してください。
  2. [フィールドの追加] をクリックし、フィールド名、フィールド ラベル、信頼度、データ タイプ、日付/数値のフォーマットなどのフィールドの詳細を指定します。 詳細については、「」を参照してください。
    次の画像は、ラーニングインスタンスに設定されたフォームとテーブル フィールドを示しています。
    ラーニングインスタンスのフォームフィールド

    ラーニングインスタンスのテーブル フィールドとラーニングインスタンス レベルでのカスタム テーブルの追加
    注: [フィールドを追加] オプションは、[領収書] ドキュメント タイプでは使用できません。
  3. オプション: [テーブル フィールド] タブで、[+] アイコンをクリックして、ラーニングインスタンス レベルでカスタム テーブルを追加します。
    1. テーブルの名前を入力し、[追加] をクリックします。
    2. [フィールドの追加] をクリックし、フィールド名、フィールド ラベル、信頼度、データ タイプ、日付/数値のフォーマットなどのフィールドの詳細を指定します。 詳細については、「」を参照してください。
      注: また、ラーニングインスタンスの編集中にカスタム テーブルを追加および削除することもできます。
    カスタム テーブルは [テーブル] ドロップダウン リストに表示されます。
    ラーニングインスタンス レベルで作成され、ドロップダウン リストに表示されるテーブル

    また、[ドキュメント ルール] タブでカスタム テーブルとデフォルト テーブルのフィールドを表示することもできますが、すべての異なるテーブルにわたりフィールドを選択することはできません。 複数のテーブル サポートの詳細については、「」を参照してください。

  4. [作成] をクリックします。
新しいラーニングインスタンスが作成されると、Control Room によって オートメーション > ドキュメントワークスペースプロセス フォルダー内のラーニングインスタンスと同じ名前のフォルダーが作成されます。 このフォルダーには、2 つの Bots (抽出とダウンロード)、プロセス、フォームが含まれています。 詳細については、「」を参照してください。

次のステップ

ドキュメントをラーニングインスタンスにアップロードし、検証エラーを修正して、抽出したデータを確認します (ドキュメント オートメーション でのドキュメントの処理)。