Document Automationにラーニングインスタンスを作成

サポートされているさまざまなドキュメント タイプからデータを抽出するためのラーニングインスタンスを作成することで、ドキュメントの処理を開始します。 ラーニングインスタンスは、ドキュメント タイプ、言語、抽出するフィールドなどの情報を保持する構造です。

前提条件

  • ラーニングインスタンスを作成するには、Learning instance creator ユーザーでなければなりません。 「Document Automation 人のユーザー」を参照してください。
  • OCR をサポートするドキュメント タイプの場合、デフォルトの OCR は ABBYY FineReader エンジン です。または、Google Vision OCR を使用してドキュメントを処理するラーニングインスタンスを作成できます。
  • 標準フォーム ドキュメント タイプの場合は、カスタム抽出モデルを作成したことを確認してください。 「Document Automationでの Standard Forms の作成」を参照してください。

ラーニングインスタンスを作成するための完全なエンドツーエンド プロセスについては、このビデオをご覧ください。

手順

  1. Control Room ホームページから、AI > ドキュメント自動化 に移動し、 [ラーニングインスタンスを作成] をクリックします。
  2. ラーニングインスタンスの名前と説明を入力します。
    Document Automation では、重複したラーニングインスタンス名を使用できないため、一意の名前を指定する必要があります。
  3. 適切なドキュメント タイプを選択します。
    注: ユーザー定義のドキュメント タイプを使用して、請求書と外観が似ていて、発注書や受注書などのキー値ペアとテーブル構造を含むドキュメントを処理します。 このドキュメント タイプでは、すべてのフォームとテーブルのフィールドを作成し、設定します。
  4. 言語を選択します。
    でサポートされている言語の詳細については、「Document Automation」を参照してください。Document Automationでサポートされている言語

    ステップ 3 でパーサーを構成する際に使用するドキュメント タイプを選択すると、パーサーの構成時に選択した言語が自動的に選択されます。 さらに、ロケール リストには、自動選択された言語に基づいた言語オプションが表示されます。

  5. プロバイダーを選択します。
    ステップ 4 で英語を選択した場合、 オートメーション・エニウェア (トレーニング済み) が自動で選択されます。

    ステップ 3 でパーサーを設定する際に使用するドキュメント タイプを選択すると、構成した (サードパーティの) パーサーがプロバイダーとして自動的に選択されます。

  6. オプション: OCR プロバイダーを選択します。 デフォルトでは、Document AutomationABBYY FineReader エンジン でドキュメントを処理します。
    Cloud Control Room を使用しているユーザーは、Google Vision OCR でドキュメントを処理するように選択できます。
  7. オプション: [検証を使用して精度を改善] オプションを使用すると、抽出結果を改善するためにフィードバックをシステムに送信することができます。 詳細については、「検証による抽出精度の向上」を参照してください。
    注: [検証を使用して精度を改善] オプションは、選択したドキュメント タイプでのみ使用できます。
  8. オプション: 機能を使用して抽出するには、[生成 AI生成 AI によるデータ抽出] オプションを選択します。 詳細については、「Document Automation - 生成 AI を使用したデータ抽出」を参照してください。
    次のいずれかの 生成 AI プロバイダーを選択します。
    注:
    • 生成AI駆動のデータ抽出 オプションを使用するには、ドキュメント抽出 パッケージバージョン3.31.16以降を使用していることを確認してください。 「ドキュメント抽出 パッケージの更新」を参照してください。
    • [生成 AI によるデータ抽出] オプションは、選択したドキュメント タイプでのみ使用できます。 一部のドキュメント タイプでは、[生成 AI によるデータ抽出] オプションはデフォルトで有効になっており、無効にすることはできません。 このようなドキュメント タイプに対してのみ 生成 AI プロバイダーを選択できます。
    • 以前のリリースから v.33 以降に更新すると、Open AI がデフォルトのデータ抽出プロバイダーとして設定されます。
    • ラーニングインスタンスでデータ抽出プロバイダーとして Anthropic を選択し、対応する抽出 Anthropic で必要な Bot 設定を構成していない場合、ドキュメントを処理する際にエラーが表示されます。
    • ラーニングインスタンスに Anthropic プロバイダーを選択し、Anthropic 設定を誤って構成した場合、または対応する抽出 Bot で異なるプロバイダーを選択した場合、ドキュメントを処理する際にエラーが表示されます。
    • OpenAI を使用してドキュメントを処理した後、Anthropic に切り替えてデータを抽出する場合、Anthropic への切り替え後に処理されるドキュメントのみが、データ抽出に Anthropic を使用します。 以前に処理されたドキュメントについては、抽出されたデータは OpenAI を使用します。
    • Open AI: OpenAI は、コンテンツ生成、要約、画像理解、意味検索、自然言語からコードへの翻訳を実行する Open AI の強力な言語モデルにアクセスできます。 このプロバイダーは、組み込みライセンス (追加ライセンスを必要としない) および BYOL (Bring Your Own License) で利用可能です。 BYOL を使用している場合、抽出 BotOpenAI 用の追加設定を構成して、このプロバイダーを使用するようにしてください。 「[データの抽出] アクション」を参照してください。
    • Anthropic: Anthropicや GCP で利用可能な 生成 AI AWS モデルを、Document Automationでのデータ抽出に使用できるようになりました。 このオファリングにより、御社が認定した生成 AI プロバイダーに応じて、クラウド モデルを柔軟に選択することができます。

      Anthropic は、以下のメリットを提供します。

      • 大規模な非構造化ドキュメントを効率的に処理する
      • 英語と他の言語の両方のドキュメントを処理できる
      • データ抽出の精度が向上し、ドキュメントの処理が高速化する

      BYOL を使用している場合、このプロバイダーを使用するには、Anthropic Claude または Google Vertex AI サービスで Amazon Bedrock モデルを構成し、抽出 Bot で追加設定を構成する必要があります。 「[データの抽出] アクション」を参照してください。

    Document Automationでのラーニングインスタンスの作成
  9. [次へ] をクリックします。

フォームおよびテーブル フィールドを構成するときは、サンプル ドキュメントを Control Room ウィンドウと並べて開くことをお勧めします。

注:
  • フォーム フィールドは、ドキュメントに 1 回だけ出現するフィールドのタイプです。
  • テーブル フィールドとは、ドキュメント中に繰り返し出現するフィールドのタイプで、通常はテーブルの形で出現します。

  1. 抽出するフォーム フィールドとテーブル フィールドを構成します。 詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
    1. フィールドをクリックすると、フィールド エディターが開きます。 詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
    2. フィールドの右側にあるメニュー アイコンにマウス カーソルを合わせて、上下矢印を表示します。
    3. 矢印を使用してフィールドの順序を並べ替えて、より効率的に手動検証を行うことができます。
      フィールドの順序は抽出に影響しません。
    他のフィールド属性については、「Considerations when creating learning instance in Document Automation」を参照してください。
  2. [フィールドの追加] をクリックし、フィールド名、フィールド ラベル、信頼度、データ タイプ、日付/数値のフォーマットなどのフィールドの詳細を指定します。 詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
    次の画像は、ラーニングインスタンスに設定されたフォームとテーブル フィールドを示しています。
    ラーニングインスタンスのフォームフィールド

    ラーニングインスタンスのテーブル フィールドとラーニングインスタンス レベルでのカスタム テーブルの追加
    注: [フィールドを追加] オプションは、[領収書] ドキュメント タイプでは使用できません。
  3. オプション: [テーブル フィールド] タブで、[+] アイコンをクリックして、ラーニングインスタンス レベルでカスタム テーブルを追加します。
    1. テーブルの名前を入力し、[追加] をクリックします。
    2. [フィールドの追加] をクリックし、フィールド名、フィールド ラベル、信頼度、データ タイプ、日付/数値のフォーマットなどのフィールドの詳細を指定します。 詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。
      注: また、ラーニングインスタンスの編集中にカスタム テーブルを追加および削除することもできます。
    カスタム テーブルは [テーブル] ドロップダウン リストに表示されます。
    ラーニングインスタンス レベルで作成され、ドロップダウン リストに表示されるテーブル

    また、[ドキュメント ルール] タブでカスタム テーブルとデフォルト テーブルのフィールドを表示することもできますが、すべての異なるテーブルにわたりフィールドを選択することはできません。 複数のテーブル サポートの詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。

  4. [作成] をクリックします。
新しいラーニングインスタンスが作成されると、Control Room によって オートメーション > ドキュメントワークスペースプロセス フォルダー内のラーニングインスタンスと同じ名前のフォルダーが作成されます。 このフォルダーには、2 つの Bot (抽出とダウンロード)、プロセス、フォームが含まれています。 詳細については、「Considerations when creating learning instance in Document Automation」を参照してください。

次のステップ

ドキュメントをラーニングインスタンスにアップロードし、検証エラーを修正して、抽出したデータを確認します (Document Automation でのドキュメントの処理)。