generative AI を使用して半構造化ドキュメント用のラーニングインスタンスを作成する

このトピックをガイドとして使用し、請求書、ユーザー定義および購入注文、または次のようなサプライチェーン ドキュメントなどの半構造化ドキュメントからデータを抽出する Generative AI (GenAI) 機能を活用したラーニングインスタンスを作成します。到着通知、船荷証券、梱包リスト、運送状。

半構造化ドキュメントからのデータ抽出では、ラーニングインスタンスの作成中に [検証を使用して精度を改善] オプションをチェックすることですぐに使用できる検証フィードバック機能に加えて、generative AI 機能を使用するオプションがあります。これにより、すぐに使える精度で一貫および向上したデータ抽出が可能になります。半構造化ドキュメントから正確なデータの抽出を可能にする generative AI 機能を備えたラーニングインスタンスを作成する手順を説明します。

前提条件

企業のプロの開発者は、以下のような業務を行います。
  • ラーニングインスタンスの作成、編集、削除
  • 処理とテストのためのドキュメントをアップロードする
  • 非公開フォルダーから公開フォルダーへのラーニングインスタンスのチェックインとチェックアウト

ライセンス要件: 上記のタスクを実行するための Bot Creator ライセンス。

割り当てられるロールと権限:
  • AAE_IQBot Services または AAE_IQBot Admin
  • AAE_Basic

手順

  1. Control Room にログインし、[マネージ] > [ラーニングインスタンス] に移動し、[ラーニングインスタンスを作成] ボタンをクリックして新しいラーニングインスタンスの作成を開始します。
  2. 次に、[ラーニングインスタンス] リストで簡単に識別できるように一意のラーニングインスタンス名を入力し、以下の他のオプションの選択に進みます。
    generative AI 機能で半構造化ドキュメントのラーニングインスタンスを作成する
    1. 説明 (任意): これは、意味のある説明を追加し、ラーニングインスタンスの用途を要約するために使用できる任意指定のフィールドです。
    2. ドキュメント タイプ: 次のような半構造化ドキュメントのリストから選択します。請求書、ユーザー定義、到着通知、船荷証券、梱包リスト、運送状。
      このオプションを選択すると、検証プロセス中に Validator で行われたユーザーが提供した変更からシステムに送信されたフィードバックに基づく、すぐに使用できる [検証を使用して精度を改善] 機能に加えて、[生成 AI] 主導のデータ抽出機能が有効になります。これは、ユーザー検証フィードバックと GenAI 機能の組み合わせによってデータ抽出結果の向上が保証されるため、半構造化ドキュメントにとって非常に重要な機能です。
    3. 言語: 英語
      現在、サポートされているのは英語のみです。
    4. ロケール: ドキュメントのロケールに従っています。
      ロケールは、お使いの言語とドキュメントが作成された国に基づいて選択されます。
    5. プロバイダー: Automation Anywhere (ユーザー定義)
    6. OCR プロバイダー: Google Vision OCR または ABBYY OCR
      サポートされている 2 つの OCR オプションから選択できます。
  3. [次へ] をクリックして、ラーニングインスタンスのフォームとテーブル フィールドの作成を開始します。v32 以降は、フォーム フィールドとテーブル フィールドの両方でgenerative AI 機能が利用できるようになりました。デフォルトのカスタム エイリアスのサポートに加えて、GenAI 機能を使用できます。フィールドにエイリアスを追加する詳細については、「Create a learning instance in Document Automation」のステップ 9 を参照してください。
    Document Automationでは、半構造化ドキュメントに対してデフォルトでカスタム エイリアスとフィードバック機能を使用します。信頼度が低く、フィールド データが欠落しているフィールドに対するクエリはgenerative AI に渡され、そこで抽出が行われます。
    generative AI が有効な検索クエリを使用する半構造化ドキュメントのラーニングインスタンス
  4. テーブル フィールドのgenerative AI 機能を使用して列を識別し、テーブル列に焦点を当てたデータ抽出を機能強化できます。この機能は、テーブル抽出にとって大きな付加価値となります。GenAI は、ドキュメントをトレーニングすることなく、定義された検索クエリに基づいて特定のテーブル列を特定でき、Document Automationですぐに使用できる機能として動作します。そのため、GenAI が有効な検索クエリを使って列を特定し、Document Automation抽出モデルを使ってその列からフィールドの特定のデータを抽出できます。
  5. 次に、抽出するデータ ポイントに固有の [フィールド名]、デフォルトの検索クエリを作成するための [フィールド ラベル] を追加し、[データ タイプ] を選択してフィールド値のデータ構造を定義します。
    テキスト、数値、日付、または住所のデータ型の値オプションを、ドロップダウンから選択できます。フォーム フィールドの作成についての詳細は、以下を参照してください。「Create a learning instance in Document Automation」、ステップ 10。
  6. フォーム フィールドとテーブル フィールドは、[必須] または [任意] に設定できます。generative AI 機能を活用する場合、[信頼度] フィールドはグレー表示されます。
  7. 抽出のために、[パターンを使用してフィールドを抽出] 機能を使用する追加オプションがあります。
  8. [生成 AI モデルのクエリを検索] セクションで、システムが生成したクエリを使用するか、カスタム クエリを追加するかを選択できます。
    たとえば、住所フィールドであれば、Generative AI のデフォルトのクエリは「自宅の住所を教えてください」となるでしょう。そのクエリを、「自宅の住所を、県名、市町村名を含めて教えてください」とカスタマイズすることもできます。
  9. 次のステップで、フォーム フィールドとテーブル フィールドの [フィールド ルール] と [ドキュメント ルール] を定義し、[作成] をクリックしてラーニングインスタンスの作成を完了します。フォーム ルールとドキュメント ルールの定義の詳細については、以下を参照してください。Document Automationの検証ルール

次のステップ

  1. ラーニングインスタンスを公開リポジトリに公開し、ラーニングインスタンスを公開モードで使用して実際のドキュメントからデータを抽出し、検証ツールでドキュメントを手動で検証できるようにします。「ラーニングインスタンスを本番環境に公開する」を参照してください。
  2. [マネージ] > [ラーニングインスタンス] リスト ページで、作成して公開したラーニングインスタンスを特定し、[プロセス] をクリックして、処理とデータ抽出のためドキュメントのアップロードを開始します。「Document Automation でのドキュメントの処理」を参照してください。
  3. 抽出されたデータを含む CSV ドキュメントを開き、処理されたドキュメントと比較すると、GenAI が有効な検索クエリ フィールドで高い精度のデータが抽出されていることを検証および確認できます。