生成 AI を使用して半構造化ドキュメント用のラーニングインスタンスを作成する

このトピックをガイドとして使用し、請求書、ユーザー定義の注文書、発注書、または次のようなサプライチェーン ドキュメントなどの半構造化ドキュメントからデータを抽出する生成 AI (GenAI) 機能を活用したラーニングインスタンスを作成します。 到着通知、船荷証券、梱包リスト、運送状。

半構造化ドキュメントからのデータ抽出では、ラーニングインスタンスの作成中に 生成 AI検証を使用して精度を改善 オプションをチェックすることですぐに使用できる検証フィードバック機能に加えて、 機能を使用するオプションがあります。 これにより、すぐに使える精度で一貫および向上したデータ抽出が可能になります。 半構造化ドキュメントから正確なデータの抽出を可能にする 生成 AI 機能を備えたラーニングインスタンスを作成する手順を説明します。

前提条件

  • サプライ チェーン ドキュメントでは、[生成 AI によるデータ抽出] 機能はデフォルトで有効になっており、無効にすることはできません。 したがって、ドキュメントをエラーなく処理するために、生成 AI へのドキュメント オートメーション と他の外部接続を有効にする必要があります。 「生成 AIへのドキュメント オートメーション およびその他の外部接続の有効化」を参照してください。
  • 企業のプロの開発者は、以下のような業務を行います。
    • ラーニングインスタンスの作成、編集、削除
    • 処理とテストのためのドキュメントをアップロードする
    • 非公開フォルダーから公開フォルダーへのラーニングインスタンスのチェックインとチェックアウト
  • ライセンス要件: 上記のタスクを実行するための Bot Creator ライセンス。

  • 割り当てられるロールと権限:
    • AAE_IQBot Services または AAE_IQBot Admin
    • AAE_Basic

手順

  1. Control Room にログインし、 AI > ドキュメント オートメーション に移動し、[ラーニングインスタンスを作成] ボタンをクリックして新しいラーニングインスタンスの作成を開始します。
  2. 次に、[ラーニングインスタンス] リストで簡単に識別できるように一意のラーニングインスタンス名を入力し、以下の他のオプションの選択に進みます。
    生成 AI 機能で半構造化ドキュメントのラーニングインスタンスを作成する
    1. 説明 (任意): これは、意味のある説明を追加し、ラーニングインスタンスの用途を要約するために使用できる任意指定のフィールドです。
    2. ドキュメント タイプ: 次のような半構造化ドキュメントのリストから選択します。 請求書、ユーザー定義、到着通知、船荷証券、梱包リスト、運送状。
      このオプションを選択すると、[生成 AI] 主導のデータ抽出機能が有効になります 検証プロセス中に で行われたユーザーが提供した変更からシステムに送信されたフィードバックに基づく、すぐに使用できる [検証を使用して精度を改善] 機能に加えて検証ツール。 これは、ユーザー検証フィードバックと GenAI 機能の組み合わせによってデータ抽出結果の向上が保証されるため、半構造化ドキュメントにとって非常に重要な機能です。
    3. 言語: 英語
      現在、サポートされているのは英語のみです。
    4. ロケール: ドキュメントのロケールに従っています。
      ロケールは、お使いの言語とドキュメントが作成された国に基づいて選択されます。
    5. プロバイダー: Automation Anywhere (ユーザー定義)
    6. OCRプロバイダー: Google Vision OCR または ABBYY OCR
      サポートされている 2 つの OCR オプションから選択できます。
  3. [次へ] をクリックして、ラーニングインスタンスのフォームとテーブル フィールドの作成を開始します。 v32 以降は、フォーム フィールドとテーブル フィールドの両方で生成 AI 機能が利用できるようになりました。 デフォルトのカスタム エイリアスのサポートに加えて、GenAI 機能を使用できます。 フィールドにエイリアスを追加する詳細については、「ドキュメント オートメーションにラーニングインスタンスを作成」のステップ 9 を参照してください。
    ドキュメント オートメーションでは、半構造化ドキュメントに対してデフォルトでカスタム エイリアスとフィードバック機能を使用します。 信頼度が低く、フィールド データが欠落しているフィールドに対するクエリは生成 AI に渡され、そこで抽出が行われます。
    生成 AI が有効な検索クエリを使用する半構造化ドキュメントのラーニングインスタンス
  4. テーブル フィールドの生成 AI 機能を使用して列を識別し、テーブル列に焦点を当てたデータ抽出を機能強化できます。 この機能は、テーブル抽出にとって大きな付加価値となります。 GenAI は、ドキュメントをトレーニングすることなく、定義された検索クエリに基づいて特定のテーブル列を特定でき、ドキュメント オートメーションですぐに使用できる機能として動作します。 そのため、GenAI が有効な検索クエリを使って列を特定し、ドキュメント オートメーション抽出モデルを使ってその列からフィールドの特定のデータを抽出できます。
  5. 次に、抽出するデータ ポイントに固有の [フィールド名]、デフォルトの検索クエリを作成するための [フィールド ラベル] を追加し、[データ タイプ] を選択してフィールド値のデータ構造を定義します。
    テキスト、数値、日付、または住所のデータ型の値オプションを、ドロップダウンから選択できます。 フォームフィールドの作成に関する詳細は、ドキュメント オートメーションにラーニングインスタンスを作成 のステップ 10 を参照してください。
  6. フォーム フィールドとテーブル フィールドは、[必須] または [任意] に設定できます。 生成 AI 機能を活用する場合、[信頼度] フィールドはグレー表示されます。
  7. 抽出のために、[パターンを使用してフィールドを抽出] 機能を使用する追加オプションがあります。
  8. [生成 AI モデルのクエリを検索] セクションで、システムが生成したクエリを使用するか、カスタム クエリを追加するかを選択できます。
    たとえば、住所フィールドであれば、生成 AI のデフォルトのクエリは「自宅の住所を教えてください」となるでしょう。 そのクエリを、「自宅の住所を、県名、市町村名を含めて教えてください」とカスタマイズすることもできます。
  9. 次のステップで、フォームおよびテーブル フィールドの [フィールド ルール] と [ドキュメント ルール] を定義し、[作成] をクリックしてラーニングインスタンスの作成を完了します。 フォーム ルールとドキュメント ルールの定義の詳細については、ドキュメント オートメーションの検証ルール を参照してください。

次のステップ

  1. ラーニングインスタンスを公開リポジトリに公開し、ラーニングインスタンスを公開モードで使用して実際のドキュメントからデータを抽出し、検証ツールでドキュメントを手動で検証できるようにします。 「ラーニングインスタンスを本番環境に公開する」を参照してください。
  2. AI > ドキュメント オートメーション リスト ページで、作成して公開したラーニングインスタンスを特定し、[プロセス] をクリックして、処理とデータ抽出用にドキュメントのアップロードを開始します。 「ドキュメント オートメーション でのドキュメントの処理」を参照してください。
  3. 抽出されたデータを含む CSV ドキュメントを開き、処理されたドキュメントと比較すると、GenAI が有効な検索クエリ フィールドで高い精度のデータが抽出されていることを検証および確認できます。