Automation 360

生成 AI を使用して半構造化ドキュメント用のラーニングインスタンスを作成する

PDF としてダウンロード

コンテンツ

生成 AI を使用して半構造化ドキュメント用のラーニングインスタンスを作成する

PDF としてダウンロード

最終更新日2024/10/31

生成 AI を使用して半構造化ドキュメント用のラーニングインスタンスを作成する

このトピックをガイドとして使用し、請求書、ユーザー定義の注文書、発注書、または次のようなサプライチェーンドキュメントなどの半構造化ドキュメントからデータを抽出する生成 AI (GenAI) 機能を活用したラーニングインスタンスを作成します。到着通知、船荷証券、梱包リスト、運送状。

半構造化ドキュメントからのデータ抽出では、ラーニングインスタンスの作成中に生成 AI検証を使用して精度を改善オプションをチェックすることですぐに使用できる検証フィードバック機能に加えて、機能を使用するオプションがあります。これにより、すぐに使える精度で一貫および向上したデータ抽出が可能になります。半構造化ドキュメントから正確なデータの抽出を可能にする生成 AI 機能を備えたラーニングインスタンスを作成する手順を説明します。

前提条件

サプライチェーンドキュメントでは、[生成 AI によるデータ抽出] 機能はデフォルトで有効になっており、無効にすることはできません。したがって、ドキュメントをエラーなく処理するために、生成 AI へのドキュメントオートメーションと他の外部接続を有効にする必要があります。「生成 AIへのドキュメントオートメーションおよびその他の外部接続の有効化」を参照してください。
企業のプロの開発者は、以下のような業務を行います。
- ラーニングインスタンスの作成、編集、削除
- 処理とテストのためのドキュメントをアップロードする
- 非公開フォルダーから公開フォルダーへのラーニングインスタンスのチェックインとチェックアウト
ライセンス要件: 上記のタスクを実行するための Bot Creator ライセンス。
割り当てられるロールと権限:
- AAE_IQBot Services または AAE_IQBot Admin
- AAE_Basic

手順

Control Room にログインし、 AI > ドキュメントオートメーションに移動し、[ラーニングインスタンスを作成] ボタンをクリックして新しいラーニングインスタンスの作成を開始します。
次に、[ラーニングインスタンス] リストで簡単に識別できるように一意のラーニングインスタンス名を入力し、以下の他のオプションの選択に進みます。
1. 説明 (任意): これは、意味のある説明を追加し、ラーニングインスタンスの用途を要約するために使用できる任意指定のフィールドです。
2. ドキュメントタイプ: 次のような半構造化ドキュメントのリストから選択します。請求書、ユーザー定義、到着通知、船荷証券、梱包リスト、運送状。
  このオプションを選択すると、[生成 AI] 主導のデータ抽出機能が有効になります検証プロセス中にで行われたユーザーが提供した変更からシステムに送信されたフィードバックに基づく、すぐに使用できる [検証を使用して精度を改善] 機能に加えて検証ツール。これは、ユーザー検証フィードバックと GenAI 機能の組み合わせによってデータ抽出結果の向上が保証されるため、半構造化ドキュメントにとって非常に重要な機能です。
3. 言語: 英語
  現在、サポートされているのは英語のみです。
4. ロケール: ドキュメントのロケールに従っています。
  ロケールは、お使いの言語とドキュメントが作成された国に基づいて選択されます。
5. プロバイダー: Automation Anywhere (ユーザー定義)
6. OCRプロバイダー: Google Vision OCR または ABBYY OCR
  サポートされている 2 つの OCR オプションから選択できます。
[次へ] をクリックして、ラーニングインスタンスのフォームとテーブルフィールドの作成を開始します。 v32 以降は、フォームフィールドとテーブルフィールドの両方で生成 AI 機能が利用できるようになりました。デフォルトのカスタムエイリアスのサポートに加えて、GenAI 機能を使用できます。フィールドにエイリアスを追加する詳細については、「ドキュメントオートメーションにラーニングインスタンスを作成」のステップ 9 を参照してください。
ドキュメントオートメーションでは、半構造化ドキュメントに対してデフォルトでカスタムエイリアスとフィードバック機能を使用します。信頼度が低く、フィールドデータが欠落しているフィールドに対するクエリは生成 AI に渡され、そこで抽出が行われます。
テーブルフィールドの生成 AI 機能を使用して列を識別し、テーブル列に焦点を当てたデータ抽出を機能強化できます。この機能は、テーブル抽出にとって大きな付加価値となります。 GenAI は、ドキュメントをトレーニングすることなく、定義された検索クエリに基づいて特定のテーブル列を特定でき、ドキュメントオートメーションですぐに使用できる機能として動作します。そのため、GenAI が有効な検索クエリを使って列を特定し、ドキュメントオートメーション抽出モデルを使ってその列からフィールドの特定のデータを抽出できます。
次に、抽出するデータポイントに固有の [フィールド名]、デフォルトの検索クエリを作成するための [フィールドラベル] を追加し、[データタイプ] を選択してフィールド値のデータ構造を定義します。
テキスト、数値、日付、または住所のデータ型の値オプションを、ドロップダウンから選択できます。フォームフィールドの作成に関する詳細は、ドキュメントオートメーションにラーニングインスタンスを作成のステップ 10 を参照してください。
フォームフィールドとテーブルフィールドは、[必須] または [任意] に設定できます。生成 AI 機能を活用する場合、[信頼度] フィールドはグレー表示されます。
抽出のために、[パターンを使用してフィールドを抽出] 機能を使用する追加オプションがあります。
[生成 AI モデルのクエリを検索] セクションで、システムが生成したクエリを使用するか、カスタムクエリを追加するかを選択できます。
たとえば、住所フィールドであれば、生成 AI のデフォルトのクエリは「自宅の住所を教えてください」となるでしょう。そのクエリを、「自宅の住所を、県名、市町村名を含めて教えてください」とカスタマイズすることもできます。
次のステップで、フォームおよびテーブルフィールドの [フィールドルール] と [ドキュメントルール] を定義し、[作成] をクリックしてラーニングインスタンスの作成を完了します。フォームルールとドキュメントルールの定義の詳細については、ドキュメントオートメーションの検証ルールを参照してください。

次のステップ

ラーニングインスタンスを公開リポジトリに公開し、ラーニングインスタンスを公開モードで使用して実際のドキュメントからデータを抽出し、検証ツールでドキュメントを手動で検証できるようにします。「ラーニングインスタンスを本番環境に公開する」を参照してください。
AI > ドキュメントオートメーションリストページで、作成して公開したラーニングインスタンスを特定し、[プロセス] をクリックして、処理とデータ抽出用にドキュメントのアップロードを開始します。「ドキュメントオートメーションでのドキュメントの処理」を参照してください。
抽出されたデータを含む CSV ドキュメントを開き、処理されたドキュメントと比較すると、GenAI が有効な検索クエリフィールドで高い精度のデータが抽出されていることを検証および確認できます。