抽出モデルの選択

ドキュメント オートメーションは、さまざまな抽出プロバイダーをサポートし、幅広いドキュメント処理事例をサポートします。 ドキュメントの処理に使用する抽出プロバイダーを決定するには、さまざまな抽出プロバイダーをベンチマークしたり、特定の事例に対応するために複数の抽出プロバイダーの組み合わせを選択したりする必要がある場合があります。

例えば、ローン申請パケットの場合、W-2 フォームや銀行明細書などの特定のデータを抽出するためにAutomation Anywhere抽出プロバイダーを使用し、請求書や身分証明書などの特定のデータを抽出するためにGoogle Document AI抽出プロバイダーを使用することをお勧めします。 このようなシナリオでは、抽出プロバイダーのうちの1つだけを使用したデータ抽出では完全なカバレッジを提供しません。

抽出プロバイダーを決定するための重要な入力の 1 つは、処理するドキュメントのタイプ (構造化、半構造化、非構造化) です。 ドキュメントタイプの詳細については、「ドキュメント タイプ」を参照してください。

構造化ドキュメント

一貫した構造と明確なレイアウトに従う構造化文書の場合は、データ抽出用のドキュメント オートメーションの標準フォーム抽出モデルを使用することをお勧めします。 このモデルでは、光学式文字認識 (OCR) 機能とテンプレートベースのモデルを組み合わせて、フォームや ID のように非常に一貫したフォーマットの構造化ドキュメントからキーと値のペアおよびテーブルデータを抽出します。 「標準フォームを使用してドキュメント オートメーションにカスタム モデルを作成する」を参照してください。

半構造化ドキュメント

半構造化ドキュメントでは、必要なデータを提供する組み合わせを特定するために、さまざまな抽出モデルとプロバイダーのテストと検証が必要になることがよくあります。 一部の事例では、フィールドやテーブルから必要なデータを抽出するために、抽出モデルとプロバイダーのさまざまな組み合わせで複数のラーニングインスタンスを作成する必要があります。 このモデルは、OCR 機能とキーワードベースの抽出、正規表現、検証フィードバックを組み合わせて、さまざまな形式からキーと値のペアとテーブルデータを抽出します。

次の表は、半構造化ドキュメントを処理するためにドキュメント オートメーションで利用可能なさまざまな事前学習済み抽出モデルとプロバイダーを示しています。 抽出モデルの利用可能性は、選択した言語によって異なります。 抽出モデルが Automation AnywhereGoogle Document AI の両方の抽出プロバイダーをサポートしている場合は、事例にどちらが適しているかを判断するために 2 つを比較したり、関連するすべてのデータを抽出するために必要に応じて 2 つを組み合わせて使用したりしたい場合もあります。
注: 使用したいモデルが事前にトレーニングされた抽出モデルのリストに表示されない場合は、汎用モデル(ユーザー定義)を使用してください。
ドキュメント タイプ 抽出プロバイダー
Automation Anywhere Google Document AI
請求書 はい はい
着荷通知 はい いいえ
船荷証券 はい いいえ
梱包明細書 はい いいえ
領収書 いいえ はい
ユーザー定義 はい はい
公共料金請求書 いいえ はい
貨物運送状 はい いいえ
ユーザー定義ドキュメント タイプの使用

非構造化ドキュメント

標準の形式、固定レイアウト、または契約書などのラベルのないデータがない非構造化ドキュメントの場合は、データ抽出にドキュメント オートメーションの非構造化ドキュメント抽出モデルを使用することをお勧めします。 非構造化ドキュメントの抽出は、意味を理解して複雑なドキュメント形式を分析できる生成 AIモデルに依存しています。

注: 柔軟性を向上させるために、上記のオプションに加えて、パーサーの構成機能を使用してサードパーティのパーサーを統合することもできます。 「ラーニングインスタンスにおけるサードパーティ パーサーの統合」を参照してください。