抽出モデルの選択
- 最終更新日2024/10/31
抽出モデルの選択
ドキュメント オートメーションは、さまざまな抽出プロバイダーをサポートし、幅広いドキュメント処理事例をサポートします。 ドキュメントの処理に使用する抽出プロバイダーを決定するには、さまざまな抽出プロバイダーをベンチマークしたり、特定の事例に対応するために複数の抽出プロバイダーの組み合わせを選択したりする必要がある場合があります。
例えば、ローン申請パケットの場合、W-2 フォームや銀行明細書などの特定のデータを抽出するためにAutomation Anywhere抽出プロバイダーを使用し、請求書や身分証明書などの特定のデータを抽出するためにGoogle Document AI抽出プロバイダーを使用することをお勧めします。 このようなシナリオでは、抽出プロバイダーのうちの1つだけを使用したデータ抽出では完全なカバレッジを提供しません。
抽出プロバイダーを決定するための重要な入力の 1 つは、処理するドキュメントのタイプ (構造化、半構造化、非構造化) です。 ドキュメントタイプの詳細については、「ドキュメント タイプ」を参照してください。
構造化ドキュメント
一貫した構造と明確なレイアウトに従う構造化文書の場合は、データ抽出用のドキュメント オートメーションの標準フォーム抽出モデルを使用することをお勧めします。 このモデルでは、光学式文字認識 (OCR) 機能とテンプレートベースのモデルを組み合わせて、フォームや ID のように非常に一貫したフォーマットの構造化ドキュメントからキーと値のペアおよびテーブルデータを抽出します。 「標準フォームを使用してドキュメント オートメーションにカスタム モデルを作成する」を参照してください。
半構造化ドキュメント
半構造化ドキュメントでは、必要なデータを提供する組み合わせを特定するために、さまざまな抽出モデルとプロバイダーのテストと検証が必要になることがよくあります。 一部の事例では、フィールドやテーブルから必要なデータを抽出するために、抽出モデルとプロバイダーのさまざまな組み合わせで複数のラーニングインスタンスを作成する必要があります。 このモデルは、OCR 機能とキーワードベースの抽出、正規表現、検証フィードバックを組み合わせて、さまざまな形式からキーと値のペアとテーブルデータを抽出します。
ドキュメント タイプ | 抽出プロバイダー | |
---|---|---|
Automation Anywhere | Google Document AI | |
請求書 | はい | はい |
着荷通知 | はい | いいえ |
船荷証券 | はい | いいえ |
梱包明細書 | はい | いいえ |
領収書 | いいえ | はい |
ユーザー定義 | はい | はい |
公共料金請求書 | いいえ | はい |
貨物運送状 | はい | いいえ |
非構造化ドキュメント
標準の形式、固定レイアウト、または契約書などのラベルのないデータがない非構造化ドキュメントの場合は、データ抽出にドキュメント オートメーションの非構造化ドキュメント抽出モデルを使用することをお勧めします。 非構造化ドキュメントの抽出は、意味を理解して複雑なドキュメント形式を分析できる生成 AIモデルに依存しています。