Automation 360

抽出モデルの選択

PDF としてダウンロード

コンテンツ

抽出モデルの選択

PDF としてダウンロード

最終更新日2024/10/31

Document Automationは、さまざまな抽出プロバイダーをサポートし、幅広いドキュメント処理事例をサポートします。ドキュメントの処理に使用する抽出プロバイダーを決定するには、さまざまな抽出プロバイダーをベンチマークしたり、特定の事例に対応するために複数の抽出プロバイダーの組み合わせを選択したりする必要がある場合があります。

例えば、ローン申請パケットの場合、W-2 フォームや銀行明細書などの特定のデータを抽出するためにAutomation Anywhere抽出プロバイダーを使用し、請求書や身分証明書などの特定のデータを抽出するためにGoogle Document AI抽出プロバイダーを使用することをお勧めします。このようなシナリオでは、抽出プロバイダーのうちの1つだけを使用したデータ抽出では完全なカバレッジを提供しません。

抽出プロバイダーを決定するための重要な入力の 1 つは、処理するドキュメントのタイプ (構造化、半構造化、非構造化) です。ドキュメントタイプの詳細については、「ドキュメントタイプ」を参照してください。

構造化ドキュメント

一貫した構造と明確なレイアウトに従う構造化文書の場合は、データ抽出用のDocument Automationの標準フォーム抽出モデルを使用することをお勧めします。このモデルでは、光学式文字認識 (OCR) 機能とテンプレートベースのモデルを組み合わせて、フォームや ID のように非常に一貫したフォーマットの構造化ドキュメントからキーと値のペアおよびテーブルデータを抽出します。「Document Automationを使用してStandard Formsにカスタムモデルを作成する」を参照してください。

半構造化ドキュメント

半構造化ドキュメントでは、必要なデータを提供する組み合わせを特定するために、さまざまな抽出モデルとプロバイダーのテストと検証が必要になることがよくあります。一部の事例では、フィールドやテーブルから必要なデータを抽出するために、抽出モデルとプロバイダーのさまざまな組み合わせで複数のラーニングインスタンスを作成する必要があります。このモデルは、OCR 機能とキーワードベースの抽出、正規表現、検証フィードバックを組み合わせて、さまざまな形式からキーと値のペアとテーブルデータを抽出します。

次の表は、半構造化ドキュメントを処理するためにDocument Automationで利用可能なさまざまな事前学習済み抽出モデルとプロバイダーを示しています。抽出モデルの利用可能性は、選択した言語によって異なります。抽出モデルが Automation Anywhere と Google Document AI の両方の抽出プロバイダーをサポートしている場合は、事例にどちらが適しているかを判断するために 2 つを比較したり、関連するすべてのデータを抽出するために必要に応じて 2 つを組み合わせて使用したりしたい場合もあります。

注: 使用したいモデルが事前にトレーニングされた抽出モデルのリストに表示されない場合は、汎用モデル（ユーザー定義）を使用してください。


ドキュメントタイプ	抽出プロバイダー
ドキュメントタイプ	Automation Anywhere	Google Document AI
請求書	はい	はい
着荷通知	はい	いいえ
船荷証券	はい	いいえ
梱包明細書	はい	いいえ
領収書	いいえ	はい
ユーザー定義	はい	はい
公共料金請求書	いいえ	はい
貨物運送状	はい	いいえ

ユーザー定義ドキュメントタイプの使用

非構造化ドキュメント

標準の形式、固定レイアウト、または契約書などのラベルのないデータがない非構造化ドキュメントの場合は、データ抽出にDocument Automationの非構造化ドキュメント抽出モデルを使用することをお勧めします。非構造化ドキュメントの抽出は、意味を理解して複雑なドキュメント形式を分析できるgenerative AIモデルに依存しています。

注: 柔軟性を向上させるために、上記のオプションに加えて、パーサーの構成機能を使用してサードパーティのパーサーを統合することもできます。「ラーニングインスタンスにおけるサードパーティパーサーの統合」を参照してください。