ドキュメント抽出の概要

ドキュメント抽出プロセスでは、ドキュメントから抽出する特定のフォームおよびテーブル フィールドを定義できます。

その後、システムはこれらのドキュメントから指定されたデータを自動的に抽出し、さらに分析してダウンストリームのワークフローに統合します。 このプロセスにより、データ処理の効率、精度、全体的な生産性が向上します。

ユーザーが新しいラーニングインスタンスを作成すると、Control Room によって、[オートメーション] > [Document Workspace フォルダー] 内のラーニングインスタンスと同じ名前のフォルダーが自動的に作成されます。 そのフォルダー内に、Control Room によって次の 2 つの Bots が作成されます。

  • 抽出 Bot: アップロードされたドキュメントの定義済みフィールドからデータを抽出します。
  • Botをダウンロード: ダウンロード Bot で設定された出力結果オプションに応じて、抽出されたデータをデバイスまたは共有ネットワーク上の特定のフォルダーにダウンロードします。

ドキュメント抽出パッケージは、ドキュメントからデータを抽出し、抽出したデータを特定の場所にダウンロードするために使用されます。

ドキュメント抽出パッケージは、以下の機能を提供します。

  • さまざまなドキュメント タイプ: さまざまなドキュメント処理の事例に合わせて、幅広いドキュメント タイプを処理します。 カスタム データ抽出パーサーを統合して、ドキュメント処理ワークフローに事前にトレーニングされたドメイン固有のモデルを活用できます。
  • 検証ルール: パターン マッチングや等価性チェックなど、さまざまな条件を定義します。 そうした条件を満たしたときに、エラーや警告のフラグ設定、値の整理や置き換え、新しい値の設定などのアクションを迅速に実行できます。 これらのルールにより、ドキュメントの複数のフィールドで抽出されたデータの正確性を確保することができます。
  • 生成 AI プロバイダー: 、などの生成 AI プロバイダーからAzure OpenAIの事Anthropic前にトレーニングされたモデルを使用して、さまざまなドキュメント タイプからデータを抽出します。 ユーザーは、フィールドを構成するときに検索クエリを一度定義すれば、その後は追加の構成なしで、処理されるすべてのドキュメントに対してデータが抽出されます。
  • 検証フィードバック: 抽出されたデータを検証し、修正することで、抽出されたデータの精度に関するフィードバックを提供します。 このプロセスによりフィードバック ループが作成され、システムが時間の経過とともに継続的にデータの精度を向上させるのに役立ちます。
  • Automation Co-Pilot 検証ツール: ドキュメント内のエラーや警告が強調表示される、一目見てわかりやすいインターフェースが提供されます。 検証ツールでは、検証が必要なフィールドに赤いアウトラインが表示されます。 ユーザーは、赤いアウトラインが表示されているフィールドのデータを検証し、再処理のためにドキュメントを送信できます。
  • Automation 360 との統合: Automation 360 でさらに処理するために、抽出したデータをさまざまなワークフローにシームレスに統合します。