ビジョン モデルまたはコンピュータ ビジョン モデルは、ドキュメントのレイアウト、テーブルの認識、フォームフィールド、画像、グラフィック、バーコードなどのデータを処理、理解、解釈するために特別に設計された人工知能(AI)の一種です。

注: ビジョン駆動の 生成 AI モデルを使用するには、ドキュメント抽出 パッケージ バージョン 3.35.14 以降を使用していることを確認してください。

生成 AIにおける視覚駆動型ドキュメント オートメーションモデルの統合は、以下のような視覚的に複雑な構造を持つ文書を処理するのに役立ちます:

  • ネストされた行とマージされた列を持つテーブル
  • 繰り返しセクション

ビジョン対応の 生成 AI モデルをサポートするパッケージを使用する場合、ドキュメント抽出 エンジンは、ドキュメントの種類と複雑さに応じてデータ抽出のためにビジョンモデルを使用するタイミングを決定します。 プロンプトタグを使用して、ドキュメント抽出 エンジンにビジョン駆動の 生成 AI モデルをデータ抽出に使用するよう指示できます。 詳細については、「生成 AI プロンプトでプロンプトタグを使用する」を参照してください。

機能

次の画像は、ドキュメント オートメーション で使用されるビジョン駆動の 生成 AI モデルのいくつかの機能を示しています:

ドキュメント オートメーション ビジョン駆動の 生成 AI モデル機能

ドキュメント オートメーションビジョン駆動の生成 AIモデルは、他の生成 AIモデルに対して以下の強化された機能を提供します:

  • レイアウト分析
  • フォームフィールド検出
  • テーブル認識
  • 画像とグラフィックの認識
  • バーコードと QR コードの検出

メリット

ビジョン駆動の 生成 AI モデルには、以下のようなメリットがあります。

  • 複雑なテーブルや非構造化文書からのデータ抽出精度を向上させます。
  • 人間の介入を減らすことで文書処理の効率を向上させます。
  • データ抽出精度と文書処理効率を向上させることにより、文書処理ワークフローを効率化します。

地域サポートマトリックス

次の表は、異なる地域の 生成 AI プロバイダーによってサポートされているビジョン駆動の 生成 AI モデルを示しています:

注: プロバイダーに対して自分のライセンスを持ち込む (BYOL) を使用している場合、これらの設定は考慮されません。 プロバイダーのBYOLの設定については、「[データの抽出] アクション」を参照してください。
地域 プロバイダー サポートされているビジョン駆動の 生成 AI モデル
アメリカ Microsoft OpenAI GPT-4o
Anthropic Claude Claude 3 Haiku
欧州 Microsoft OpenAI GPT-4o
Anthropic Claude Claude 3 Haiku
Rest of the world Microsoft OpenAI GPT-3.5 Turbo
Anthropic Claude Claude 3 Haiku