非構造化ドキュメント タイプの使用

非構造化ドキュメントタイプを使用すると、標準の形式、固定レイアウト、またはラベルなしのデータがない非構造化ドキュメントからデータを抽出できます。

モデルは、OCR機能と自然言語処理(NLP)、生成 AI技術を組み合わせて、セマンティック分析を実行し、非構造化ドキュメントからキーと値のペアおよびテーブルデータを抽出します。

以下に非構造化ドキュメントの例をいくつか示します。

  • 法的文書
  • 業務上の連絡文書 (電子メールを含む)
  • レポート

このモデルは、次の 生成 AI プロバイダーの中から選択するオプションを提供します。

OpenAI
このオプションを使用することには次のような機能があります。
  • 幅広いタスクを処理する
  • 英語と他の言語の両方でドキュメントを処理します
  • マルチモーダル機能のサポート
  • 特定のモデルのファインチューニング機能
Anthropic
このオプションを使用することには次のような機能があります。
  • 大規模な非構造化ドキュメントを効率的に処理する
  • 英語と他の言語の両方でドキュメントを処理します
  • データ抽出の精度が向上し、ドキュメントの処理が高速化します

生成 AI プロバイダーは一般化されたインテリジェンスを提供します。これは、異なるドキュメント タイプのために必要なラーニングインスタンスまたはモデルの特定のトレーニングがないことを意味します。 代わりに、学習インスタンスを構成する際には、ユーザーはクエリプロンプトを最適化して、データを文書からどのように抽出する必要があるかを特定し定義するべきです。 例えば、契約や合意から特定のデータを取得するために、以下のサンプルプロンプトを定義できます。

  • 契約の発効日はいつですか?
  • 参照番号とは何ですか?
  • 契約の発効日はいつですか? MM/DD/YYYY の形式で答えを返します。
  • 参照番号とは何ですか? このパターン AAA-12345 に従うべきです。
  • 契約の発効日現在、未払いの税金はありますか? はいまたはいいえで回答してください。
    注: クエリプロンプトが空の場合、抽出結果または出力は空になります。 ワークフローにデータの後処理が含まれている場合、データのプレースホルダーとしてプロンプトを空のままにしておきたいことがあるかもしれません。 例えば、データベースからデータを取得し、それをフィールドで比較に使用したい場合です。

システム定義のフォームおよびテーブルフィールドは、非構造化ドキュメントタイプが標準フォーマット、固定レイアウトを使用していないか、ラベルのないデータが欠落しているため、利用できません。 学習インスタンスを構成する際には、データ抽出が必要なすべてのフォームおよびテーブルフィールドを定義する必要があります。

モデルのプライベート クラウドインスタンスを 生成 AIMicrosoft AzureまたはAWSGCPで使用したい顧客は自身のプライベートクラウドのモデルに接続できます。 「自分の生成 AI サービスの接続」を参照してください。

注: このモデルでは検証フィードバックオプションは利用できません。