ドキュメント タイプ
- 最終更新日2024/10/31
ドキュメント タイプ
ドキュメント タイプは、その目的、レイアウトおよび内容に基づくドキュメントの分類です。ドキュメント オートメーションは、処理対象として、構造化ドキュメント、半構造化ドキュメント、非構造化ドキュメントのドキュメント タイプをサポートします。
構造化ドキュメント
構造化ドキュメントは、データが入力または書き込まれる一貫した構造と明確なレイアウトに従うため、自動化されたシステムによるデータの抽出と処理が簡単になります。このようなドキュメントに使用されるデータ抽出モデルでは、光学式文字認識 (OCR) 機能とテンプレートベースのモデルを組み合わせて、構造化ドキュメントからキーと値のペアおよびテーブル データを抽出します。
以下に構造化ドキュメントの例をいくつか示します。
- 申請フォーム
- 調査
- パスポート
- 税フォーム
半構造化ドキュメント
半構造化ドキュメントとは、構造化ドキュメントと同様に、ある程度の構造または予測可能な形式が使用されても、レイアウトやコンテンツに多少のバリエーションがあるドキュメントです。一部のドキュメントには共通のデータ要素が含まれていますが、ドキュメントによってデータの場所が異なる場合があります。このようなドキュメントに使用されるデータ抽出モデルでは、OCR 機能とキーワードベースの抽出、正規表現、検証フィードバックを組み合わせて、半構造化ドキュメントからキーと値のペアとテーブル データを抽出します。
以下に半構造化ドキュメントの例をいくつか示します。
- 請求書
- 注文書 (PO)
- 船荷証券
- 保険給付明細書 (EOB)
非構造化ドキュメント
非構造化ドキュメントには、標準形式、固定レイアウト、ラベルのないデータがありません。データのほとんどは、一貫した構造を持たない自然言語形式です。データ抽出モデルは、OCR 機能と自然言語処理 (NLP) および生成 AI テクノロジーを組み合わせて、セマンティック分析を実行し、非構造化ドキュメントからキーと値のペアおよびテーブル データを抽出します。
以下に非構造化ドキュメントの例をいくつか示します。
- 法的文書
- 業務上の連絡文書 (電子メールを含む)
- レポート