テーブルデータ抽出の改善

PDF としてダウンロード

フィードバック

最終更新日2024/11/28

詳細なトレーニング設定を使用してドキュメントをトレーニングし、テーブルデータ抽出を改善させるために、ドキュメントオートメーション抽出エンジンに追加の入力を提供します。

ドキュメントを抽出した後、検証ページの [詳細なトレーニング設定] オプションを使用して、次の値を設定することができます。

プライマリ列: 要件に基づいて、行を識別するためのプライマリ列を設定します。
テーブルの末尾インジケーター: テーブルの末尾インジケーター値を除いて、指定された値に達するまでシステムがデータを抽出するようにテーブルの末尾インジケーター値を追加します。
ヘッダーラベル: 必要に応じて、テーブルフィールドを調整または再マッピングします。

注: この機能は、[検証を使用して精度を改善] オプションが利用可能な場合にのみプロバイダーに適用されます。

前提条件

[詳細なトレーニング設定] オプションは、[検証を使用して精度を改善] オプションが有効な場合にのみ使用できます。
ヘッダーラベル、テーブルの末尾インジケーター、行検出に使用されるプライマリ列に関する情報を提供するために、[トレーニンググループ] 権限があることを確認してください。
プライマリ列は 1 つだけです。
テーブルの末尾インジケーターは、テキストシステム識別領域 (SIR) です。

手順

ドキュメントを処理し、検証ページに移動します。
[詳細なトレーニング設定] をクリックします。
次の値を設定するようにドキュメントをトレーニングします。
1. 行を識別するためのユーザー定義のプライマリ列を設定します。
  
  この値を初めて指定すると、次回このドキュメントを再処理するか、同様のタイプのドキュメントを処理する際に、この値は自動的に更新されます。
  
  自動的に更新された値をクリアするには、ドロップダウンメニューをクリックし、ドロップダウンメニューから空の値を選択します。
2. テーブルの末尾インジケーターの値を指定します。
  
  注: テーブルが複数のページにまたがり、各ページに類似のテーブル終了フィールドが含まれている場合は、テーブル終了インジケーターを追加することをお勧めします。テーブルの終端インジケーターを追加することで、インジケーターが各ページでシステムによって評価されるため、テーブルのデータ抽出が改善されます。
  
  この値を初めて指定すると、次回このドキュメントまたは同様のタイプのドキュメントを再処理する際に、この値は自動的に更新されます。インジケーターがドキュメント上のランダムな位置にあっても同様です。
  
  ドキュメントにこの値がない場合でも、自動的に更新されます。しかし、値が欠落しているため、文書には対応するシステム識別地域（SIR）はありません。
  
  自動更新された値をクリアするには、[テーブルの末尾インジケータ] フィールドの値の横にある [閉じる] ボタンをクリックするか、ドキュメント上の値の選択ボックスの [閉じる] ボタンをクリックします。
3. 必要な列をクリックし、必要なヘッダー名を指定します。
[送信] をクリックし、ドキュメントを再処理します。

注: ドキュメントの再処理中にこれらの設定を保存して有効にするには、[送信] をクリックする必要があります。

指定された詳細なトレーニング設定に基づいて、ドキュメントは再処理され、フィールドがある場合は検証するために再度検証ツールに送信されるか、Success フォルダーに CSV ファイルとしてデータが抽出されます。

プライマリ列

たとえば、ドキュメントを抽出した後、[項目番号] 列からの複数行のテーブルデータは 1 行で抽出されますが、それを別々の行で抽出したいとします。このような場合、[項目番号] をプライマリ列として設定することで、テーブル抽出を改善することができます。詳細については、「詳細なトレーニング設定を使用したプライマリ列の設定例」を参照してください。

テーブル終了インジケータ

たとえば、ドキュメントを処理する際に、[支払総額] までの行データを抽出したい場合に、テーブルデータ全体が抽出されます。このような場合、[テーブルの末尾インジケーター] の値を指定することで、その値までのテーブルデータ ([テーブルの末尾インジケーター] の値を除く) が抽出され、それ以降の行データは抽出されなくなります。

ヘッダーラベル

たとえば、テーブルデータにラベルの不一致がある場合、抽出されたヘッダーラベルは [単価] ですが、ヘッダーラベルを [価格] にしたいとします。このような場合、ヘッダーラベルを変更できます。

別の事例は、単価のすべての値を再マッピングするか、列データと一緒にヘッダーラベルを変更することです。この再マッピングを迅速化するために自動入力を使用できます。たとえば、抽出後、ラーニングインスタンスからの [価格] 列は [合計価格] として抽出されますが、ヘッダーラベルを [単価] として、その列データと一緒にしたいとします。このような場合、合計価格ヘッダーラベルを単価に変更し、単価列のすべてのセル値を選択してマッピングし直す必要があります。