詳細なトレーニング設定を使用する
- 更新日 2024/01/17
詳細なトレーニング設定を使用する
詳細なトレーニング設定を使用してドキュメントをトレーニングし、テーブル データ抽出を改善させるために、Document Automation抽出エンジンに追加の入力を提供します。
ドキュメントを抽出した後、検証ページの [詳細なトレーニング設定] オプションを使用して、次の値を設定することができます。
- プライマリ列: 要件に基づいて、行を識別するためのプライマリ列を設定します。
- テーブルの末尾インジケーター: テーブルの末尾インジケーター値を除いて、指定された値に達するまでシステムがデータを抽出するようにテーブルの末尾インジケーター値を追加します。
- ヘッダー ラベル: 必要に応じて、テーブル フィールドを調整または再マッピングします。
注: この機能は、[検証を使用して精度を改善] オプションが利用可能な場合にのみプロバイダーに適用されます。
前提条件
- [詳細なトレーニング設定] オプションは、[検証を使用して精度を改善] オプションが有効な場合にのみ使用できます。
- ヘッダー ラベル、テーブルの末尾インジケーター、行検出に使用されるプライマリ列に関する情報を提供するために、[トレーニング グループ] 権限があることを確認してください。
- プライマリ列は 1 つだけです。
- テーブルの末尾インジケーターは、テキスト システム識別領域 (SIR) です。
手順
プライマリ列
たとえば、ドキュメントを抽出した後、[項目番号] 列からの複数行のテーブル データは 1 行で抽出されますが、それを別々の行で抽出したいとします。このような場合、[項目番号] をプライマリ列として設定することで、テーブル抽出を改善することができます。詳細については、「詳細なトレーニング設定を使用したプライマリ列の設定例」を参照してください。
テーブルの末尾インジケーター
たとえば、ドキュメントを処理する際に、[支払総額] までの行データを抽出したい場合に、テーブル データ全体が抽出されます。このような場合、[テーブルの末尾インジケーター] の値を指定することで、その値までのテーブル データ ([テーブルの末尾インジケーター] の値を除く) が抽出され、それ以降の行データは抽出されなくなります。
ヘッダー ラベル
たとえば、テーブル データにラベルの不一致がある場合、抽出されたヘッダー ラベルは [単価] ですが、ヘッダー ラベルを [価格] にしたいとします。このような場合、ヘッダー ラベルを変更できます。
別の事例は、列データと一緒にヘッダー ラベルを再マッピングまたは変更することです。たとえば、抽出後、ラーニングインスタンスからの [価格] 列は [合計価格] として抽出されますが、ヘッダー ラベルを [単価] として、その列データと一緒にしたいとします。このような場合、[合計価格] ヘッダー ラベルを [単価] に変更し、[単価] 列から少なくとも 2 つのセルを選択してマッピングし直す必要があります。
次のマイクロアニメーションは、[項目番号] をプライマリ列として設定し、単一セルではなく別の行にデータを抽出する例を示しています。