検証による抽出精度の向上
- 最終更新日2024/08/21
検証による抽出精度の向上
検証ツール で、システムがユーザーから提供された変更により抽出精度をどのように上げるかを理解します。
ラーニングインスタンス作成時に、この機能を有効にすると、検証ツール でユーザーが提供した変更に基づいてラーニングインスタンスにフィードバックを送信することができます。Document Automation では、検証ツール においてユーザーが抽出領域のサイズを変更したり、位置を変えたりするたびに、本番モードで動作するラーニングインスタンスは継続的に「学習」することができます。
次の図は、ラーニングインスタンスが検証から継続的にフィードバックを受けるプロセスの概要を視覚的に示したものです。
- アップロードされたドキュメントは、抽出エンジンを通過します。
- ラーニングインスタンスがデータの抽出に成功すると、抽出された値は
Success
フォルダー内のファイルにダウンロードされます。ラーニングインスタンスがデータを抽出できない場合、システムは、ドキュメントに見慣れないレイアウトが含まれているかどうかを評価します。
- ラーニングインスタンスがドキュメントのレイアウト (新規レイアウト) を認識しない場合、ドキュメントは手動検証に送られ、ユーザーが抽出領域を設定してラーニングインスタンスにデータの抽出方法を「ティーチする」ことになります。
- 抽出された値は、
Success
フォルダー内のファイルにダウンロードされ、変更点がフィードバック ファイルに収集され、フィードバック データベースに送信されます。注:- フィードバックは、ユーザーが抽出領域を変更したときのみ収集されます。ユーザーがテキストを手動で入力する場合、システムはフィードバックを収集しません。
- フィードバック ファイルには、後続のドキュメントの抽出精度を高めるための、フィールドの位置に関するデータのみが含まれています。
ラーニングインスタンスがクラスターを認識した場合、フィードバック データベースから過去のフィードバックを取得し、それを用いてデータを抽出します。
検証フィードバックを使用して、テーブルに特定の値を抽出する
Automation 360 v.27 では、複数のフィールドを含むセルからデータを抽出するために、ラーニングインスタンスをトレーニングできます。
たとえば、製品説明の列に項目番号も含まれている場合、検証インターフェースで項目番号のアウトラインを表示できます。ラーニングインスタンスが後続のドキュメントを処理する場合は、項目番号を抽出し、製品説明を無視します。
- オートメーション・エニウェア トレーニング済みモデルを使用してラーニングインスタンスを作成し、検証フィードバックを送信するオプションを選択します (Document Automationにラーニングインスタンスを作成)。
- サンプル ドキュメントをアップロードします (Document Automation でのドキュメントの処理)。
- 検証ツールで、フィールドを検索し、抽出する値のみを囲むようにボックスを再描画します。
- [送信] をクリックすると、新しい抽出領域の情報がフィードバック データベースに送信されます。
- より多くのドキュメントをアップロードして、抽出の精度をテストします。満足する結果が得られたら、ラーニングインスタンスを本番環境で実行するための準備をします。ラーニングインスタンスを本番環境に公開する
Document Automation が新規レイアウトを特定する方法
Document Automation の抽出は、オブジェクト検出に基づくものです。ドキュメント処理中に、抽出エンジンがオブジェクト、すなわちフィールドと関連する値との、キーと値のペアを特定します。このエンジンは、ドキュメントの「フィンガープリント」を作成し、オブジェクトの順序とドキュメント内の各オブジェクトの位置を保存します。
ドキュメントが処理される際、エンジンがキーとその位置を認識すれば、その既存のフィンガープリントに基づいてドキュメントが分類、抽出されます。そうでない場合は、エンジンはキーとその位置の新規フィンガープリントを保存します。