学習インスタンスは、ドキュメント タイプ、言語、抽出するフィールドなどの情報を保持する構造です。 標準フォームを作成した後、ドキュメントからデータを抽出するために学習インスタンスを作成する必要があります。

前提条件

  • 標準フォーム構成が完了していることを確認します。
  • Control RoomDocument Automation 標準フォーム (ページ数) 製品ライセンスがあることを確認します。

手順

  1. Control Room ホームページから、AI > ドキュメント自動化 > 学習インスタンスを作成 に移動します。
    右上隅に「学習インスタンスを作成」が表示される
    学習インスタンスを作成 ウィンドウが新しいタブで開きます。
  2. 作成する新しい学習インスタンスの名前を追加します。
  3. ドキュメント タイプ ドロップダウン メニューから、Standard Forms を選択します。
    ドキュメント タイプとしての標準フォーム
    注: プロバイダー名は、デフォルトで Microsoft Form Recognizer が選択されます。
  4. モデルの選択には、参照 をクリックし、名前または説明のフィルタを使用してモデルを検索してください。
  5. モデルを選択し、次へ をクリックします。
  6. 次に進むには、次のフィールドを少なくとも 1 つ選択する必要があります。
    • テーブル
    • Forms

    フォーム フィールド、テーブル フィールドのいずれかから選択
    注:
    • ニューラル モデルの場合、テーブル フィールドは自動的に更新されないため、{table_name}: {field_name}の形式でテーブル フィールドを手動で追加する必要があります。
    • ニューラル モデルでは、標準フォームは複数のテーブルをサポートし、テーブルは テーブル タブの下に テーブル名: フィールド名 として表示されます。
  7. その他のフィールド属性は、次のとおりです。
    オプション内容
    フィールド名 アルファベット文字 (A ~ Z または a ~ z) で始まるフィールド名を入力します。

    標準フィールドでは、フィールド名はハードコードされているため変更できません。

    フィールド ラベル 検証者にとってわかりやすい名前を入力します。

    たとえば、組織の税番号VAT 番号などのローカライズされた名前に変更できます。

    フィールド ラベルは抽出に影響しません。

    信頼度 誤検出の可能性を低減するためのしきい値を設定します。

    処理時に、Document Automation エンジンはドキュメントの各フィールドにスコアを割り当て、データが正しく抽出されたかどうかの確実度を示します。 信頼度しきい値よりも低いスコアのフィールドがドキュメントに含まれている場合、ドキュメントは検証キューに送信されます。

    高い信頼度しきい値を入力すると、検証キューに送信されるドキュメントの数が多くなります。 低い信頼度しきい値を入力すると、検証キューに送信されるドキュメントの数が少なくなります。

    0 から 100 までの値がサポートされます。

    データ タイプ 次のいずれかのデータ型を選択します。
    • 住所*: ドキュメントから住所フィールドを抽出する必要があるときに、このデータ型を使用してください。 システムはさまざまな住所フィールドを抽出するようにトレーニングされており、このデータタイプを使用することで、システムに文書から住所を検出して抽出するよう指示します。
    • テキスト: ドキュメントからテキストフィールドを抽出する必要があるときに、このデータ型を使用してください。 システムはさまざまなテキストフィールドを抽出するようにトレーニングされており、このデータタイプを使用することで、システムに文書からテキストを検出して抽出するよう指示します。
    • 数値: ドキュメントから数値フィールドを抽出する必要があるときに、このデータ型を使用してください。 システムはさまざまな数値フィールドを抽出するようにトレーニングされており、このデータタイプを使用することで、システムに文書から数字を検出して抽出するよう指示します。
    • 日付: ドキュメントから日付フィールドを抽出する必要があるときに、このデータ型を使用してください。 システムはさまざまな日付形式を抽出するようにトレーニングされており、このデータタイプを使用することで、システムに文書から日付を検出して抽出するよう指示します。
    • チェックボックス: チェックボックスがチェックされているか、チェックされていないか、または見つからないかを検証する必要がある場合は、このデータ型を使用してください。
    • 署名: ドキュメント内の署名を検証する必要があるときに、このデータ型を使用してください。 このデータ型は、顧客が銀行に発行する小切手など、文書に署名が含まれているかどうかを確認する必要がある場合のシナリオで使用してください。
      注: モデルで署名検出のトレーニングを行う際は、署名オブジェクトをクリックするのではなく、リージョンオプションを使用して署名の領域をマークすることを確認してください。

    フィールドのデータがデータ タイプと一致しない場合、ドキュメントは検証キューに送られます。

    Document Automationは、日付フォーマットと数字フォーマットのバリエーションをサポートしています。

    * ユーザー定義のドキュメント タイプでラーニングインスタンスを設定している場合、フォーム フィールドには、アドレスの構造全体を抽出するアドレス データ タイプが含まれます。

    必須 以下のいずれかを選択します。
    • 必須: フィールドは空にできません。
    • 任意: フィールドは空にできます。または、ドキュメントに存在しなくてもかまいません。
    検証ルール データ タイプに応じて、パターン、数式、リスト、「starts or ends with」などのステートメントを使用してルールを作成します。

    Starts With と Ends With | パターン | リスト | 公式

  8. 作成 をクリックします。
新しい学習インスタンスが作成されると、Control RoomAutomation > Document Workspaceフォルダー内に学習インスタンスと同じ名前のフォルダーを作成します。 このフォルダーには、2 つの Bot (抽出とダウンロード)、プロセス、フォームが含まれています。学習インスタンス アセットのスクリーンショット例
  • プロセス: Document Automation がアップロードされたドキュメントからデータを抽出し、検証のためにドキュメントをユーザーに割り当て、抽出されたデータをダウンロードする、if/else シナリオを使用してプロセスを管理します。 詳細については、「ビジネスユーザー向け Automation Co-PilotのプロセスDocument Automation」をご参照ください
  • 抽出 Bot: アップロードされたドキュメントの定義済みフィールドからデータを抽出します。
  • ダウンロード Bot: 抽出されたデータをデバイスまたは共有ネットワーク上の特定のフォルダーにダウンロードします。
  • フォーム: プロセスに送信される入力パラメーターを定義します。 入力パラメーターには、ラーニングインスタンス名、アップロードしたファイル、および出力ファイル パスが含まれます。

次のステップ

ドキュメントをラーニングインスタンスにアップロードし、検証エラーを修正して、抽出したデータを確認します (Document Automation でのドキュメントの処理)。