Google CDE を使用したラーニングインスタンスの作成

ラーニングインスタンスは、ドキュメント タイプ、言語、抽出するフィールドなどの情報を保持する構造です。 カスタム抽出プロセッサーを作成した後、ドキュメントからデータを抽出するためのラーニングインスタンスを作成する必要があります。

前提条件

  • Google Custom Document Extractor (CDE) プロセッサーの作成とトレーニングが正常に完了していることを確認します。
  • Control Room に Document Workspace (ページ数) 製品ライセンスがあることを確認します。
  • BYOK が設定されていることを確認します。 詳細については、「Google CDE の BYOK (Bring Your Own Key) を設定する」を参照してください。

新しいプロセッサーを Google Document AI と統合するための重要なステップは、ラーニングインスタンスの作成です。 これには、プロバイダーを [Google Document AI (ユーザー定義)] オプションとして利用することが含まれます。 このオプションを使用してラーニングインスタンスを作成することで、ユーザーはプロセッサーに存在する名前と同一の名前でフォームとテーブルのフィールドを定義できます。
注:
  • 現在、Google Document AI では単一テーブル抽出がサポートされています。
  • チェックボックス機能 (プレビュー モード内) で、チェックボックス フィールドの抽出に一貫性がなく、結果に矛盾が生じるおそれがあります。 このように、システムがチェックボックスのフィールド値を正確に抽出できない場合は、[未検出] というラベルが表示されます。

手順

  1. Control Room ホームページから、AI > ドキュメントオートメーション > [ラーニングインスタンスを作成] に移動します。
    [ラーニングインスタンスを作成] ウィンドウが新しいタブで開きます。
  2. 作成する新しいラーニングインスタンスの名前を追加します。
  3. [ドキュメント タイプ] ドロップダウン メニューから、[ユーザー定義] を選択します。
  4. [プロバイダ] メニューから、[Google Document AI (ユーザー定義)] を選択します。
  5. [次へ] をクリックします。
  6. [フォーム フィールド] タブまたは [テーブル フィールド] タブを選択します。
  7. Google CDE プロセッサーで使用されるスキーマ ラベルと同じ名前の新しいフィールドを作成します。
    注: 新しいフィールドを作成するときは、その名前が Google プロセッサーで使用されているスキーマ ラベルと一致していることを確認してください。 フォーム フィールドとテーブル フィールドの両方の名前を一致させる必要があります。
  8. [作成] をクリックします。

    新しいラーニングインスタンスが作成されると、Control Roomによって[オートメーション] > Document Workspace Processesフォルダー内のラーニングインスタンスと同じ名前のフォルダーが、によって作成されます。

    Google Document AI ラーニングインスタンスにカスタム フォームやテーブル フィールドを追加できます。 Google がサポートしていないフィールドからデータを抽出する場合は、カスタム フィールドを作成できます。 この機能強化により、Google が事前トレーニング済みのモデルを、ドキュメント抽出用のカスタム フィールドとともに使用できるようになりました。

    Google Document AI のラーニングインスタンスにカスタム フィールドを追加するときには、次の点を考慮してください。
    • ドキュメント タイプにカスタム フォームやテーブル フィールドを追加できます。
    • カスタム フィールドを編集して保存できます。
    • カスタム フィールドには正規表現 (RegEx) が使用できます。
    • 古いパッケージに付加されている既存のラーニングインスタンスにカスタム フィールドを追加できます。

      このシナリオでは、ラーニングインスタンスを保存すると、パッケージ バージョンを更新する通知が表示されます。

    • パッケージが複数の機能と互換性がない場合は、最新の パッケージ バージョンに対応するメッセージが表示されます。
    • カスタム フィールドは、設定とともに、.dw ファイルとの間でインポートまたはエクスポートすることができます。
    • カスタム フィールドを抽出すると、これらのフィールドは古い パッケージ バージョンとの下位互換性があります。
      • ラーニングインスタンスがカスタム フィールドを使用する場合、古いパッケージ (v.29 以前) ではエラーがスローされず、カスタム フィールドに空の値が含まれます。
      • 標準フィールドと同様に、古いパッケージ (v.29) では、該当する場合、カスタム フィールドに正規化とルールを適用します。
  9. ラーニングインスタンスの抽出 Bot を、サービス アカウントとプロセッサー エンドポイント URL で更新します。
    1. Automation > Document Workspace プロセス > <LI name> > <Li name>_extractionbot からラーニングインスタンスの Bot を開きます。
    2. [追加の設定] オプションから [Google DocAI] を選択します。
    3. [サービス アカウント] フィールドで、サービス アカウント キーが保存されている資格情報コンテナ ロッカー、資格情報、および属性を選択します。 詳細については、「Google CDE の BYOK (Bring Your Own Key) を設定する」を参照してください。
    4. Google CDE プロセッサーから予測エンドポイント URL をコピーします。
      Google Document AI の予測エンドポイント
    5. コピーした URL を [ドキュメント プロセッサーのエンドポイント URL] に貼り付けます。

      ドキュメント プロセッサーの Document AI エンドポイント URL

次のステップ

ドキュメントをラーニングインスタンスにアップロードし、検証エラーを修正して、抽出したデータを確認します。 詳細については、「ドキュメント オートメーション でのドキュメントの処理」を参照してください。