Automation 360

Google CDE を使用したラーニングインスタンスの作成

PDF としてダウンロード

コンテンツ

Google CDE を使用したラーニングインスタンスの作成

PDF としてダウンロード

最終更新日2024/10/31

ラーニングインスタンスは、ドキュメントタイプ、言語、抽出するフィールドなどの情報を保持する構造です。カスタム抽出プロセッサーを作成した後、ドキュメントからデータを抽出するためのラーニングインスタンスを作成する必要があります。

前提条件

Google Custom Document Extractor (CDE) プロセッサーの作成とトレーニングが正常に完了していることを確認します。
Control Room に Document Workspace (ページ数) 製品ライセンスがあることを確認します。
BYOK が設定されていることを確認します。詳細については、「Google CDE の BYOK (Bring Your Own Key) を設定する」を参照してください。

新しいプロセッサーを Google Document AI と統合するための重要なステップは、ラーニングインスタンスの作成です。これには、プロバイダーを [Google Document AI (ユーザー定義)] オプションとして利用することが含まれます。このオプションを使用してラーニングインスタンスを作成することで、ユーザーはプロセッサーに存在する名前と同一の名前でフォームとテーブルのフィールドを定義できます。

注:

現在、Google Document AI では単一テーブル抽出がサポートされています。
チェックボックス機能 (プレビューモード内) で、チェックボックスフィールドの抽出に一貫性がなく、結果に矛盾が生じるおそれがあります。このように、システムがチェックボックスのフィールド値を正確に抽出できない場合は、[未検出] というラベルが表示されます。

手順

Control Room ホームページから、AI > ドキュメントオートメーション > [ラーニングインスタンスを作成] に移動します。
[ラーニングインスタンスを作成] ウィンドウが新しいタブで開きます。
作成する新しいラーニングインスタンスの名前を追加します。
[ドキュメントタイプ] ドロップダウンメニューから、[ユーザー定義] を選択します。
[プロバイダ] メニューから、[Google Document AI (ユーザー定義)] を選択します。
[次へ] をクリックします。
[フォームフィールド] タブまたは [テーブルフィールド] タブを選択します。
Google CDE プロセッサーで使用されるスキーマラベルと同じ名前の新しいフィールドを作成します。

注: 新しいフィールドを作成するときは、その名前が Google プロセッサーで使用されているスキーマラベルと一致していることを確認してください。フォームフィールドとテーブルフィールドの両方の名前を一致させる必要があります。
[作成] をクリックします。
新しいラーニングインスタンスが作成されると、Control Roomによって[オートメーション] > Document Workspace Processesフォルダー内のラーニングインスタンスと同じ名前のフォルダーが、によって作成されます。

Google Document AI ラーニングインスタンスにカスタムフォームやテーブルフィールドを追加できます。 Google がサポートしていないフィールドからデータを抽出する場合は、カスタムフィールドを作成できます。この機能強化により、Google が事前トレーニング済みのモデルを、ドキュメント抽出用のカスタムフィールドとともに使用できるようになりました。
Google Document AI のラーニングインスタンスにカスタムフィールドを追加するときには、次の点を考慮してください。
- ドキュメントタイプにカスタムフォームやテーブルフィールドを追加できます。
- カスタムフィールドを編集して保存できます。
- カスタムフィールドには正規表現 (RegEx) が使用できます。
- 古いパッケージに付加されている既存のラーニングインスタンスにカスタムフィールドを追加できます。
  このシナリオでは、ラーニングインスタンスを保存すると、パッケージバージョンを更新する通知が表示されます。
- パッケージが複数の機能と互換性がない場合は、最新のパッケージバージョンに対応するメッセージが表示されます。
- カスタムフィールドは、設定とともに、.dw ファイルとの間でインポートまたはエクスポートすることができます。
- カスタムフィールドを抽出すると、これらのフィールドは古いパッケージバージョンとの下位互換性があります。
  - ラーニングインスタンスがカスタムフィールドを使用する場合、古いパッケージ (v.29 以前) ではエラーがスローされず、カスタムフィールドに空の値が含まれます。
  - 標準フィールドと同様に、古いパッケージ (v.29) では、該当する場合、カスタムフィールドに正規化とルールを適用します。
ラーニングインスタンスの抽出 Bot を、サービスアカウントとプロセッサーエンドポイント URL で更新します。
1. Automation > Document Workspace プロセス > <LI name> > <Li name>_extractionbot からラーニングインスタンスの Bot を開きます。
2. [追加の設定] オプションから [Google DocAI] を選択します。
3. [サービスアカウント] フィールドで、サービスアカウントキーが保存されている資格情報コンテナロッカー、資格情報、および属性を選択します。詳細については、「Google CDE の BYOK (Bring Your Own Key) を設定する」を参照してください。
4. Google CDE プロセッサーから予測エンドポイント URL をコピーします。
5. コピーした URL を [ドキュメントプロセッサーのエンドポイント URL] に貼り付けます。

次のステップ

ドキュメントをラーニングインスタンスにアップロードし、検証エラーを修正して、抽出したデータを確認します。詳細については、「ドキュメントオートメーションでのドキュメントの処理」を参照してください。