ラーニングインスタンスの作成

ラーニングインスタンスを作成し、トレーニング用のサンプル ドキュメントをアップロードします。このステップでは、請求書や発注書などの単一ドキュメント タイプのデータ要素と、抽出するフィールドを定義します。

前提条件

サンプル ドキュメントが以下の要件を満たしていることを確認します。
  • 各ドキュメントは独立したファイルです。たとえば、E メールとその添付ファイルを 1 つの PDF にダウンロードした場合、E メールの本文を添付ファイルから分離する必要があります。「[ドキュメントを分割] アクション の使用」を参照してください。
  • ドキュメントは、サポートされている以下のいずれかのファイル形式です。
    • PDF
    • JPG
    • JPEG
    • PNG
    • Tiff
  • 解像度が 300 ドット パー インチ (dpi) 以上のドキュメントをおすすめします。
  • ステージング環境では、1 つのラーニングインスタンスにつきファイル サイズ 10MB のドキュメントを最大 150 個までアップロードできます。
  • 本番環境では、1 つのドキュメントにつき最大 50MB のファイル サイズをアップロードできます。ただし、1 つのラーニングインスタンスにつき許可される最大ドキュメント数は、ライセンスによって異なります。
  • pdfbox OCR では、1 つのドキュメントあたりのページ数に制限はありません。
  • 画像ベースの OCR では、1 つのドキュメントにつき 60 ページをアップロードできます。
  • アップロードできるファイル サイズは 12MB までです。ラーニング  インスタンスが作成された後でも他のドキュメントをアップロードできます。
  • アップロードするドキュメントのファイル名の先頭は、ハイフン (-) などの特殊文字にしないでください。
  • 抽出するテキストが次のいずれかの特殊文字で始まる場合: ‘# : , \ ` ''。テキストをキャプチャするとき、IQ Bot より、これらの特殊文字が無視されます。
注:
  • Tesseract4 OCR で現在、1 つのドキュメントあたりのページ数が 60 ページ未満に制限される既知の制限事項があります。
  • Azure のコンフィデンシャル コンピューティングにより、組織は暗号化されたデータを、仮想マシン上のプライベート フォルダーなどのセキュリティ保護されたストレージにアップロードできます。そのようなセキュリティ保護されたフォルダーから IQ Bot にドキュメントをアップロードすると、そのようなドキュメントではデータ抽出がサポートされていないため、これらは未分類ステータスに移動されます。

ドキュメントのコレクションをデジタル処理に挿入した場合、ドキュメントのタイプ、形式、向きが混在していると考えられます。たとえば、請求書には一貫したデータ要素セットが含まれていますが、発注書には異なるデータ要素セットが含まれています。以下のステップで、これらのドキュメント タイプごとに異なるラーニングインスタンスを作成する必要があります。

手順

  1. [ラーニングインスタンス] に移動し、[新しいインスタンス] オプションをクリックします。
  2. [新しいラーニング インスタンスを作成] 画面で、次の情報を入力します。
    1. インスタンス名: 一意の名前を入力します。
      IQ Bot バージョン A360.21 以前では、重複したラーニングインスタンス名は使用できません。ラーニングインスタンスを削除した場合、名前を再度使用することはできません。 IQ Bot バージョン A360.22 からは、ラーニングインスタンス名の重複作成、および削除したラーニングインスタンス名の再利用が可能になりました。
    2. オプション: 説明: 説明を入力します。
    3. ドキュメント タイプ: ドロップダウン リストからドキュメント タイプを選択します。
      ラーニングインスタンスを作成するとき、[ドキュメント タイプ] として Standard Forms を選択しないでください。選択したオプションに基づいて、ドメイン タイプに対して事前定義された一連のフォームとテーブル フィールドが表示されます。たとえば、[請求書] を選択すると、請求書の共通のフォームとテーブルが表示されます。
      注: このラーニングインスタンス専用に使用するドメインを作成する場合、[ドキュメント タイプ] > [その他] を選択し、ドメイン名を入力します。ここからのステップでは、ドメインのカスタマイズを行います。

      カスタム ドメインの作成の詳細については、以下のビデオをご覧ください。

      複数のラーニングインスタンスで使用するドメインを作成し、必要なアクセス権限をお持ちの場合、Automation Anywhere サポートと連携してカスタム ドメインを作成することができます。詳細は、IQ Bot のカスタム ドメイン をご覧ください。

    4. ドキュメントの主要言語: ドロップダウン メニューを使用して、ラーニングインスタンスの言語を選択します。
      他の言語でカスタムドメインを作成し、IQ Bot が対応している最大 190 の言語にアクセスするには、Automation Anywhere サポートにお問い合わせください。
      重要: IQ Bot インターフェースですべての言語を表示できない場合は、トラブルシューティングを実施します。Unable to extract data from Multiple languages in a document (A-People login required)
    5. ドキュメントのアップロード: [参照] オプションをクリックして、サンプル ドキュメントをアップロードします。
  3. [共通のフォーム フィールド] および [共通のテーブル/繰り返しセクションのフィールド] セクションでフィールドを選択または選択解除します。
    請求書の日付や番号など、フォーム フィールドはドキュメントに一度だけ表示されます。テーブル フィールドとは、項目の合計や数量など、ドキュメント全体で繰り返し表示されるフィールドのことです。
    考えられるすべてのフィールドを表示するには、[追加のフォーム フィールド] または [追加のテーブル/繰り返しセクションのフィールド] をクリックします。
  4. オプション: [追加のフォーム フィールド] または [追加のテーブル/繰り返しセクションのフィールド] セクションにフィールド名を入力することで、フィールドを追加します。
    [フィールドを追加 (任意)] フィールドに名前を入力する時は、次の命名規則に従います。
    • フィールド名の最初の文字はアルファベット (A~Z と a~z) でなければなりません。
    • フィールド名には英数字と文字、スペースのみ使用できます。
    • フィールド名をスペースで終えることはできません。
  5. 光学式文字認識: 必要な OCR エンジンを選択します。
  6. オプション: [PDF ドキュメントに画像はありません] チェック ボックスをオフにします。詳細については、「PDFBox オプションの無効化」を参照してください
    このチェックボックスがオンの場合、IQ Bot は、PDF ドキュメントの処理に PDFBox OCR を使用します。PDF 以外のドキュメントは、前のステップで選択した OCR によって処理されます。
  7. チェックボックス自動検出: この機能を有効にするには、[チェックボックスを検出] チェック ボックスをオンにします。
    このオプションを選択すると、IQ Bot がドキュメント内のチェック ボックスを自動的に検出できるようになります。ただし、ドキュメントの処理時間が長くなる場合があります。
  8. [インスタンスを作成して分析] ボタンをクリックして、ラーニング インスタンスを作成します。
    システムは、フィールド識別に基づいてトレーニング ドキュメントを分析して論理グループに分類し、[ラーニング インスタンス] > [概要] タブにその詳細を表示します。
新しいラーニングインスタンスが作成されると、アップロードしたサンプル ドキュメントが分析され、ドキュメントの特徴に基づいてグループにソートされます。詳細については、「分類子について」を参照してください。

次のステップ

分類子がドキュメントをソートし終えると、Designer にリダイレクトされます。そこで各サンプル ドキュメントからデータを抽出する Bot をトレーニングします。トレーニングインスタンスをトレーニング