[クラシファイアをトレーニング] アクション の使用

[クラシファイアをトレーニング] アクション を使用して、[分類] アクション によって使用されるモデル ファイルを作成し、入力に必要なカテゴリにドキュメントを並べ替えます。

前提条件

Bot をビルドする前に、サンプル ドキュメントを収集し、フォルダーに分類します。サンプル ドキュメントのセットが次の要件を満たしていることを確認します。

  • 少なくとも 2 つのカテゴリがある。
  • カテゴリごとに 15 ページ以上ある (20 ページを推奨)。
  • 複数ページの入力 PDF ドキュメントが 1 ページの PDF ドキュメントに分割されている。「[ドキュメントを分割] アクション の使用」を参照してください。

    たとえば、3 ページの PDF ドキュメントがある場合は、1 ページの PDF ドキュメント 3 つに分割します。

これらの最小要件を満たしていない場合、Bot 実行時にエラー メッセージが表示されます。

各フォルダーには、関連するラーニングインスタンスが処理するドキュメントのサンプルとなるドキュメントが選択されています。[クラシファイアをトレーニング] アクション は、フォルダー内のファイルを読み取り、各フォルダー内に格納されているドキュメントに基づいてモデルをビルドします。
注: 現在 ABBYY FineReader エンジン OCR はバージョン 12.4 からバージョン 12.2 にダウングレードされているため、ドキュメント分類子 パッケージAutomation 360 v.24 では、古い .icmf ファイルを使用してモデルを再トレーニングすることはできません。既存のカテゴリにさらにカテゴリやファイルを追加する場合は、モデルを新規作成する必要があります。

手順

  1. [ アクション ] パレットで、[ドキュメント分類子] パッケージの [クラシファイアをトレーニング] アクションをダブルクリックまたはドラッグします。
  2. モデル ファイルの新規作成を続行するには、[トレーニング] をクリックします。
  3. オプション: 既存のモデル ファイルがある場合は、[再トレーニング] をクリックします。
    1. [トレーニング フォルダー パス] フィールドを使用して、[デスクトップ フォルダー] タブから既存のフォルダー パスを選択します。
      または、[変数] タブをクリックして、既存のトレーニング フォルダーのパスを手動で入力します。
    2. [既存の zip パス] フィールドを使用して、[Control Room ファイル] タブまたは [デスクトップ ファイル] タブから .zip フォルダーのファイルパスを選択します。
      または、[変数] タブをクリックして、.zip フォルダーのパスを手動で入力します。
      注: ドキュメントをトレーニングすると .zip フォルダーが作成され、.icmf.data、および .properties ファイルが格納されます。既存のモデル ファイルを再トレーニングするために、.zip フォルダー全体をアップロードしてください。
  4. [デスクトップ フォルダー] または [変数] から入力フォルダー パスを選択します。

    入力フォルダー パスには、クラシファイアをトレーニングするドキュメントのカテゴリに対応する名前を持つサブディレクトリが必要です。たとえば、売上関連のドキュメントがある場合、入力フォルダー パスには、InvoicePurchase Order などのサブフォルダーが必要です。

  5. オプション: [デスクトップ ファイル] を選択した場合は、[参照] をクリックしてデフォルトのファイルパスを変更します。
  6. [モデル名] フィールドにモデル ファイルの名前を入力します。
  7. [モデル出力パス] フィールドを使用して、出力モデル ファイルのディレクトリを選択します。
  8. オプション: 次の [詳細設定] を構成します。
    1. トレーニングの最適化: ドロップダウン メニューを使用して、トレーニング最適化のタイプを選択します。
      • [精度]: トレーニング モデルの精度を上げたい場合は、このオプションを選択してください。ただし、一部のドキュメントでは精度を満たせない可能性があります。
      • [リコール]: トレーニング モデルでデータセット内のすべての関連ケースを検索する場合は、このオプションを選択します。
      • [F1 スコア]: デフォルトで選択されており、[精度] と [リコール] の両方のトレーニング最適化を組み合わせた推奨設定です。

      [F1 スコア] はデフォルトで選択されています。[精度] および [リコール]。

    2. [分類タイプ]: ドロップダウン メニューを使用して、テキスト、画像、またはその両方など、含める機能を選択します。

      デフォルトでは、[テキストと画像] が選択されています。[テキスト] または [テキストおよび画像] を選択すると、サポートされている言語のリストが [認識言語] ドロップダウン メニューに表示されます。

    3. [OCR 設定]: [すべてのテキスト ブロックを抽出] および [画像からテキストを抽出] は、デフォルトで有効になっています。

      [OCR 設定] がデフォルトで有効になっているため、OCR でのコンテンツの抽出にかかる時間が長くなります。これにより、比較的品質の低いドキュメントも OCR からの入力に基づいて処理されます。

  9. [保存]、[実行] の順にクリックします。
    既存モデルを再トレーニングする場合、すでにトレーニング済みのデータをフェッチし、入力済みドキュメントのテキストやレイアウトの機能から生成された新しいデータと組み合わせます。この後で、機械学習モデルのトレーニングをゼロから行う必要があります。この方法では、すでにトレーニング済みのドキュメントのテキスト データやレイアウト データの再生成に必要な時間が削減できます。ただし、機械学習モデルのトレーニングは計算量が多い部分であるため、再トレーニングには時間がかかることが予想されます。これが制約となってしまう場合は、モデル ファイルを追加作成し、このファイルを追加トレーニングや分類に使用することをお勧めします。
    モデルは、[モデル出力パス] フィールドで指定したディレクトリに .icmf ファイルとして作成されます。

次のステップ

モデルを作成したら、入力ドキュメントを分類する Bot をビルドします。「[分類] アクション の使用」を参照