Automation 360

[クラシファイアをトレーニング] アクションの使用

PDF としてダウンロード

コンテンツ

[クラシファイアをトレーニング] アクションの使用

PDF としてダウンロード

最終更新日2024/12/03

[クラシファイアをトレーニング] アクションを使用して、[分類] アクションによって使用されるモデルファイルを作成し、入力に必要なカテゴリにドキュメントを並べ替えます。

前提条件

Bot をビルドする前に、サンプルドキュメントを収集し、フォルダーに分類します。サンプルドキュメントのセットが次の要件を満たしていることを確認します。

少なくとも 2 つのカテゴリがある。
カテゴリごとに 15 ページ以上ある (20 ページを推奨)。
複数ページの入力 PDF ドキュメントが 1 ページの PDF ドキュメントに分割されている。「[ドキュメントを分割] アクションの使用」を参照してください。
たとえば、3 ページの PDF ドキュメントがある場合は、1 ページの PDF ドキュメント 3 つに分割します。

これらの最小要件を満たしていない場合、Bot 実行時にエラーメッセージが表示されます。

各フォルダーには、関連するラーニングインスタンスが処理するドキュメントのサンプルとなるドキュメントが選択されています。 [クラシファイアをトレーニング] アクションは、フォルダー内のファイルを読み取り、各フォルダー内に格納されているドキュメントに基づいてモデルをビルドします。

注: 現在 ABBYY FineReader エンジン OCR はバージョン 12.4 からバージョン 12.2 にダウングレードされているため、の v.24 では、古い .icmf ファイルを使用してAutomation 360モデルを再トレーニングすることはできませんドキュメント分類子パッケージ。既存のカテゴリにさらにカテゴリやファイルを追加する場合は、モデルを新規作成する必要があります。

手順

[ アクション ] パレットで、[ドキュメント分類子] アクションの [クラシファイアをトレーニング] パッケージをダブルクリックまたはドラッグします。
モデルファイルの新規作成を続行するには、[トレーニング] をクリックします。
オプション: 既存のモデルファイルがある場合は、[再トレーニング] をクリックします。
1. [トレーニングフォルダーパス] フィールドを使用して、[デスクトップフォルダー] タブから既存のフォルダーパスを選択します。
  または、[変数] タブをクリックして、既存のトレーニングフォルダーのパスを手動で入力します。
2. [既存の zip パス] フィールドを使用して、[Control Room ファイル] タブまたは [デスクトップファイル] タブから .zip フォルダーのファイルパスを選択します。
  または、[変数] タブをクリックして、.zip フォルダーのパスを手動で入力します。
  
  注: ドキュメントをトレーニングすると .zip フォルダーが作成され、.icmf、.data、および .properties ファイルが格納されます。既存のモデルファイルを再トレーニングするために、.zip フォルダー全体をアップロードしてください。
[デスクトップフォルダー] または [変数] から入力フォルダーパスを選択します。

入力フォルダーパスには、クラシファイアをトレーニングするドキュメントのカテゴリに対応する名前を持つサブディレクトリが必要です。たとえば、売上関連のドキュメントがある場合、入力フォルダーパスには、Invoice や Purchase Order などのサブフォルダーが必要です。
オプション: [デスクトップファイル] を選択した場合は、[参照] をクリックしてデフォルトのファイルパスを変更します。
モデル名フィールドにモデルファイルの名前を入力します。
モデル出力パスフィールドを使用して、出力モデルファイルのディレクトリを選択します。
オプション: 次の [詳細設定] を構成します。
1. トレーニングの最適化: ドロップダウンメニューを使用して、トレーニング最適化のタイプを選択します。
  - [精度]: トレーニングモデルの精度を上げたい場合は、このオプションを選択してください。ただし、一部のドキュメントでは精度を満たせない可能性があります。
  - [リコール]: トレーニングモデルでデータセット内のすべての関連ケースを検索する場合は、このオプションを選択します。
  - [F1 スコア]: デフォルトで選択されており、[精度] と [リコール] の両方のトレーニング最適化を組み合わせた推奨設定です。
  [F1 スコア] はデフォルトで選択されています。 [精度] および [リコール]。
2. [分類タイプ]: ドロップダウンメニューを使用して、テキスト、画像、またはその両方など、含める機能を選択します。
  
  デフォルトでは、[テキストと画像] が選択されています。 [テキスト] または [テキストおよび画像] を選択すると、サポートされている言語のリストが [認識言語] ドロップダウンメニューに表示されます。
3. [OCR 設定]: [すべてのテキストブロックを抽出] および [画像からテキストを抽出] は、デフォルトで有効になっています。
  
  [OCR 設定] がデフォルトで有効になっているため、OCR でのコンテンツの抽出にかかる時間が長くなります。これにより、比較的品質の低いドキュメントも OCR からの入力に基づいて処理されます。
保存、実行の順にクリックします。
既存モデルを再トレーニングする場合、すでにトレーニング済みのデータをフェッチし、入力済みドキュメントのテキストやレイアウトの機能から生成された新しいデータと組み合わせます。この後で、機械学習モデルのトレーニングをゼロから行う必要があります。この方法では、すでにトレーニング済みのドキュメントのテキストデータやレイアウトデータの再生成に必要な時間が削減できます。ただし、機械学習モデルのトレーニングは計算量が多い部分であるため、再トレーニングには時間がかかることが予想されます。これが制約となってしまう場合は、モデルファイルを追加作成し、このファイルを追加トレーニングや分類に使用することをお勧めします。

モデルは、[モデル出力パス] フィールドで指定したディレクトリに .icmf ファイルとして作成されます。

次のステップ

モデルを作成したら、入力ドキュメントを分類する Bot をビルドします。「[分類] アクションの使用」を参照してください。

Automation 360