ラーニングインスタンスの作成
- 最終更新日2024/07/31
ラーニングインスタンスの作成
ラーニングインスタンスを作成し、トレーニング用のサンプル ドキュメントをアップロードします。このステップでは、請求書や発注書などの単一ドキュメント タイプのデータ要素と、抽出するフィールドを定義します。
前提条件
サンプル ドキュメントが以下の要件を満たしていることを確認します。
- 各ドキュメントは独立したファイルです。たとえば、E メールとその添付ファイルを 1 つの PDF にダウンロードした場合、E メールの本文を添付ファイルから分離する必要があります。「[ドキュメントを分割] アクション の使用」を参照してください。
- ドキュメントは、サポートされている以下のいずれかのファイル形式です。
- JPG
- JPEG
- PNG
- Tiff
- 解像度が 300 ドット パー インチ (dpi) 以上のドキュメントをおすすめします。
- ステージング環境では、1 つのラーニングインスタンスにつきファイル サイズ 10MB のドキュメントを最大 150 個までアップロードできます。
- 本番環境では、1 つのドキュメントにつき最大 50MB のファイル サイズをアップロードできます。ただし、1 つのラーニングインスタンスにつき許可される最大ドキュメント数は、ライセンスによって異なります。
- pdfbox OCR では、1 つのドキュメントあたりのページ数に制限はありません。
- 画像ベースの OCR では、1 つのドキュメントにつき 60 ページをアップロードできます。
- アップロードできるファイル サイズは 12MB までです。ラーニング インスタンスが作成された後でも他のドキュメントをアップロードできます。
- アップロードするドキュメントのファイル名の先頭は、ハイフン (-) などの特殊文字にしないでください。
- 抽出するテキストが次のいずれかの特殊文字で始まる場合: ‘# : , \ ` ''。テキストをキャプチャするとき、IQ Bot より、これらの特殊文字が無視されます。
注:
- Tesseract4 OCR で現在、1 つのドキュメントあたりのページ数が 60 ページ未満に制限される既知の制限事項があります。
- Azure のコンフィデンシャル コンピューティングにより、組織は暗号化されたデータを、仮想マシン上のプライベート フォルダーなどのセキュリティ保護されたストレージにアップロードできます。そのようなセキュリティ保護されたフォルダーから IQ Bot にドキュメントをアップロードすると、そのようなドキュメントではデータ抽出がサポートされていないため、これらは未分類ステータスに移動されます。
ドキュメントのコレクションをデジタル処理に挿入した場合、ドキュメントのタイプ、形式、向きが混在していると考えられます。たとえば、請求書には一貫したデータ要素セットが含まれていますが、発注書には異なるデータ要素セットが含まれています。以下のステップで、これらのドキュメント タイプごとに異なるラーニングインスタンスを作成する必要があります。
手順
次のステップ
分類子がドキュメントをソートし終えると、Designer にリダイレクトされます。そこで各サンプル ドキュメントからデータを抽出する Bot をトレーニングします。トレーニングインスタンスをトレーニング。