OCR エンジンの選択

UI からさまざまな OCR エンジンを選択して、ドキュメント タイプに基づくデータ抽出の要件に最適なものを確認できます。エンジン変更を実装するには、IQ Bot サービスの停止と再起動は必要ありません。

IQ Bot のインストール中、システムは Tesseract Optical Character Reader の最新バージョンをデフォルトの OCR エンジンとして設定します。これは、製品のグローバル設定でもあります。

ただし、デフォルトのエンジンとなる OCR エンジンは Settings.txt ファイルで手動で設定することができます。IQ Bot の以前のリリースと同様に、デフォルトとして設定する OCR エンジン名で Settings.txt ファイルを手動で更新できます。

Settings.txt ファイル構成で、廃止バージョンの OCR エンジンまたはサポートされていないエンジンを選択すると、エラー メッセージが表示されます。

IQ Bot Version 11.3.5 から、ラーニングインスタンスを作成するときに、UI で直接利用できるドロップダウン リストから OCR エンジンを選択できます。
注: UI で OCR のエンジンを選択すると、Settings.txt ファイルの設定が上書きされます。

ラーニングインスタンスの作成

手順

  1. [新しいラーニングインスタンスを作成] ページで、ドメインとドキュメントの言語を選択します。
    [ラーニングインスタンス] リストページでは、新しい OCR エンジン列が利用でき、各ラーニングインスタンスの作成に使用される OCR エンジンが表示されます。この情報は、ユーザーがドキュメント処理を決定する際に役立ちます。
  2. ドメインを選択すると、[抽出するフィールド][詳細設定] セクションが表示されます。
    各ドメインは、主要なサポート言語の定義済みリストで利用できます。言語の選択は有効になっており、特定のドメインでサポートされている言語に基づいて、[ドキュメントの主要言語] ドロップダウン リストから使用できます。
    注: [ドキュメントの主要言語] ドロップダウン リストから言語を選択し、その言語をサポートしていないエンジンを選択すると、[光学式文字認識] ドロップダウン リストにエラー メッセージが表示されます。
  3. [詳細設定] > [光学式文字認識] をクリックして、OCR エンジン オプションのドロップダウン リストを表示します。

    OCR エンジンの選択が無効な場合、[インスタンスを作成して分析] オプションは無効化されます。

    注: IQ Bot は、ABBYY FineReader Engine を除くすべての OCR エンジンを自動的にインストールします。

    以下から選択できます。

    オプション説明
    Tesseract OCR4 これは、Settings.txt ファイルで変更されない限り、デフォルトのエンジンです。IQ Bot Version 11.3.5 以降で選択できるのは Tesseract4 OCR または以降のバージョンだけです。
    ABBYY FineReader Engine このプラグインは、インストール中に自動的にインストールされません。この OCR エンジンをダウンロードするには、次のステップに従います。IQ Bot への ABBYY FineReader Engine OCR エンジンのインストール

    ABBYY FineReader Engine がインストールされていて使用可能であることを確認するには、Settings.txt ファイル、SDK ファイルの OCR プラグイン フォルダ、および [光学式文字認識] ドロップダウン リストを確認します。

    Microsoft Azure Computer Vision OCR engine IQ Bot は、 エンジンでサポートされているすべての言語をサポートしています。

    Microsoft Azure Computer Vision OCR engine の使用

    Google Vision API IQ Bot Version 11.3.5Google Vision APIOCR エンジンとしてサポートし、エンジンでサポートされるすべての言語をサポートします。このリリース以前は、エンジンは主に日本語と韓国語のテキストのデータ抽出のみをサポートしていました。

    Google Vision API OCR エンジンの使用

    (ベータ) Tegaki API IQ Bot Version 11.3.5 は、この OCR エンジンのベータ版をサポートし、日本語および韓国語のドキュメントに固有のデータを抽出します。Tegaki API を使用するには、プライベート ライセンスをダウンロードして使用する必要があります。

    Tegaki API OCR エンジンを使用する

    [PDF ドキュメントに画像はありません] チェック ボックス [PDF ドキュメントには画像がありません] チェック ボックスは、デフォルトで有効になっています。これを無効にするオプションがあります。

    PDFBox オプションの無効化

    ヒント: IQ Bot が低品質のドキュメントや手書きのドキュメントからデータを抽出できない場合は、問題のトラブルシューティングを行ってください。

    IQ Bot unable to extract data from low quality and Handwritten documents (A-People login required)