Lerninstanz erstellen
- Zuletzt aktualisiert2024/07/31
Lerninstanz erstellen
Erstellen Sie für Trainingszwecke eine Lerninstanz und laden Sie Beispieldokumente hoch. In diesem Schritt definieren Sie die Datenelemente für einen einzelnen Dokumenttyp, z. B. eine Rechnung oder eine Bestellung, und die Felder, die Sie extrahieren möchten.
Vorbereitungen
- Jedes Dokument ist eine separate Datei. Wenn Sie z. B. eine E-Mail und ihre Anhänge in eine einzige PDF-Datei heruntergeladen haben, müssen Sie den E-Mail-Text von den Anhängen trennen. Einzelheiten finden Sie unter Verwendung der Aktion „Dokument unterteilen“.
- Die Dokumente liegen in einem der folgenden unterstützten Dateitypen vor:
- JPG
- JPEG
- PNG
- TIFF
- Verwenden Sie Dokumente mit einer Auflösung von mindestens 300 dpi.
- Im Staging können Sie maximal 150 Dokumente mit einer Dateigröße von 10 MB pro Lerninstanz hochladen.
- In der Produktion können Sie maximal 50 MB große Dateien pro Dokument hochladen. Die maximal zulässige Anzahl von Dokumenten pro Lerninstanz hängt jedoch von der Lizenz ab.
- Es gibt keine Beschränkungen für die Anzahl der Seiten pro Dokument in einer PDFBox-OCR.
- Sie können 60 Seiten pro Dokument in eine bildbasierte OCR hochladen.
- Sie können Dateien mit einer Größe von bis zu 12 MB hochladen. Sie können zusätzliche Dokumente hinzufügen, nachdem Sie die Lerninstanz erstellt haben.
- Die Dateinamen der Dokumente, die Sie hochladen, sollten nicht mit Sonderzeichen, z. B. einem Bindestrich (-), beginnen.
- Wenn der Text, den Sie extrahieren möchten, mit einem der folgenden Sonderzeichen beginnt: ‘# : , \ ` '', werden die Sonderzeichen von IQ Bot bei der Erfassung des Textes ignoriert.
- Beim Tesseract4 OCR gibt es derzeit eine bekannte Beschränkung, die die Anzahl der Seiten pro Dokument auf weniger als 60 Seiten begrenzt.
- Mit Azure Confidential Computing können Unternehmen verschlüsselte Daten in sicheren Speicher hochladen, z. B. in private Ordner auf einer virtuellen Maschine. Wenn Sie Dokumente aus solchen gesicherten Ordnern in IQ Bot hochladen, werden diese in den Status Nicht klassifiziert verschoben, da die Datenextraktion für solche Dokumente nicht unterstützt wird.
Wenn Sie mit einer Sammlung von Dokumenten beginnen, die in einen digitalen Prozess eingefügt werden sollen, werden Sie wahrscheinlich eine Mischung aus verschiedenen Dokumenttypen, Formaten und Ausrichtungen haben. Eine Rechnung hat zum Beispiel einen einheitlichen Satz von Datenelementen, während eine Bestellung einen anderen Satz von Datenelementen enthält. Sie müssen für jeden dieser Dokumenttypen eine eigene Lerninstanz erstellen, indem Sie die folgenden Schritte ausführen:
Prozedur
Nächste Maßnahme
Nachdem der Klassifizierer die Sortierung der Dokumente abgeschlossen hat, werden Sie zum Designer weitergeleitet, wo Sie Bots trainieren, um Daten aus jedem Beispieldokument zu extrahieren. Trainieren einer Lerninstanz.