Lerninstanz erstellen

Erstellen Sie für Trainingszwecke eine Lerninstanz und laden Sie Beispieldokumente hoch. In diesem Schritt definieren Sie die Datenelemente für einen einzelnen Dokumenttyp, z. B. eine Rechnung oder eine Bestellung, und die Felder, die Sie extrahieren möchten.

Vorbereitungen

Stellen Sie sicher, dass die Beispieldokumente die folgenden Anforderungen erfüllen:
  • Jedes Dokument ist eine separate Datei. Wenn Sie z. B. eine E-Mail und ihre Anhänge in eine einzige PDF-Datei heruntergeladen haben, müssen Sie den E-Mail-Text von den Anhängen trennen. Einzelheiten finden Sie unter Verwendung der Aktion „Dokument unterteilen“.
  • Die Dokumente liegen in einem der folgenden unterstützten Dateitypen vor:
    • PDF
    • JPG
    • JPEG
    • PNG
    • TIFF
  • Verwenden Sie Dokumente mit einer Auflösung von mindestens 300 dpi.
  • Im Staging können Sie maximal 150 Dokumente mit einer Dateigröße von 10 MB pro Lerninstanz hochladen.
  • In der Produktion können Sie maximal 50 MB große Dateien pro Dokument hochladen. Die maximal zulässige Anzahl von Dokumenten pro Lerninstanz hängt jedoch von der Lizenz ab.
  • Es gibt keine Beschränkungen für die Anzahl der Seiten pro Dokument in einer PDFBox-OCR.
  • Sie können 60 Seiten pro Dokument in eine bildbasierte OCR hochladen.
  • Sie können Dateien mit einer Größe von bis zu 12 MB hochladen. Sie können zusätzliche Dokumente hinzufügen, nachdem Sie die Lerninstanz erstellt haben.
  • Die Dateinamen der Dokumente, die Sie hochladen, sollten nicht mit Sonderzeichen, z. B. einem Bindestrich (-), beginnen.
  • Wenn der Text, den Sie extrahieren möchten, mit einem der folgenden Sonderzeichen beginnt: ‘# : , \ ` '', werden die Sonderzeichen von IQ Bot bei der Erfassung des Textes ignoriert.
Anmerkung:
  • Beim Tesseract4 OCR gibt es derzeit eine bekannte Beschränkung, die die Anzahl der Seiten pro Dokument auf weniger als 60 Seiten begrenzt.
  • Mit Azure Confidential Computing können Unternehmen verschlüsselte Daten in sicheren Speicher hochladen, z. B. in private Ordner auf einer virtuellen Maschine. Wenn Sie Dokumente aus solchen gesicherten Ordnern in IQ Bot hochladen, werden diese in den Status Nicht klassifiziert verschoben, da die Datenextraktion für solche Dokumente nicht unterstützt wird.

Wenn Sie mit einer Sammlung von Dokumenten beginnen, die in einen digitalen Prozess eingefügt werden sollen, werden Sie wahrscheinlich eine Mischung aus verschiedenen Dokumenttypen, Formaten und Ausrichtungen haben. Eine Rechnung hat zum Beispiel einen einheitlichen Satz von Datenelementen, während eine Bestellung einen anderen Satz von Datenelementen enthält. Sie müssen für jeden dieser Dokumenttypen eine eigene Lerninstanz erstellen, indem Sie die folgenden Schritte ausführen:

Prozedur

  1. Navigieren Sie zu LERNINSTANZEN und klicken Sie auf die Option Neue Instanz.
  2. Geben Sie im Bildschirm Neue Lerninstanz erstellen die folgenden Informationen ein:
    1. Instanzname: Geben Sie einen eindeutigen Namen ein.
      IQ Bot Version A360.21 und niedriger lässt keine doppelten Lerninstanznamen zu. Selbst wenn Sie eine Lerninstanz löschen, kann der Name nicht wiederverwendet werden. Ab IQ Bot Version A360.22 ist es möglich, doppelte Lerninstanznamen zu erstellen und den Namen einer gelöschten Lerninstanz wiederzuverwenden.
    2. Optional: Beschreibung: Geben Sie eine Beschreibung ein.
    3. Dokumenttyp: Wählen Sie aus der Dropdown-Liste einen Dokumenttyp aus.
      Wählen Sie bei der Erstellung von Lerninstanzen keine Standardformulare als Dokumenttyp aus. Basierend auf der von Ihnen ausgewählten Option wird ein vordefinierter Satz von Formular- und Tabellenfeldern für den Domänentyp angezeigt. Wenn Sie beispielsweise Rechnungen auswählen, werden die Standardformulare und -tabellen einer Rechnung angezeigt.
      Anmerkung: Wenn Sie eine Domäne speziell für diese Lerninstanz erstellen möchten, wählen Sie Dokumenttyp > Sonstiges aus und geben Sie einen Domänennamen ein. In den nächsten Schritten werden Sie die Domäne anpassen.

      Weitere Informationen zur Erstellung einer benutzerdefinierten Domäne finden Sie in folgendem Video:

      Wenn Sie eine Domäne erstellen möchten, die in mehr als einer Lerninstanz verwendet werden soll, und Sie über die erforderlichen Zugriffsberechtigungen verfügen, können Sie mit dem Automation Anywhere-Support zusammenarbeiten, um eine benutzerdefinierte Domäne zu erstellen. Einzelheiten finden Sie unter Benutzerdefinierte Domänen in IQ Bot.

    4. Primärsprache der Dokumente: Verwenden Sie das Dropdown-Menü, um eine Sprache für die Lerninstanz auszuwählen.
      Um benutzerdefinierte Domänen in anderen Sprachen zu erstellen und auf bis zu 190 Sprachen zuzugreifen, die von IQ Bot unterstützt werden, wenden Sie sich bitte an den Support von Automation Anywhere.
      Wichtig: Wenn Sie nicht alle Sprachen in der IQ Bot-Nutzeroberfläche sehen können, beheben Sie das Problem: Unable to extract data from Multiple languages in a document (A-People login required)
    5. Hochladen Ihrer Dokumente: Klicken Sie auf die Option Durchsuchen, um Beispieldokumente hochzuladen.
  3. Wählen Sie in den Abschnitten Allgemeine Formularfelder und Allgemeine Felder für Tabelle/sich wiederholenden Abschnitt Felder aus oder heben Sie die Auswahl auf.
    Formularfelder erscheinen nur einmal in einem Dokument, z. B. das Rechnungsdatum oder die Rechnungsnummer. Tabellenfelder sind Felder, die im gesamten Dokument immer wieder auftauchen, z. B. die Artikelsumme oder die Menge.
    Um alle möglichen Felder zu sehen, klicken Sie auf Zusätzliche Formularfelder oder Zusätzliche Felder für Tabelle/sich wiederholenden Abschnitt.
  4. Optional: Fügen Sie zusätzliche Felder hinzu, indem Sie den Feldnamen in den Abschnitt Zusätzliche Formularfelder oder Zusätzliche Felder für Tabelle/sich wiederholenden Abschnitt eingeben.
    Befolgen Sie die Benennungskonventionen, wenn Sie einen Namen in das Feld Felder hinzufügen (optional) eingeben:
    • Feldnamen dürfen nur mit Buchstaben (A–Z und a–z) beginnen.
    • Feldnamen dürfen nur alphanumerische Zeichen und Leerzeichen enthalten.
    • Der Feldname darf nicht mit einem Leerzeichen enden.
  5. Optische Zeichenerkennung: Wählen Sie die erforderliche OCR-Engine aus.
  6. Optional: Deaktivieren Sie das Kontrollkästchen Meine PDF-Dokumente enthalten keine Bilder. Weitere Informationen finden Sie unter Deaktivieren der PDFBox-Option.
    Wenn dieses Kontrollkästchen aktiviert ist, verwendet IQ Bot PDFBox-OCR zur Verarbeitung von PDF-Dokumenten; Nicht-PDF-Dokumente werden mit der OCR verarbeitet, die Sie im vorherigen Schritt ausgewählt haben.
  7. Automatische Kontrollkästchen-Erkennung: Aktivieren Sie das Kontrollkästchen Kontrollkästchen erkennen, um diese Funktion zu aktivieren.
    Wenn Sie diese Option auswählen, kann IQ Bot Kontrollkästchen in einem Dokument automatisch erkennen. Dies kann jedoch die Verarbeitungszeit von Dokumenten erhöhen.
  8. Klicken Sie auf die Option Instanz erstellen und analysieren, um die Lerninstanz zu erstellen.
    Das System analysiert und sortiert die Trainingsdokumente anhand der Feldidentifikation in logische Gruppen und zeigt ihre Details auf der Registerkarte Lerninstanz > Zusammenfassung an.
Wenn eine neue Lerninstanz erstellt wird, werden die von Ihnen hochgeladenen Beispieldokumente analysiert und anhand der Dokumentmerkmale in Gruppen sortiert. Weitere Informationen finden Sie unter Über den Klassifikator.

Nächste Maßnahme

Nachdem der Klassifizierer die Sortierung der Dokumente abgeschlossen hat, werden Sie zum Designer weitergeleitet, wo Sie Bots trainieren, um Daten aus jedem Beispieldokument zu extrahieren. Trainieren einer Lerninstanz.